From: Doni Pracner <quinnuendo@gmail.com>
Date: Tue, 19 Nov 2019 18:38:29 +0000 (+0100)
Subject: Hash, doterivanje tekstualnog materijala
X-Git-Url: http://svarog.pmf.uns.ac.rs/gitweb/?p=spa2-materijali.git;a=commitdiff_plain

Hash, doterivanje tekstualnog materijala
---

diff --git a/Hash/primeri/hash.pdf b/Hash/primeri/hash.pdf
index 5b8cd5a..f698c1a 100644
Binary files a/Hash/primeri/hash.pdf and b/Hash/primeri/hash.pdf differ
diff --git a/Hash/primeri/hash.txt b/Hash/primeri/hash.txt
index dbad695..6834106 100644
--- a/Hash/primeri/hash.txt
+++ b/Hash/primeri/hash.txt
@@ -1,6 +1,6 @@
 % Hash funkcije - pripremni materijal
-% SPA2, DMI-PMF-UNS, www.dmi.rs
-% 2016
+% SPA2, DMI-PMF-UNS, www.dmi.uns.ac.rs
+% 2019
 
 HeÅ¡ kod i jednakost u programskom jeziku Java
 =============================================
@@ -42,6 +42,10 @@ Klasa `String` ima redefinisana oba ova metoda. HeÅ¡ kod koji se dobija
 za ovu klasu je veoma kvalitetan i uglavnom se vredi osloniti na njega
 za polja ovog tipa.
 
+NaÅ¾alost, nizovi nemaju nijednu od ove dve funkcije definisane kako
+treba, pa kada se radi sa njima, mora se uloÅ¾iti napor da se
+pojedinaÄni elementi u nizu porede, odnosno heÅ¡uju.
+
 
 Ocene kvaliteta funkcije
 ========================
@@ -71,28 +75,9 @@ Osim ovog podatka se ispisuje i duÅ¾ina najduÅ¾eg lanca u skupu, koja
 daje predstavu o tome koliko je pretraÅ¾ivanje u najgorem sluÄaju. Ovaj
 broj takoÄe treba da je Å¡to manji.
 
-
-NeÅ¡to komplikovanija mera je $\chi^2$ \emph{(hi-kvadrat)} test.
-\begin{equation}
-  \chi ^2 = \sum_{i=1}^{n} \frac{(K_i - E)^2}{E}
-\end{equation}
-
-gde je $K_i$ - broj elemenata u podskupu $i$, a $E$ - oÄekivan broj
-elemenata u podskupu, odnosno idealna vrednost koja je jednaka
-koliÄniku ukupnog broja elemenata i broja skupova.
-
-Iako deluje relativno komplikovano, ovo nam zapravo daje dobru ocenu
-koliko su (ne)ravnomerno rasporeÄeni elementi.  U idealno sluÄaju bi
-sve $K_i$ vrednosti bile jednake sa $E$ i imali bi da je vrednost
-testa nula. U opÅ¡tem sluÄaju se naravno javljaju odstupanja od
-proseka, a poÅ¡to kvadriramo udaljenosti, $\chi^2$ brzo raste ukoliko
-ima veÄih anomalija.
-
-Program daje vrednosti za ovaj test i u odnosu na idealan
-sluÄaj kada je broj lanaca/podskupova jednak sa brojem
-elemenata, kao i za realan broj podskupova (tj razliÄitih
-vrednosti elemenata).
-
+Program ispisuje i vrednosti $chi^2$ testa, o Äemu postoji joÅ¡
+komentara na kraju ovog dokumenta, ali se inaÄe neÄe dublje
+razmatrati, nego se ostavlja zainteresovanima da pogledaju.
 
 Primeri
 =======
@@ -145,8 +130,6 @@ Number of elements:	4885
 Different values:	100 ( 2.05 %)
 Avg. search chain len.:	48.85 +- 2.99
 Longest search chain:	56
-Chi square (no. of el):	229,855.00
-Chi square (diff el.):	18.28
 ```
 
 BuduÄi da ima samo 100 soba, moÅ¾e biti i samo 100 razliÄitih heÅ¡ vrednosti, te
@@ -176,8 +159,6 @@ Number of elements:	4885
 Different values:	61 ( 1.25 %)
 Avg. search chain len.:	80.08 +- 3.96
 Longest search chain:	89
-Chi square (no. of el):	382,448.00
-Chi square (diff el.):	11.95
 ```
 
 OÄigledno je potrebno kombinovati ove dve vrednosti, odnosno
@@ -202,8 +183,6 @@ Number of elements:	4885
 Different values:	  4885	(100.00 %)
 Avg. search chain len.:	 1.00 +-  0.00
 Longest search chain:	    1
-Chi square (no. of el):	          0.00
-Chi square (diff el.):	          0.00
 ```
 
 
@@ -235,7 +214,9 @@ pitanju baÅ¡ ista klasa kao naÅ¡a (moguÄe da je neki naslednik koji
 tehniÄki ne mora biti isti), te da tu uzme u obzir i da je moguÄe da
 nam je prosleÄen `null` Å¡to nikako ne moÅ¾e biti isto kao i naÅ¡
 objekat. Dalje se moÅ¾e ubrzati postupak proverom da li su u pitanju
-pokazivaÄi na isto mesto poÅ¡to nema potrebe za proverama onda.
+pokazivaÄi na isto mesto poÅ¡to nema potrebe za proverama onda. TakoÄe
+se preporuÄuje da se polja porede jedno po jedno, poÅ¡to je kod
+pregledniji i lakÅ¡e se menja, nego kad se kombinuju upiti kao gore.
 
 Potpuna verzija bi izgledala ovako:
 
@@ -317,6 +298,11 @@ puta, u podacima Äe biti nizovi razliÄitih duÅ¾ina.  U skladu sa tim je
 i format za unos takav da je prvi broj u redu zapravo broj gaÄanja,
 koji odreÄuje veliÄinu niza.
 
+Na poÄetku je veÄ bilo napomenuto da nizovi nemaju `hashCode` i
+`equals` implementirane na naÄine koji bi odgovarao ovoj situaciji,
+tako da se mora implentirati pojedinaÄno poreÄenje elemenata, naroÄito
+kod ovakvih situacija sa dodatnim znaÄenjima elemenata.
+
 Funkcija jednakosti bi izgledala ovako:
 
 ```Java
@@ -335,23 +321,31 @@ Funkcija jednakosti bi izgledala ovako:
 		}
 
 		Gadjanje o2 = (Gadjanje) o;
-		// proveravamo da li je polje null pre dalje provere
+
+		// proveravamo da li su polja null pre dalje provere
+		if (rezultati == null && o2.rezultati != null) {
+			return false;
+		}
+		if (rezultati != null && o2.rezultati == null) {
+			return false;
+		}
+
+		// ako u obe instance nije null, poredimo delove
 		if (rezultati != null && o2.rezultati != null) {
-			if (o2.rezultati.length == rezultati.length) {
-				for (int i = 0; i < rezultati.length; i++) {
-						if (o2.rezultati[i] != rezultati[i]){
-							// cim je nesto razlicito nisu isti
-						return false;
-						}
+			// proverimo duzinu.
+			if (o2.rezultati.length != rezultati.length) {
+				return false;
+			}
+			// ako je ista duzina proveravamo elemente
+			for (int i = 0; i < rezultati.length; i++) {
+				if (o2.rezultati[i] != rezultati[i]) {
+					// cim je nesto razlicito nisu isti
+					return false;
 				}
-				// ako se sve vrednosti slazu isti su
-				return true;
 			}
-			return false;
-		} else {
-			// vracamo da li su oba null, tj da li su jednaki
-			return (rezultati == null && o2.rezultati == null);
 		}
+		// ako nije bilo razlika, vracamo da je sve ok
+		return true;
 	}
 ```
 
@@ -366,8 +360,6 @@ Number of elements:	9049
 Different values:	139 ( 1.54 %)
 Avg. search chain len.:	65.10 +- 37.98
 Longest search chain:	118
-Chi square (no. of el):	771,638.00
-Chi square (diff el.):	3,079.85
 ```
 
 U ovakvoj strukturi, pozicija u nizu bi trebalo da bude znaÄajna za
@@ -398,8 +390,6 @@ Number of elements:	9049
 Different values:	1411 (15.59 %)
 Avg. search chain len.:	6.41 +- 3.89
 Longest search chain:	20
-Chi square (no. of el):	62,736.00
-Chi square (diff el.):	3,335.34
 ```
 
 Problem je zapravo Å¡to brojevi nisu dovoljno razliÄiti. PoÅ¡to znamo da su
@@ -419,8 +409,6 @@ Number of elements:	9049
 Different values:	8911 (98.47 %)
 Avg. search chain len.:	1.02 +- 0.14
 Longest search chain:	4
-Chi square (no. of el):	176.00
-Chi square (diff el.):	171.21
 ```
 
 MoÅ¾emo uoÄiti i sledeÄe - ako na poÄetku nekog niza stoje 0, one Äe biti ignorisane
@@ -446,8 +434,6 @@ Number of elements:	9049
 Different values:	9049 (100.00 %)
 Avg. search chain len.:	1.00 +- 0.00
 Longest search chain:	1
-Chi square (no. of el):	0.00
-Chi square (diff el.):	0.00
 ```
 
 
@@ -536,8 +522,6 @@ Number of elements:	4424
 Different values:	18 ( 0.41 %)
 Avg. search chain len.: 245.78 +- 253.74
 Longest search chain:	674
-Chi square (no. of el):	2,237,400.00
-Chi square (diff el.):	4,715.27
 ```
 
 Efikasnost se u ovakvoj strukturi dobija davanjem "teÅ¾ine"
@@ -555,7 +539,73 @@ sa vrednostima polja. Jedan naÄin da se ovo uradi u konkretnom sluÄaju
 je da se pri raÄunanju heÅ¡a vrednosti u matrici sabiraju sa 2, pa time
 imamo 1,2,3 umesto -1,0,1, Å¡to dovodi do veÄe razliÄitosti.
 
-Kombinovanjem ovih ideja se mogu napraviti `hashCode` metodi koji Äe
-rezultovati sa hi kvadrat vrednostima manjim od broja podskupova
-("kolona"), Å¡to se ostavlja za samostalnu veÅ¾bu.
+Jedno od moguÄih reÅ¡enja koje daje dobre rezultate je zapravo jako
+sliÄno onome viÄeno kod niza - ako stalno mnoÅ¾imo sa brojem koji je
+veÄi od moguÄih vrednosti jednog elementa, automatski su sva mesta
+pomnoÅ¾ena razliÄitim koeficijentom. Ovo moÅ¾emo kombinovati sa
+pomeranjem pojedinaÄnih elemenata na pozitivne vrednosti, mada se
+dobri rezultati mogu postiÄi i bez toga.
+
+```Java
+	public int hashCode() {
+		int rez = 0;
+		int koef = 3;
+		for (int i = 0; i < DIM; i++) {
+			for (int j = 0; j < DIM; j++) {
+				rez = koef * (rez + (tabla[i][j] + 2));
+			}
+		}
+		return rez;
+	}
+```
+
+```
+Number of elements:	  4424
+Different values:	  4424	(100.00 %)
+Avg. search chain len.:	 1.00 +-  0.00
+Longest search chain:	    1
+```
+
+
+Dodatne napomene
+================
+
+Hi kvadrat ocena kvaliteta heÅ¡ funkcije
+-----------------------------------
+
+NeÅ¡to komplikovanija mera je $\chi^2$ \emph{(hi-kvadrat)} test.
+\begin{equation}
+  \chi ^2 = \sum_{i=1}^{n} \frac{(K_i - E)^2}{E}
+\end{equation}
+
+gde je $K_i$ - broj elemenata u podskupu $i$, a $E$ - oÄekivan broj
+elemenata u podskupu, odnosno idealna vrednost koja je jednaka
+koliÄniku ukupnog broja elemenata i broja skupova.
+
+Iako deluje relativno komplikovano, ovo nam zapravo daje dobru ocenu
+koliko su (ne)ravnomerno rasporeÄeni elementi.  U idealno sluÄaju bi
+sve $K_i$ vrednosti bile jednake sa $E$ i imali bi da je vrednost
+testa nula. U opÅ¡tem sluÄaju se naravno javljaju odstupanja od
+proseka, a poÅ¡to kvadriramo udaljenosti, $\chi^2$ brzo raste ukoliko
+ima veÄih anomalija.
+
+Program daje vrednosti za ovaj test i u odnosu na idealan
+sluÄaj kada je broj lanaca/podskupova jednak sa brojem
+elemenata, kao i za realan broj podskupova (tj razliÄitih
+vrednosti elemenata).
+
+Ispitivanje razliÄitosti dobijenih podataka
+-------------------------------------------
+
+Kada se dobiju nepoznati podaci koje treba obraditi i za njih odrediti
+heÅ¡ funkcije, nekad vredi prvo probati saznati viÅ¡e o razliÄitostima
+dobijenih podataka.
+
+Kod primera za koriÅ¡Äenje kancelarija, na primer, definisali smo da je
+`hashCode` zavistan samo od jednog od polja, i samim tim kad smo
+pokrenuli program smo saznali taÄno koliko ima razliÄitih imena i
+koliko ima razliÄitih brojeva.
 
+Isti pristup se moÅ¾e iskoristiti i u drugim situacijama, Å¡to nam moÅ¾e
+dati bolje ideje kako da postavimo razliÄite koeficijente i na koja
+polja moÅ¾da ima smisla staviti viÅ¡e "teÅ¾ine" u samom heÅ¡u.