Вы находитесь на странице: 1из 6

Kako radi Google i ostali pretraivai

Dobra vest vezana za Internet i veliki deo njegovih vidljivih komponenti WWW-a je da postoje stotine miliona web stranica koje ekaju da se pojave sa svim svojim tematskim razliitimostima. Loa vest vezana za Internet je da isto toliki deo web stranica zahvaljujui svoj tvorcima samo sedi na nekim serverima mistinih imena. Kada su vam potrebne informacije vezane za neku temu, kako znate koje od stranica vam zaista i trebaju? Ukoliko ste kao veina ljudi koristite internet pretraivae (Internet search engine). Pretraivai su specijalizovani sajtovi koji su dizajnirani da pomognu ljudima da pronau informacije koje se nalaze na sajtovima. Postoje razilke u nainu rada pretraivaa, ali u osnovi svi izvravaju sledee zadatke: Pretrauju Internet- ili manje delove Interneta- bazirane na kljunim reima u zahtevu. uvaj index rei koji pronau i njihovu lokaciju. Dozvoljavaju korisnicima da pretrauju rei ili kombinaciju rei koje se nalaze u tom indexu.

Stariji pretraivai su imali index of nekoliko stotina hiljada stranica i dokumenata, i imali su moda jednu ili dve hiljade upita svaki dan. Danas, najai pretraivai indexiraju stotine miliona stranica i odgovaraju na desetine miliona upita na dnevnoj bazi. U ovom tekstu pokazaemo vam kako oni rade i izvravaju svoje funkcije, i kako pretraivai sklapaju delie u celinu kako bismo svi dobili eljene informacije. Osvrt na Web Kada veina ljudi govori o Internet pretraivaima, zapravo misle na World Wide Web pretraivae. Pre nego to je Web postao najvidljiviji deo Interneta, ve su postojali pretraivai na Net-u. Programi kao to su gopher i Archie uvali su indexe fajlova na serverima vezanim na Internet, i znaajno umanjivali vreme potrebno da se nau programi i podaci. Kasnih 80-tih znati koristiti Internet zavisilo je od toga koliko dobro umete da korisitite gopher, Archie, Vernica i ostale programe.

Danas, veina korisnika Interneta se ograniava kada je u pitanju pretraga po Web-u, tako da emo se i mi ograniiti i fokusirati na pretragu po sadraju Web stranica. Poetak Pre nego to pretraiva gde se nalazi fajl ili dokument, prvo to mora biti pronaeno.Da bi pronali informacije na hiljade miliona stranica, prteraiva upoljava specijalne softverke robote, nazvani paukovi (spiders), koji grade listu rei pronaenih na sajtovima. Kada pauk gradi svoju listu, proces se naziva u bukvalnom smislu puzanje (crawling). Kako bi izgradio i odravao korisnu listu rei, paukovi moraju da pregledaju veliki broj stranica. Kako pauk zapoinje svoje putovanje na Web-u? Uobiajena poetna taka su teko optereeni i korieni serveri i veoma popularne stranice. Pauk e poeti sa popularnim stranicama, indeksirati rei na njima i pratei svaki link koji se na toj stranici nalazi. Na ovaj nain putovanje pauka se brzo iri na najvei deo iskorienog Web-a.

"Paukovi" uzimaju sadraj Web stranica i prave kljune rei za pretragu koje kasnije omoguavaju korisnicima da pretrauju. Google.com je poeo kao pretraiva koji e sluiti u akademske svrhe. Na papiru koji opisuje kako je ceo sistem napravljen SergeyBrin i Lawrence Page daju primer koliko brzo njihovi paukovi zapravo rade. Pri inicijalizaciji procesa koriste viestruke paukove, uglavnom tri istovremeno. Svaki pauk moe da odrava 300 konekcija prema Web stranama. Na svom vrhuncu koristei etiri pauka njihov sistem moe da izprocesira 100 strana u sekundi generiui oko 600 kb podataka svake sekunde. Odravati da sve radi tako brzo znailo je napraviti sistem koji e hraniti paukove neophodnim informacijama. Raniji Google sistem je imao svoj posveeni server koji daje URL-ove paucima. Umesto da zavise od Internet servi provajdera i DNS-a (domain name server) koji prevodi imena servera u adrese, Google je imao sopstveni DNS kako bi odstranio i najmanja kanjenja. Kada bi Google pauk naiao na HTML stranicu, beleio je dve stvari:

Rei pronaene unutar stranice Lokaciju gde su rei pronaene

Rei naene u naslovima, pod naslovima, meta tagovima i njihove pozicije zavisno od vanosti, specijalno su beleene za laku pretragu. Google paukovi su pravili index od svake bitnije rei koja se pojavljuje na stranici, izostavljajui lanove kao to su "a," "an" ili "the." Drugi paukovi imaju drugaiji pristup. Ovi razliiti pristupi uglavnom nastoje da naprave bre paukove, dozvole korisnicima da pretrauju bre i efikasnije. Na primer, neki paukovi e pratiti rei u naslovima, pod naslovima i linkovima, zajedno sa jo 100 najkorienijih rei na stranama, i sve rei u prvih 20 redova teksta. Lycos koristi ovakav pristup kada su u pitanju njegovi paukovi. Drugi sistemi, kao to je na primer AltaVista idu drugim putem, indexiraju svaku re na stranici, zajedno sa lanovima "a," "an" i "the." i drugim reima koje drugi moda smatraju nevanim. Da dodatno zakomplikujemo stvari neophodno je pogledati odnos prema uvenim meta tagovima.

Meta Tagovi Meta tagovi dozvoljavaju svom vlasniku da navede kljune rei i koncepte pod koje e se njegova strana indexirati. Ovo moe biti od velike pomoi, pogotovu u sluajevima kada se na stranici nalaze rei od dvostrukog ili trostrukog znaenja. Meta tagovi mogu da navedu pretraivaima na mogue tano znaenje ovih rei. Kako god, postoji i opasnost preterane zavisnosti od meta tagova, jer nepaljivi ili zavidni kreatori stranica mogu da dodaju meta tagove koji odgovaraju veoma popularnim temama a da u svom sadraju nemaju nita priblino slino. Kako bi se zatitili od ove opasnosti, paukovi e uporediti meta tagove sa sadrajem na stranici, odstranjujui meta tagove koji ne odgovaraju sadraju. Sve ovo pod je validno jedino pod pretpostavkom da vlasnik stranice zapravo i eli da bude svrstan u pretraivae. Mnogo puta, vlasnik stranice ne eli da se pojavi na velikim pretraivaima niti eli aktivnost paukova na svojoj stranici. Zamislite samo sledei sluaj, igrica preko interneta, koja gradi nove aktivne stranice svaki put kada se pristupa nekoj od njenih stranica ili linkova. Ukoliko bi pauk pristupio jednoj ovakvoj stranici, igrica bi mogla da ga pobrka sa korisnikom i da se otrgne kontroli. Da bi se ovakve situacije izbegle stvoren je protokol pod nazivom robot exclusion protocol. Ovaj protokol, implementiran u meta tag sekciji na poetku web stranice daje instrukcije pauku da ne pristupa stranici i da ga ne indexira niti prati njegove linkove. Pravljenje indexa Jednom kada su paukovi zavrili sa zadakom pronalaenja infomacija na Web stranama (treba imati na umu da ovaj zadatak zapravo nikada nije zavren, zbog konstantne promeljive prirode Web-a), pretraivai moraju da sauvaju informacije na iskoristljiv nain. Postoje dve kljune komponente koje omoguavaju sakupljene podatke dostupne korisnicima:

Informacije sauvane unutar podataka Metod na koji se informacije indeksiraju

U najjednostavnijem sluaju, pretraiva samo sauva re i URL na kojoj je pronaena. U realnosti, ovo se koristi za pretraivae specijalnih namena jer ne postoji nain da se zna da li je re iskoriena kao sastavni deo neega bitnog ili trivijalnog, niti da li je re upotrebljena vie puta ili je moda re koja se nalazi na nekim od linkova same stranice. Drugim reima, nema nain da se svori rank lista koja nastoji da prikae najkorisnije stranice na samom vrhu liste pretrage. Da bi smo dobili iskoristjlivije rezulate, veina pretraivaa uvaju vie od rei i URL-a. Pretraiva moe sauvati broj pojavljivanja rei na jednoj stranici. Moe dodeliti teinu svakom unosu, uveavajui je ukoliko se re pojavljuje u naslovu, pod naslovu, meta tagu itd. Svaki komercijalni pretraiva ima drugaiju formulu za dodeljivanje teine reima u svom indexu. Ovo je jedan od razloga zato iste rei daju razliite rezultate na razliitim pretraivaima. Bez obzira na metod, podaci se moraju enkoridarti kako bi se sauvao prostor. Na primer, originalni Google opisuje korienje 2 bajta, svaki po 8 bitova, da sauva informaciju po njegovoj teini, bilo da je velim slovom, pozicija ili veliina fonta. Svaki faktor uzima od 2 do 3 bita u 2 bajt-noj grupaciji. Kao rezultat, veliki deo informacija se moe sauvati na malo prostora. Kada je informacija u ovakvoj formi, spremna je za indeksiranje. Indeks ima samo jednu svrhu: Dozvoljava informaciji da bude pronaena to je pre to mogue. Postoje nekoliko naina da se napravi indeks, ali jedan od najefikasnijih je pravljenje he tabele. Kod heiranja formula je primenjena kako bi se dodala numerika vrednost svakoj rei. Formula je takva da ravnomerno distribuira unose po predefinisanim brojevima i grupama. Numerika distribucija je razliita od distriburianja rei po alfabetu, i u tome lei klju uspeha he tabele. U Engleskom postoje neka slova kojima zapoinjemo mnoge rei, dok postoje i slova kojima zapoinjemo mali broj rei. Ovo znai da bi pronalaenje rei sa popularnim slovom moglo da bitnije potraje u poreenju sa ne tako korienim slovom. Heiranje izjednauje verovatnoe, i smanjuje srednje vreme potrebno za pronalaenje unosa. Takoe razdvaja indeks od stvarnog unosa. He tabla poseduje heiran broj zajedno sa pokazivaem na pravi podatak, koji moe biti sauvan na bilo koji nain koji se pokae kao efikasniji. Kombinacija efikasnog indeksiranja i efikasnog uvanja omoguava brzu pretragu ak i kada korisnik napravi komplikovan upit.

Stvaranje pretrage Pretraivanje kroz indeks ukljuuje korisnikovo stvaranje upit i slanje istog kroz pretraiva. Upit moe biti veoma jednostavan, jedna re je minimum. Stvaranje kompleksnijeg upita zahteva korienje Bulovih operandi koje dozvoljavaju proirenje naih upita. Bulove operande koje najee sreemo su:

AND Svi termini spojeni sa AND se moraju pojaviti u stranici ili dokumentu. Neki pretraivai umesto AND-a koriste +. OR Barem jedan od termina se mora pojaviti na stranici ili u dokumentu. NOT Termin koji prati NOT se ne sme pojaviti u stranici ili dokumentu. Neki pretraivai umesto NOT-a koriste -. FOLLOWED BY Jedan od termina mora obavezno biti propraen sledeim. NEAR Jedan od termina mora biti odreen broj rei drugog termina. Znaci navodnika Rei unutar znaka navodnika se tretiraju kao fraza i kao takva mora biti pronaena identina unutar web stranice.

Pripremio Rastko Ili

Вам также может понравиться