Hakukoneita on pääasiassa kahta eri tyyppiä: omaa tietokantaansa
käyttäviä sekä toisten hakukoneiden tietokantoja käyttäviä metahakukoneita.
On myös välimuotoja, jotka oman indeksinsä loputtua ottavat avuksi muita
hakukoneita. Omalla tietokannalla varustetuissa hakukoneissa on kaksi
perusfunktiota, joista ensimmäinen on tietokannan päivitys ja toinen
tietokannasta haku.
Hypertekstidokumenttitietokannan päivitys tapahtuu hakurobottien avulla,
jotka kulkevat verkossa dokumenteissa olevia linkkejä seuraten. Robotit
tallentavat tietokantaan dokumentin, jos sitä ei ole siellä jo ennestään
tai dokumentti on muuttunut. Sivuista riisutaan kaikki ylimääräinen,
jolloin jäljelle jää vain pelkkä tekstirunko. Tämä runko tallennetaan
tunnistetietoineen tietokantaan, joka sijaitsee palvelinklusterin isossa
keskusmuistissa. Tämä siksi, että tiedon palautus massamuistista
on aivan liian hidasta. Yksi tapa indeksoida sivuja nopeasti haettavaan
muotoon on kerätä kaikki dokumenteissa olevat sanat yhteen ja liittää
niistä linkit kaikkiin niihin dokumentteihin joissa sanat ovat.
Haku tietokannasta tapahtuu WWW-palvelimen käyttöliittymän kautta, josta
käyttäjä syöttää hakuehdot. Tietokantapalvelin palauttaa hakuehdot
täyttävät dokumentit, jotka näytetään käyttäjälle listana.
|