Miten hakukoneet toimivat?

Hakukoneiden hakemistot

Mistä hakukone tietää, mitä sivuja on olemassa?

Kaikilla hakukoneilla on oma indeksi, eräänlainen sisällysluettelo, jossa on tiedot kaikista hakukoneella löytyvistä sivuista. Ilman hakemistoa ei olisi mahdollista käydä sivuja ja niiden sisältöä läpi riittävän nopeasti. Hakemisto syntyy, kun erityinen ohjelma eli hakurobotti, seuraa linkkejä ja lisää tiedon hakemistoon. Se, mitä tietoa hakemistoon lisätään, riippuu hakukoneen indeksointikriteereistä.

Indeksiä päivitetään, mutta kuinka usein?

Paraskaan hakurobotti ei ehdi vuorokaudessa tai edes viikossa käymään kaikkia maailman linkkejä läpi. Lisäksi se, kuinka usein hakukoneiden tietokantoihin luetaan uudestaan WWW-sivuja, on kompromissi verkon ja palvelinten kuormituksen ja hakemistojen tuoreuden välillä. Siksi saattaa kestää useita viikkoja, ennen kuin uusi sivu on lisätty hakukoneen hakemistoon. Esimerkiksi hakukone Ihmemaan mukaan koko Suomen aineisto käydään läpi parin kuukauden välein.

Lisäksi uuden sivun indeksoimista voi haitata se, että isossa domainissa on useita indeksoimista odottavia sivuja. Useimmat robotit voivat indeksoida vain tietyn määrän sivuja yhdestä domainista kerrallaan. Esimerkiksi Evrekan hakurobotti indeksoi yhdestä domainista kerrallaan enintään 50 sivua.

Kuinka sivuja voi itse lisätä indeksiin?

Jos ei millään malta odottaa omien sivujensa lisäystä hakemistoon, on useimmilla hakukoneilla sivuillaan lomake, jolla voi ehdottaa (ilmaiseksi) sivujensa lisäämistä hakemistoon. Tämäkin prosessi kestää yleensä viikon tai pari, sillä robotti tarkistaa annetun osoitteen ja sivun sisällön. Sivujen pitää täyttää annetut kriteerit. Hakukoneista Evreka indeksoi ensisijaisesti sivut, jotka ovat .fi-domainin. Evrekan hakemistosta voi myös poistaa sivuja erillisellä lomakkeella.

Kuinka oman sivun indeksoimisen voi estää?

Hakurobotteja voi myös estää tallettamasta omien sivujen tietoja hakukoneiden tietokantoihin. Esto saadaan aikaiseksi lisäämällä seuraava rivi WWW-sivun head-osioon:

META NAME="robots" CONTENT="noindex, nofollow"

Hakemistojen kattavuus

Eri hakukoneet eivät anna samaan hakuun täysin identtisiä tuloksia. Tämä johtuu yleensä hakukoneiden hakemistojen kattavuudesta. Esimerkiksi Ihmemaan hakemistossa on ainoastaan Suomessa sijaitsevia sivuja. Hakukone Evrekalla on sen sijaan kaksi hakemistoa, joista toinen keskittyy suomalaisiin sivuihin ja toinen hakemisto on maailmanlaajuinen. Rajattujen hakemistojen takana on idea keskittyä johonkin alueeseen hyvin, eikä yrittääkään tuntea kaikkia maailman WWW-sivuja.

Hyvä esimerkki toimivasta hakukoneesta, jolla on kuitenkin yksi maailman laajimmista hakemistoista, on Google. Googlen hakemisto kattaa tällä hetkellä (lokakuu 2000) 560 täysin indeksoitua sivustoa ja 500 miljoonaa osoittain indeksoitua sivustoa. Maailmassa arvioidaan olevan yli miljardi WWW-sivustoa.

Indeksointikriteerit

Hakurobotit noudattavat tiettyjä ehtoja, joiden mukaan indeksoitavat sivut valitaan. Useimmat hakurobotit jättävät lisäämättä sivut, joissa on linkkejä tai mainoksia "aikuisviihdepalveluista". Myös ns. huijaussivut ovat pois useimpien hakukoneiden listoilta. Huijaussivuilla yritetään häiritä hakuprosessia tarjoamalla sivulla useita kertoja samaa hakusanaa.

Suurennuslasi

Hakukoneilla voi myös olla omia "erikoisehtoja", kuten Ihmemaalla, joka indeksoi vain Suomessa sijaitsevia sivuja.

Hakualgoritmit

Mikä se on?

Hakualgoritmi on tapa, jolla hakukone etsii hakemistostaan hakuun sopivat tulokset. Hakualgoritmin mukaan tapahtuu myös hakutulosten järjestäminen "paremmuusjärjestykseen".

Minkälaisia hakualgoritmeja yleensä käytetään?

Hakukoneet eivät kuvaile sivuillaan algoritmeja tarkasti, sillä omaa toimivaa algoritmia ei haluta luovuttaa muiden käyttöön. Hakukone AltaVista kertoo hakualgoritminsa olevan kuin Coca-Colan resepti: tarkoin varjeltu salaisuus. Useimpien hakukoneiden hakualgoritmit tarkastelevat seuraavan listan tapauksia. Sivujen järjestys hakutuloksissa riippuu siis suoraan näistä ehdoista:

  1. Kuinka monta kertaa haetut sanat esiintyvät sivulla?
  2. Esiintyvätkö sanat sivun otsikossa (TITLE)?
  3. Miten lähellä toisiaan haetut sanat ovat sivulla?

Google käyttää erilaista hakualgoritmia, mutta millainen se on?

Hakukone Google käyttää edellisestä poikkeavaa hakualgoritmia. Googlen käyttämä PageRank(TM)-algoritmi on kehitetty Stanfordin yliopistossa noin kolme vuotta ennen Googlen perustamista.

Google tulkitsee linkin sivulta A sivulle B aivan kuin A antaisi yhden äänen sivulle B. Google ei silti tarkastele pelkästään ääniä, jotka on annettu kyseiselle sivulle, vaan se tarkastelee myös äänen antanutta sivua. Jos äänen antanut sivu tulkitaan "tärkeäksi", sen ääni merkitsee enemmän kuin "vähemmän tärkeän" sivun ääni. Siispä tärkeät sivut auttavat indeksoitavaa sivua tulemaan tärkeäksi. Hakiessaan oikeaa tietoa hakemistosta, Google käyttää myös kehittyneitä tekstinhaku-algoritmeja.

Googlen automaattinen haku yrittää siis parhaansa mukaan jäljitellä ihmisen toimintaa. Tosin ihmisen käsitys tärkeästä sivusta saattaa joskus erota hakukoneen käsityksestä.

Googlen kotisivuilla luvataan, että PageRank-algoritmi on skaalautuva algoritmi, joka toimii sitä paremin, mitä suurempi hakemisto on. Lakkaamatta laajeneva Internet osoittaa, pitääkö Googlen lupaus paikkaansa.

Hakukoneiden linkkihakemistot

Miten linkkihakemisto eroaa tavallisesta hakemistosta?

Monella hakukoneella on sivuillaan myös linkkihakemisto, jota ei pidä sekoittaa hakukoneen varsinaiseen hakemistoon. Linkkihakemistot ovat linkkitoimittajien valikoimia ja järjestämiä aiheenmukaisia hakemistoja. Koska hakemistot kootaan ihmisvoimin, eivät ne koskaan kata tiettyä aihepiiriä yhtä perusteellisesti kuin robotin luomat hakemistot. Linkkihakemistojen aineisto on kuitenkin hyvin järjestetty, ja valitut sivut ovat täyttäneet tietyt laatuvaatimukset.

Mitä sivuja linkkihakemistoihin hyväksytään?

Linkkihakemistoihin ei yleensä hyväksytä sivuja, joilla on mainoksia tai linkkejä "aikuisviihdesivuille", pornoa missään muodossa, mp3:sia, laitonta materiaalia, abandonware-ohjelmia tai linkkejä muille laittomille sivuille. Edelleenkään ei hyväksytä ns. huijaussivuja, joilla yritetään häiritä hakuprosessia.

Myöskin linkkihakemiston linkkien toimivuus tarkistetaan säännöllisesti. Samalla tarkistetaan myös sivujen sisältö. Jos sivu on myöhemmin muutettu kriteerien vastaiseksi, se poistetaan linkkihakemistosta.

Hakukone Ihmemaa, hyväksyy tavalliseen hakemistoonsa vain Suomessa sijaitsevia sivuja. Linkkihakemisto on poikkeus, johon indeksoidaan myös ulkomailla olevia sivuja, jos ne ovat kirjoitettuja pelkästään jommalla kummalla kotimaisella kielellä. Linkkihakemiston kokoaminen ihmisvoimin mahdollistaa siis tarkemman seulonnan, mutta on mahdotonta muodostettaessa hakemistoa, joka kattaisi edes puolet Internetin sivuista.


Tekijät: Riikka Niemi, Laura Kallio, Jaakko Rissanen
Kuva: Muokattu Microsoft Publisherin clipart-kuvasta
Taustakuva: http://gurlpages.com/saffroonpsyche/notebook.html