Ongelmia ja ratkaisuja

Yksinkertaiset haut tuottavat tuhansia tuloksia

Hakukoneita käytettäessä törmätään monenlaisiin ongelmiin. Jos hakukriteerinä on käytetty jotain vähänkään yleisempää sanaa, haun tuloksena saadaan usein valtava määrä sivuja, jopa miljoonia, joista pitäisi löytää se oikea. Haun rajaamisesta huolimatta jäljelle jää usein lukematon määrä sivuja. Hakukoneet toki helpottavat etsimistä järjestämällä tulokset jonkinlaiseen kyseistä hakua palvelevaan paremmuusjärjestykseen, ja tätä varten jokaisella hakukoneella on erityiset algoritminsa, jotka yrittävät järjestää sivut siten, että hakijan haluamaa tietoa sisältävät sivut ovat loputtomantuntuisen tuloslistan kärjessä.

Kuolleet linkit

Hyvin usein, kun se oikea sivu tuntuu hakukoneen antaman lyhyen kuvauksen perusteella vihdoin löytyneen, ja surffaaja klikkaa sivulle johtavaa linkkiä, ilmestyy ruudulle lohduton ilmoitus: "HTTP 404 - File not found". Nämä niin sanotut kuolleet linkit ovat yksi ongelma, jonka hakukoneet yrittävät poistaa antamalla robottiensa vierailla indeksoimillaan sivuilla riittävän usein. Sivuja käydään läpi hakukoneesta riippuen hieman eri tahtiin. Tällöin, jos haettua sivua ei löydy, se poistetaan hakupalvelun tietokannasta.

Huijataanko hakurobotteja?

Järjestysalgoritmit tarvitsevat luonnollisesti argumenteikseen jotain tietoja käsiteltäviltä sivuilta: otsikon, tekstisisältöä, sivun URL:n, meta-tageja tms. Näissä mahdollisesti esiintyvien haettujen sanojen määrän perusteella hakukone päättelee, kuinka hyvin kyseinen sivu vastaa hakijan toiveita.

Tämä on luonut uuden ongelman, nimittäin kyseisten argumenttien väärinkäytön. Esimerkiksi keyword-tagiin saatetaan kirjoittaa sata kertaa omaa sivua edustavia sanoja, ja toivotaan näin sivun nousevan hakutuloslistan kärkeen. Tai vastaavasti piilotetaan sivulle taustan väristä tekstiä, joka sisältää jälleen omia suosikkisanoja. Tällaisella menettelyllä voisi jokin sivu pompata korkealle hakutuloksissa, vaikkei sisältäisikään parasta tietoa hakijan toivomasta aiheesta. Onneksi hakukoneet ottavat nykyään huomioon tällaiset väärinkäytökset, ja sellaista havaitessaan pudottavat kyseisen sivun tuloslistan pohjalle.

Eräs kriteeri, millä sivuja voidaan myös järjestää, on se, kuinka monelta muulta sivulta kyseiselle sivulle on linkkejä. Tässä on ajateltu siten, että jos monet ulkopuoliset ihmiset ovat laittaneet omille sivuilleen linkin rankattavalle sivulle, on tämän ilmeisesti oltava hyvä ja informatiivinen sivu. Tällöin käytetään hyväksi kaikkien Internetin sisällöntuottajien harkintakykyä.

Sopimatonta sisältöä...

Eräs ongelma, joka vaivaa oikeastaan koko Internettiä, ovat lapsille sopimatonta materiaalia sisältävät sivut. Hakukoneiden osalta ongelma kärjistyy, sillä on erittäin helppoa saada linkkejä tuhansille "aikuissivuille" riippumatta siitä, mitä hakija alunperin haluaa hakea, ja minkä ikäinen hän on. Tätä varten ovat jotkut hakupalvelut lisänneet palveluunsa erityisen family filterin tai vastaavan, joka suodattaa tiettyjä sopimattomia sanoja sisältävät sivut hakutuloksista. Harmillista on, että läheskään kaikissa hakukoneissa tällaista ei ole.


Tekijät: Riikka Niemi, Laura Kallio, Jaakko Rissanen
Taustakuva: http://gurlpages.com/saffroonpsyche/notebook.html