szerző:
techline.hu
Tetszett a cikk?

Az internet exponenciálisan növekvő tartalma miatt ma már egy ilyen szolgáltatás...

Az internet exponenciálisan növekvő tartalma miatt ma már egy ilyen szolgáltatás indítása csillagászati összegekbe kerül, és a piacvezetők felhalmozott tudását is szinte lehetetlen behozni. Éppen ezért a legtöbben az eddig kiaknázatlan és elhanyagolt területeken próbálnak beszállni a versenybe.

A Google kicsit olyan, mint az autók meghajtása: egyszer feltalálták, folyamatosan fejlesztik, hogy egyre hatékonyabb legyen, de az alapelv nem változott. A keresőóriás belsőégésű motorja a PageRank rendszer, aminek a lényege igencsak leegyszerűsítve az, hogy a honlapokat a rájuk mutató linkek száma alapján rangsorolja, amikor pedig keresünk valamit, a beérkező találatok között elsőbbséget élveznek a sorrend elején álló honlapok. Persze emellett még számos algoritmus dolgozik azon, hogy finomítsák a találatokat, de az vitathatatlan, hogy a Google sikerének kulcsa a PageRank.

Külcsín
A külső szempontjából azonban már nem állja meg a helyét négykerekű társainkkal való összehasonlítás: a Google keresőlapja alig különbözik attól, ahogyan 1998-as indításakor kinézett. Tíz találat (illetve annyi, amennyit beállítunk) és egy rövid leírás – ennyit kapunk csupán. Így azután kézenfekvő volna, hogy egy ötletes kezelőfelülettel szorítsák sarokba a g-betűs óriást. 

A Google-nél azonban nem félnek ettől. Peter Norvig, a cég fejlesztésekért felelős igazgatója szerint igaz, hogy még csak nem is ők találták ki ezt az felületet, de láthatóan az emberek szeretik, és egyelőre nem is nagyon vágynak jobbra, mert ehhez hozzászoktak, és könnyen tudják használni. Persze biztosra játszanak, és nem vetik el teljesen a fejlesztés gondolatát sem. Idén februárban a kísérletező kedvűeknek a Google Experimental Labs keretein belül lehetőséget adtak arra, hogy kipróbáljanak három új megjelenítési módot. Most is bárki megnézheti, hogyan rendeződnek a találatai a dátumuk szerint, vagy hogyan oszlanak el a világtérképen. Egy szűrővel pedig további szempontok szerint szűkíthetők a találatok. Az újítások azóta is kísérleti fázisban vannak, ki tudja lesz-e belőle valami.

Keresve sem
Sokak szerint a PageRank fölött már eljárt az idő, és a nyelvi adatbázisokat, nyelvészeti szoftvereket, és a szövegkörnyezetet is felhasználó, komplexebb keresőmotoroké a jövő. Számtalan példát találhatunk ilyen keresőoldalra, de eddig még egyiknek sem sikerült komolyabb piaci részesedést kihasítania. Pedig sokuk mögött komoly tudományos munka áll, a Powerset keresőmotoráról például azt állítják, hogy legalább 30 évnyi kutatás alapján dolgozik. A cég azt ígéri, hogy a keresőoldal nemcsak a felhasználók kérdéseit tudja majd értelmezni, hanem a válaszok megadásánál is figyelembe tudja majd venni a mélyebb szövegösszefüggéseket. 

Kétséges azonban, hogy saját pályáján meg lehet-e verni a Google-t, hiszen minden ilyen fejlesztés iszonyú emberi és pénzügyi erőforrásokat emészt fel. Nagy várakozás előzte meg például a cuil nevezetű kereső debütálását, hiszen a céget az ágazatban elismert szakemberek irányítják, és komoly támogatókat is felsorakoztathattak maguk mögött. De mint ahogy annyi más hasonló szolgáltatásnál, a felhasználó azt tapasztalta, hogy nemhogy jobb találatokat kapott, mint a Google-nél, hanem kimondottan rosszakat.

Cuil: hiú remények…

Úgy tűnik, a Yahoo azért még lát fantáziát a keresést a nyelvészet irányából megközelítő megoldásokban, ezért a fejlesztők ingyen használhatják az adatbázisát. Az interneten található hatalmas adatmennyiség indexelése komoly számítási és tároló kapacitást igényel, ezért nagyon hardverigényes feladat. A Yahoo a támogatásért cserébe a saját hirdetéseit helyezi el az adatbázisát használó keresőoldalakon, de egyelőre sokat nem zsebelhetett be ezzel, mert még egy „leányvállalata” sem futott be.

Feltáratlan területek
Az interneten már rég nem csupán szöveg van, hanem rengeteg kép, zene, animáció és videó. Ráadásul mivel ezek a tartalmak legtöbbször az internet szórakoztatóbb részén találhatók, sokan szeretnék, hogy ezek is kereshetővé váljanak. Egyelőre azonban csak a másodlagos adataik, az úgynevezett metadata alapján lehet megtalálni ezeket a tartalmakat. Ilyen a fájlnév, az adott fájlformátumban megadható információk – gondoljunk az MP3 fájlokra, amelyek az előadón, szám címén túl sok egyebet tartalmazhatnak – és a kép, vagy videó körül elhelyezkedő szöveg. Mindez azonban vajmi kevés, különösen, hogy gyakran a metadata hiányzik, és a fájlnév is félrevezető. 

A képfelismerő szoftverekkel kapcsolatban gyakran röppennek fel hírek a szaksajtóban, a Google is használ valamilyen szoftvert erre a célra, de a találatokon egyelőre ez nem látszik meg. A California Egyetem idén rukkolt elő egy új képfelismerő szoftverrel, amelyik képes arra, hogy a színek, a felület jellegzetességei és persze a formák alapján kilistázza milyen tárgyak vagy személyek találhatók a képeken. A kutatók azt állítják, hogy 40 százalékkal jobb eredményeket tudnak elérni a mostani szolgáltatásoknál, a szkeptikusok szerint azonban ez a megoldás még így is messze vannak attól, hogy az egyetlen kacsát ábrázoló fotók szintjénél összetettebb képeket azonosítson.

A videók keresése egyszerűbb feladat, hiszen a műsorokra mutató linkekben általában megtalálhatók a legfontosabb információk. De mi lenne akkor, hogyha a videóban elhangzó szöveg is kereshetővé válna? Erre a kérdésre a BBN cég adta meg a választ, beszédfelismerő szoftverük 80 százalékos pontossággal működik, mivel a fejlett technológia által produkált szöveget egy igen komoly nyelvi adatbázissal vetik össze. A BBN sikerei ellenére sem akarja összeakasztani a bajszát a Google-lal és társaival, az üzleti modelljük lényege, hogy videókat kínáló honlapoknak adják el a szolgáltatásukat, akik így a kereshető adatok növekedése miatt több látogatót csábíthatnak az oldalaikra. A technika azt is lehetővé teszi, hogy a kimentett szavak pontos helyét is rögzítsék, így a videó a szöveg egyes részeire kattintva is kereshetővé válik. 

A Blinkx egész más célra használja ugyanazt: a szövegfelismerés segítségével a különböző televíziós sorozatok részeit kutatja fel a neten. Így a szerzői jogokkal sem kell vesződniük, hiszen ők maguk semmit sem tárolnak. A Midomi pedig azoknak segít, akik hallottak egy jó számot a rádióban, de nem tudják a címét. A honlap a mikrofonba énekelt vagy dünnyögött felvételünk alapján találja meg a keresett zenét.

Én csak fújom a dalt…

Jelentős adatmennyiség nyerhető még ki a honlapok flash-alapú animációiból. A látványos külsejű oldalak gyakran használnak ilyen animációkat, de mivel ezek a videókhoz hasonlóan egy beágyazott adatcsomagként működnek, a keresők nem tudnak hozzáférni. Az Adobe nemrégiben lehetővé tette, hogy a honlapok készítői kinyerhessék a szöveges részeket a flash alapú honlaprészekből, de még távol vagyunk attól, hogy egy Google keresés mondjuk egy animációban felbukkanó mondatra mutasson.

Ember a gépben
Nem csak azért érdekes megemlíteni az Amazon.com Mechanical Turk elnevezésű szolgáltatását, hogy ne maradjunk magyar vonatkozás nélkül. A találóan a Kempelen Farkas sakkautomatájáról elnevezett honlap hasonlóan működik, mint a híres találmány: a gépek segítségével használja fel az emberi képességeket. A Mechanical Turk apró, emberek számára könnyen elvégezhető feladatokat oszt szét viszonylag alacsony fizetségért. A honlap akkor került reflektorfénybe, amikor Jim Gray számítástechnikus eltűnt a yachtjával. Keresésébe sok szilícium-völgyi milliomos is beleadott, így kibérelhettek egy kémrepülőt is, amely műholdas képeket készített arról a területről, amerre a hajó sodródhatott. A képeket a koordináták alapján kisebbekre szabdalták, amelyeken a honlapra regisztráltak pár dollár fizetségért keresték a hiányzó hajót. Meg is találták, de már későn, a kiérkező helikopter már nem talált semmit a tengeren.

Az Amazon.com mesterséges intelligenciát használó szolgáltatása

Hasonló elven működik a cha-cha kereső is, amelyen a találatokat a cég munkatársaitól kapjuk. Az ötlet egyáltalán nem rossz, ugyanis az internetes keresés, ha még nem is igazi szakma, de mindenféleképpen egy olyan készség, amelyet csak sok gyakorlással lehet elsajátítani. Sokan vannak, akiknek egy ilyen szolgáltatás segítséget jelenthet, különösen a speciális, csak keveseket érintő témák esetén. A tesztek alapján kiderült, hogy a cha-cha teljesítménye egy kicsit még kiegyensúlyozatlan, ami az emberi tényezőnek is köszönhető. Sokan csak felveszik az 5-10 dolláros órabért, de nincsenek is a gépnél. A dotcom lufi kipukkanása előtt többen is próbálkoztak ilyen jellegű keresőkkel, és mind megbuktak, de azóta sokszorosára duzzadt az internet, és a felhasználók igényei is változnak.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!