szerző:
techline.hu
Tetszett a cikk?

Üssük be a robot szót a Google-ba: megközelítőleg 750 ezer magyar nyelvű és...

Üssük be a robot szót a Google-ba: megközelítőleg 750 ezer magyar nyelvű és több mint 85 millió idegen nyelvű találat az eredmény. Úgy tűnik, hogy az időközben az internetes keresés szinonimájává avanzsált Google elől semmi sem bújhat el a neten. Ez azonban óriási tévedés! A helyzet egy kicsit olyan, mint amikor valaki egy üvegfenekű hajó alján keresztül bámulja a tovaúszó halrajokat, s úgy gondolja, hogy a mélytengeri halakat is látni fogja. Ez a hasonlat persze kissé sántít, hiszen a Google több mint 20 milliárd internetoldalról szolgál eredménnyel, találattal. Mégis van az internetnek egy olyan része, amelyhez sem a Google, sem a többi kereső sem fér hozzá, ez a webszelet rejtve marad a kutakodó szemek elől. Nem véletlenül hívják láthatatlan, illetve mély webnek (invisible web, deep web).

Hogy milyen nagyságú ez a rejtett hányad, arról jelenleg megoszlanak a vélemények. Egy Bright Planet nevű cég néhány évvel ezelőtt például azzal döbbentette meg a világot, hogy tanulmányában mintegy 500-szor akkorára taksálta a mély webet, mint a látható részt. Állításukat nem véletlenül fogadták kétkedéssel: a cég ugyanis a tanulmánya mellé egyúttal olyan, saját fejlesztésű technikát is ajánlott, amellyel épp ezt a rejtett részt lehetett volna láthatóvá tenni.
Dr. Dirk Lewandowski, a düsseldorfi egyetem professzora is egyike azoknak, akik kétségbe vonják az említett becslést. Lewandowski úgy véli, hogy a Bright Planet messze túlbecsülte a mély web nagyságát, mégpedig ott követve el a hibát, hogy nem a dokumentumok mennyiségével, hanem azok bájtokban mért értékével számolt, ráadásul az átlagos dokumentumméretet is túl nagyra becsülte. Persze a professzor is csak homályos becslésekbe bocsátkozik, s úgy tartja legfeljebb húszszor, harmincszor lehet nagyobb a láthatatlan web a láthatónál.

[[ Oldaltörés: Második oldal ]]

A láthatatlan web létezésének hátterében a keresők által foglalkoztatott „munkatársak” a keresőrobotok, keresőpókok állnak, akik valamilyen ok miatt nem tudják (vagy nem akarják) indexelni az oldalt. Ezek a robotok nem túl okos lények, így ha egy weboldal a jól bevált webes szabványok helyett valamilyen vitathatatlanul szebb, ám annál problémásabb technológiát használ, máris elüldözi oldalától a robotokat. Ide tartozik az is, hogy a keresőrobotok leggyakrabban a nyitóoldalra jutnak el, s minél messzebb van egy lap ettől, annál ritkábban érik el a robotok. Ez azonban még messze nem akkora probléma, mint a robotok szövegimádata, pontosabban azon hiányosságuk, hogy szöveg nélkül számukra szinte semmi sem létezik. Így azután képek, zenefájlok, flash-animációs oldalak maradnak láthatatlanok, nem is beszélve az adatbázisok lekérdezésével generált vagy a jelszóval védett oldalakról. Mindemellett persze olyan oldalak is vannak, amelyeknek készítői kifejezetten megakadályozzák a hozzáférést tartalmukhoz (például a CAPTCHA technológia bevetésével), annak érdekében, hogy a keresők ne készítsenek másolatot az oldalról.

A robotok alkalmatlansága egyébként egészen odáig terjed, hogy még a címek önálló beadására is képtelenek, így csakis akkor tudnak eljutni egy oldalra, ha az hivatkozással kapcsolódik egy már feltérképezett oldalhoz. Tehát ha valaki új weboldalt készít, egészen addig rejtve marad a nagyvilág elől, amíg be nem jelenti a szájtját egy keresőszolgáltatásnál, vagy nem kapcsolódik egy már regisztrált oldalhoz.
Ami pedig a felhasználókat illeti, ha nem találnak meg valamilyen tartalmat a neten, érdemes ellátogatniuk egy ahhoz kapcsolódó weboldalra, és onnen használni speciális keresési jellemzőket, a láthatatlan web ugyanis számos ponton kapcsolódik a láthatóhoz. Az is sokat segíthet, ha problémás esetben a kulcsszavak helyett inkább témakörökre vagy lehetséges adatbázisokra keresnek rá.

HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!