Hiába ismer háromtrilliónál több honlapot a Google, az irdatlan mennyiség a világháló viszonylag csekély része. Mély, rejtett, láthatatlan, sötét jelzőkkel illetett felszín alatti rétege kívül esik a szabványos keresők indexelésén, a botok kutakodásán.
Az először 2001-ben használt mély web (Deep Web) kifejezés a neves számítástudományi szakembertől és konzultánstól, Mike Bergmantól származik. A rejtett adatbirodalom különböző forrásokból tevődik össze. Dinamikus tartalmakból, más oldalakhoz nem linkelt honlapokból, regisztrációt és bejelentkezést igénylő site-okból (private web), korlátozott hozzáférésű, szkriptelt, keresők által nem kezelt, specifikus formátumú – nem HTML/szöveg – tartalmakból. Az adatbázisokban tárolt pénzügyi információk, bevásárló katalógusok, repülő-menetrendek, orvosi kutatások és mindenfajta más anyagok sokasága mostanáig láthatatlan maradt a Google és a többi keresőmotor számára – írja az Index.
A mély web indexelhetetlensége a magyarázat arra, hogy a Google képtelen megválaszolni az olyan kérdéseket, mint például: „mennyibe kerül jövő péntekre a legolcsóbb Budapest-Frankfurt repülőjegy?” Mi könnyedén rátalálunk a feleletre, a keresők azonban nem. Fogalmuk sincs, hogyan bukkanjanak rá a különösebb nehézség nélkül beszerezhető információra.
Az internetes keresőmotorok egyébként alapvetően két részből állnak: az egyik összegyűjti, a másik rendszerezi az információt. Az előbbit hiperlinkeket követő automatizált böngészőprogramok (robot, spider, web crawler) végzik. Ez a módszer a web felszínén ugyan optimális, a mélyben viszont általában nem hatékony. Oda általában integrált keresőkkel vagy algoritmusok helyett a kapcsolódásokat könnyebben észrevevő „humán böngészőkkel” igyekeznek eljutni.
A teljes cikk az Indexen…