szerző:
hvg.hu

A texasi BizNiche cég összeállította a világ legnagyobb adatbázisainak listáját. Bár ezek egy kivételével amerikaiak, de a vezető helyet mégis egy európai foglalja el. Más kontinensek adatgyűjteményei nem kerültek be a top tízbe. Egyelőre.

Az IBM Blue Gene szuperszámítógépe. Adathegyi klíma
© IBM
Hogy valójában melyek a világ legnagyobb összefüggő és kereshető adatgyűjteményei, azt teljes biztonsággal nehéz volna megmondani. Bizonyos adatbázisok, archívumok méretéről, de még a létezéséről sem lehet megbízható információkat szerezni. Oroszország, Kína vagy Japán adattárházai például kimaradtak a felsorolásból, de sejthető, hogy ami a CIA-nek megvan, ahhoz nagyon hasonló üzemel az orosz titkosszolgálatok kezében is. De a kínai nemzeti telefontársaságok, vagy a japán földrengés- illetve időjáráskutató intézetek szuperszámítógépekkel támogatott adatbázisai sem valószínű, hogy jelentősen elmaradnának amerikai vagy európai megfelelőiktől.

A felsorolás már csak azért is nehéz, mert nem egyszerű meghatározni a legnagyobb fogalmát. Mi a fontos, a fájlok darabszáma vagy a fájlok összesített mérete? Már persze, ha elektronikus adatokról beszélünk. És hogyan lehet meghatározni egy papír alapú archívum valódi nagyságát. A benne tárolt iratok, könyvek száma, netán a hasznosítható információk mennyisége, vagy az őrzött dokumentumokban lévő karakterek darabszáma alapján? Nos nehéz, de talán nem is fontos e kérdésekre válaszolni.

Egyszerűen jó, ha tudjuk, a felsoroltak mellett még további hasonlóan nagy, tulajdonképpen beláthatatlan méretű adatbázisok léteznek. A legnagyobb minden bizonnyal maga az internet. De ennek nyilvánvaló parttalansága lehetetlenné tenné a listakészítést. Ha a világhálón elérhető rendszereket nézzük, úgy a Wikipedia is biztosan besorolható  lenne a legnagyobbak közé. Csakhogy ez elsősorban szövegfájlokat tartalmaz, amelyeknek fizikai mérete csekély például a videofájlokéhoz képest. Így a rendszer teljes kiterjedtsége is kisebb annak ellenére, hogy a Wikipedia talán több hasznos információt tartalmaz, mint a listába bekerült YouTube.

Nem jutottak be ebbe a válogatásba a nagy áruházláncok, például a Walmart adatbázisai sem. Pedig az árukészlet nyilvántartása, a logisztikai adatok, a vásárlói és más CRM információk, a pénzügyi forgalom adatai szintén óriási adattárolási kapacitást kötnek le. Nincsenek még a listán a légiirányítás, a GPS szolgáltatások, a NASA, a CERN és a többi tudományos szervet, ügynökség hatalmas kutatási célú adatbázisai, a katonai adatbázisok vagy az olyan feltörekvő szolgáltató szervezetek, mint a China Mobile (amelynek már 300 millió előfizetője van) rendszere sem.

Egy valamit azonban jó tudni. Míg régen az archívumokban, könyvtárakban elhelyezett anyagokat viszonylag kis költséggel lehetett megőrizni, ma az adatbázisok üzemeltetése irgalmatlanul nagy összegekbe kerül. Az IDC piackutató cég adatai szerint csak az Egyesült Államokban lévő 6500 nagy számítóközpont energiaigénye megegyezik Utah államéval. Ehhez 30 nagy erőművet kell üzemben tartani, s az elfogyasztott energia több mint az USA-ban működtetett több mint 300 millió tévékészülék energia felvétele. A világ fejlett részén mindenütt hasonló a helyzet, s a tendencia azt mutatja, hogy tíz éven belül az energiaigény akkor is megduplázódik, ha közben az értelmes információkat hatékonyabban bányásszuk elő – a rendszerezetten vagy éppen strukturálatlanul rendelkezésünkre álló – hatalmas adathalmazokból.

Ezek után nézzük a mind nagyobbak felé haladva az adatbázisok top 10-es listáját a BizNiche szerint.

A legnagyobb adatbázisok a tizediktől a hatodikig (Oldaltörés)

10. USA Kongresszusi Könyvtár

Ez a könyvtár mindent megőriz, ami csak papírra, vagy mostanában digitális adathordozóra kerül a szakácskönyvektől a szenátusi jegyzőkönyvekig. Nagyjából 130 millió tétel van a leltárban, amelyből 5 millió online is elérhető. A szöveges adatok mennyiségét 20 terabyte-ra becsülik. A tételek száma napi 10 ezerrel bővül. A polcok hossza pedig 530 mérföld (közel 850 kilométer).

9. CIA – az USA központi hírszerző ügynöksége

A CIA, az amerikai központi hírszerző hivatal rendeltetésénél fogva a legnagyobb információgyűjtögetők egyike a világon, ennek megfelelően egy meglehetősen méretes adatbázis tetején csücsül. Az információinak javát – minő furcsa egy titkosszolgálattól – azonban a CIA nyilvánossá teszi, méghozzá elsősorban az interneten keresztül. A legnépszerűbb szolgáltatása a The World Fact Book, amely a világ 250 országáról és entitásáról tartalmaz részletes és rendszeres frissített adatokat a földrajzi tényektől kezdve a népességi, gazdasági, kulturális és védelmi információkig számos ismeretanyagot. A elektronikus olvasószobáján keresztül pedig elérhető számos amerikai törvényhozási és kormányzati dokumentum. Az archívum nyilvános része naponta mintegy 100 cikkel bővül havonta. A nyilvánosság elől elzárt adatbázis méretéről legfeljebb annyit lehet mondani, hogy hatalmas, s a legkülönfélébb (szöveges, hang- és képi, kódolt) formákban tárolnak itt információkat hosszú időkre visszanyúlóan, de elsősorban a koreai háborútól fogva.

8. Amazon

Az Amazon túlzás nélkül nevezhető a világ legnagyobb kiskereskedésének, amely legkülönfélébb adatokat őriz (a bejelentkezési rekordoktól, a telefonszámtól, e-mail címtől, a kiszállítási helyszínekig és a vásárlási szokásokat leíró dokumentumokig, stb.) majdnem 60 millió regisztrált, aktív vásárlójáról. Emellett az Amazon 250 ezer könyv teljes szövegét is őrzi digitális formában. A felhasználóinak pedig lehetővé teszi, hogy szinte minden művelethez amit levégeznek, s minden termékhez vagy szolgáltatáshoz, amit megvásárolnak, mások által is megtekinthető megjegyzéseket fűzzenek. Emiatt az Amazon egyben a legnagyobb online közösség is. Emiatt az adatbázis teljes mérete meghaladja a 42 terabyte-ot, ez nem kevesebb, mint 37 billió online fórum-bejegyzés adatmennyisége.

7. YouTube

A YouTube mindössze két év alatt a világ legnagyobb videómegisztó hálózatává vált. Ma már naponta 100 millió klipet töltenek le a felhasználók, s ezek 60 százalékát online nézik meg. Egy évvel ezelőtt a Wall Street Journal szakértője 45 terabyte méretűre becsülte a szolgáltatás adatbázisát. Csakhogy azóta naponta 65 ezer (azaz egy év alatt durván 24 millió) új klippel gyarapodott az adatbázis. Hogy mekkora is ma valójában az adatbázis, azt nagyon nehéz volna megbecsülni, hiszen a videoklipek hosszúsága, így a fájlok mérete is nagyon különböző. Egyes becslések szerint a jelenlegi méretgyarapodás havi 20 terabájtra tehető. Ebből ki-ki megbecsülheti, hogy milyen irdatlan mennyiségű adatról van szó.

6. ChoicePoint

A ChoicePoint egy nálunk gyakorlatilag ismeretlen amerikai szolgáltatás, amelynek az a célja, hogy kormányzati, közösségi és üzleti jellegű információkat tároljon és osszon meg a felhasználóival. Olyanféle információk vannak itt, mint az alkalmazási adatok, a telefonszámok, címek, autóvezetői adatok, egyes személyek bűnügyi története, sőt személyes DNS-kódok. Utóbbiak segítségével például több embert sikerült azonosítani a szeptember 11-i terrortámadás áldozatai közül. Jellemzésül az itt tárolt adatok mennyiségére elég annyit mondani, hogyha az adatsorokat kinyomtatnák, akkor a szükséges papírszalag kiterítve 77-szer olyan messzire érne el, mint amennyire a Hold van tőlünk. Az adatbázis végül is 250 millió emberről 250 tarabyte-nyi adatot tárol.

A legnagyobb adatbázisok az ötödiktől az elsőig (Oldaltörés)

5. Sprint

A Sprint a világ egyik legnagyobb távközlési szolgáltatója 53 millió aktív előfizetővel. A nagy telefontársaságok az összes beszélgetés technikai adatait rögzítik, s ezzel gigantikus adattárakat hoznak létre, hiszen a Sprint esetében 365 millió hívást kell naponta lehetővé tenni és nyomon követni. Ettől aztán az adatbázis gyorsan duzzad, s jelenleg 2,85 billió adatbázis sort tartalmaz. Amikor a rendszer csúcsra jár másodpercenként 70 ezer hívást kezel.

4. Google

Sokan talán a Google-t tették volna az első helyre az utóbbi évek hihetetlen mértékű fejlődését látva. A pontos adatokat a cég üzleti titokként kezeli, ám annyit tudni lehet, hogy mostanság naponta 91 millió keresést kezel a rendszer, ami az összes internetes keresés 50 százalékát jelenti. Minden keresés azt jelenti, hogy a felhasználó belép az adatbázisba. E belépések száma (a jelenlegi helyzetet tekintve) évente meghaladja a 33 billiót, s de a szám gyorsan növekszik. Összességében az adatbázis több száz terabyte méretű lehet. Ha a Google céghez tartozó egyéb szolgáltatások adatbázisait is hozzászámítjuk (G-Mail, YouTube, Google Ads, stb.) úgy egyetlen jelző illik csak ide: gigantikus.

3. AT&T

Az AT&T a Sprinthet hasonló telefonszolgáltatásokat nyújt, s hasonló okokból óriási mennyiségű információt rögzít és tárol. Az adatbázisa méretét 323 terabyte-ra lehet becsülni, amely 1,9 billió adatbázis sort tartalmaz. Ezekben a hívó és hívott számot, a beszélgetés hosszát, a számlázáshoz szükséges információkat rögzítenek. Ezek aztán a legkülönfélébb módon kérhetők le, s üzleti intelligencia eszközökkel például a szolgáltatás javítását szolgáló vagy marketingcélokra használható információk generálhatók belőlük.

2. Az USA Nemzeti Energiakutató Tudományos Számítóközpontja (NERSC)

Ez a központ a kaliforniai Oklandban működik a Lawrence Berkeley Nemzeti Laboratórium és az amerikai energiahivatal felügyelete alatt. Az adatbázis atomfizikai kutatásokat, nagy energiájú fizikai kísérleteket, a fiatal világegyetem modellezésére szolgáló szimulációkat szolgál sok más mellett. Úgy is mondhatnánk, hogy ez egy olyan időgép, amellyel vissza lehet utazni az ősrobbanásig, és megfigyelni azt. A NERSC adatbázisának mérete 2,8 petabyte, amellyel több mint kétezer számítógéptudós dolgozik.

Ez annyit jelent, hogy az emberiség története során kimondott összes szó mennyisége körülbelül 5 exabyte, a NERSC adatbázisának mérete megfelel e mennyiség 0,055 százalékának.

1. Klímaadatok Világközpontja (WDCC)

A világ legnagyobb adatbázisát jelenleg a német Max Planck Intézet meteorológiai és klímakutatási részlege üzemelteti. Az itt folyó vizsgálatok egyebek mellett például különféle modellek, szimulációk segítségével igyekeznek választ kapni a globális felmelegedés kérdéseire, illetve megpróbálják leírni a folyamatait.

A WDDC 220 terabyte-nyi adata online is elérhető, s lekérhetők adatok a klímakutatásokról, a klímaváltozás várható trendjeiről, sőt 24500 DVD-nyi, azaz 110 terabyte-nyi aadat rendelkezésre áll a klímaszimulációkról is. Emellett további 6 petabyte adatot is tárolnak mágnesszalagokon a gyors elérhetőség érdekében. Ez a 6 petabyte mennyiségű adat körülbelül a háromszorosa annak, amennyit az összes amerikai akadémiai tudományos intézet együttvéve valaha együttvéve felhalmozott.

Érdekesnek találta cikkünket?
Legyen HVG pártoló tag!

A HVG Pártoló Tagság programja az első olyan kezdeményezés, aminek keretében az olvasóink közelebb kerülhetnek szerkesztőségünkhöz és támogatásukkal segíthetik, hogy újságírói munkánkat továbbra is az eddig megszokott magas színvonalon végezhessük. Tagjainknak heti exkluzív hírlevelet küldünk, rendezvényeket kínálunk, a könyveinkre és egyéb termékeinkre pedig komoly kedvezményt adunk. Támogatóként már heti egy kávé árával is hozzájárulhat a minőségi újságíráshoz! „Amikor annyira eluralkodik a mindennapi életünkön a virtualitás, üdítő igazi emberi kapcsolatokat építeni.”
K. Erna – Pártoló tag


„Régóta olvasom a HVG-t és cikkei között mindennap találok érdekfeszítőt!”
H. Szabolcs - Támogató
Csatlakozzon programunkhoz, támogassa munkánkat egyszeri hozzájárulással vagy fizessen elő a hetilapra!
A HVG Pártoló Tagság programja az első olyan kezdeményezés, aminek keretében az olvasóink közelebb kerülhetnek szerkesztőségünkhöz, és támogatásukkal segíthetik, hogy újságírói munkánkat továbbra is az eddig megszokott magas színvonalon végezhessük. Támogatóként már heti egy kávé árával is hozzájárulhat a minőségi újságíráshoz! Csatlakozzon programunkhoz, támogassa munkánkat egyszeri hozzájárulással vagy fizessen elő a hetilapra!
Vállalkozás

Tippek online adatbázis építéséhez

E-mail cím adatbázis építése során előbb-utóbb minden weboldal tulajdonos szembesül a minőség-mennyiség dilemmájával. Íme néhány tanács, amivel növelhető a regisztrálók (feliratkozók) száma, anélkül, hogy az a címek minőségének rovására menne.

MTI Gazdaság

Nyilvános adatbázis a bérekről, munkakörülményekről

Nyilvános adatbázist hozott létre az Európai Unió és a költségvetés támogatásával az Értelmiségi Szakszervezeti Tömörülés, a Magyar Szakszervezetek Országos Szövetsége, egy szakszervezeti kutatóintézet, valamint a Nők a Holnapért Alapítvány. Az adatbázist bárki használhatja a www.berbarometer.hu címen - közölték a szakszervezeti szövetségek vezetői.

HVG Hetilap

Hibás OEP-adatbázis

Rendőrök, tűzoltók és kórházi dolgozók is arról kaptak értesítést az utóbbi hetekben az Országos Egészségbiztosítási...

MTI/hvg.hu Választás 2006

Rejtélyes „polgári” adatbázis Gyulán

Az Országos Választási Bizottság (OVB) ugyan elutasította a panaszt, de megállapította a jogosulatlan adatkezelést annak a gyulai adatbázisnak az ügyében, amely a választók politikai szimpátiáit is tartalmazta. Az adatok egy része származhatott a Fidesztől. A választási testület büntetőfeljelentést tett, és kérte az adatvédelmi biztost az ügy kivizsgálására.

MTI Vállalkozás

Nincs szükség TAJ-számra a munkaügyi adatbázishoz

Két módosító javaslatot terjesztett be az Országgyűlés Foglalkoztatási és Munkaügyi Bizottsága, közülük a kormány képviselője csak az egyiket támogatta. Eszerint a jövőben a Szociális és Munkaügyi Minisztérium és az OMMF is hozzáférhet az adóhatósághoz kerülő munkaügyi adatbázishoz. Nem