szerző:
techline.hu
Tetszett a cikk?

Több ezer szkennelt újsag feldolgozása bizony nem kis munka, a művelet sok időt vesz...

Több ezer szkennelt újsag feldolgozása bizony nem kis munka, a művelet sok időt vesz ígénybe és több lépcsős munkafolyamatról van szó, hiszen az oldalak beszkennelese után (ami már maga nem kis feladat) az oldalakat meg kell tisztítani (retouch) és a szkennelt képet szöveggé kell alakítani, hogy keresni lehessen benne.

A következőkben egy kis segítséget nyújtunk azoknak akik ilyen feladatba botlanak, és talán hasznukra lesz ez az íromány abban hogy pl. egy könyvtári anyag feldolgozása ne több hónapot vegyen ígénybe, hanem csak egy pár órat.

Az első dolgunk miután beszkenneltük (vagy megkaptuk a készen szkennelt) az oldalakat, hogy azokat a megfelelő fájlnévvel lássuk el. Amennyiben könyvről van szó, talán elég sorszámozni is az oldalakat, ha archív újság címlapok, akkor pedig érdemes a dátumot is a fájlnévben rögzíteni (így később a dátumokra is könnyebb rákeresni az archívumban). Természetesen érdemes további alkönyvtárakat létrehozni, év, hónap szerint, vagy könyv esetében fejezetekre bontani. Ezekre most nem terünk ki részletesen, talán majd a későbbiekben, elég annyit tudni, hogy ezeket a műveleteket is lehet automatizálni.

A szkennelt oldal valahogy így nez ki.

Nem valami szép, lehet látni hogy le kell vágni a széleiből (crop) és talán a színekkel is kellene valamit kezdeni, hogy meg szepiásabb, régebbi hatást keltsen. 

Ha kötegelt munkát végzünk fontos hogy minden oldal megközelítőleg ugyanúgy nézzen ki - a margók nagyjából ugyanolyan távolságra legyenek a szövegtől minden oldalon. Az sem árt ha egyenesen van szkennelve mert akkor nem kell vízszintesbe forgatnunk az oldalt (deskew) amit sajnos a Photoshop batch-módban nem tud, ezért ezt a lépést más szoftverrel oldjuk meg. De tegyük fel hogy minden oldal egyenesen lett szkennelve így indíthatjuk a Photoshopot.

Photoshopban  nyissuk meg az Actions palettat (Window/Actions menü) Itt klikkeljuk a paletta jobb felső sarkában talalható ici-pici háromszögre, hogy megkapjuk a leugró menűt. Ebben csináljunk egy Action-t (Műveletsor), válasszuk a New Set, és utána a New Action menűpontot. Ez utóbbinál amikor rábökünk a Record gombra azonnal elkezd felvenni  mindent amit a programon belül csinálunk. Tehát vegyük fel a lépéseket: tisztítsunk meg egy oldalt.

Elősször vágjuk le a széleket a Crop tool-al. Ezután válasszuk az Image/Adjustment/Desaturate menüt, amely kivon minden színt a képből, vagyis olyan mintha greyscale-be konvertáltuk volna (képünk mégis RGB, azaz színes marad)

 Ezt csak akkor csinálhatjuk meg ha az eredeti szkennelt oldalak egyszínűek voltak, tehát nem volt benne más szín. (erre az esetre más batch-t kell alkalmazni, pl színes, újabb címlapoknál, könyveknél. De ebben a példában maradjunk a régi egyszínű oldalnál.)

A következő lépés az Image/Adjusment/Levels, ahol a fekete és fehér tónusokat állíthatjuk be, lehetőleg minnél tisztábbra. A grafikon alatti kis háromszögeket lehet jobbra-balra húzogatni ezzel állítani a szinteket. A lényeg, hogy a háttér minnél fehérebb, a szöveg pedig minnél feketébb legyen, és vigyázzunk, hogy amennyiben fotókat, grafikákat  is tartalmaz az oldal, ne veszítsünk túl sokat a szürkeárnyalatokból. Szóval addig állítgassuk amíg nem kapunk egy optimális, jól olvasható, tiszta képet.

Ahhoz hogy visszategyük a hátteret egy kicsit “csalnunk” is kell.  Csináljunk egy ugyanolyan méretű és felbontású sárga szepiás hátteret, vagy egyszerűen szkenneljünk be egy régi üres oldalt, kicsit módosítsuk a színeket hogy szép hátteret adjon az oldalainknak; ezt az üres képet fogjuk minden feldolgozott oldalunkban háttérképként használni.

Miután kész a háttérkép és jó a méret is, folytassuk az Action rögzítését. álljunk az üres háttérképre, hogy az legyen aktív és válasszuk a menűből a Select/All opciót, ezután pedig az Edit/Copy-t. Látszólag nem történik semmi azonban a képünk a memóriában tárolódik, azaz a Vágólapra kerül. Ezután álljunk vissza az eredeti feldolgozandó képünkre és válasszuk a Beillesztést (Edit/Paste).

A háttérképünk a Vágólapról egy új rétegre (layer) kerül. Azonban eltakarja az oldalunkat, ez nem jó. A Layer palettan , a legördülő menüben válasszuk a Multiply funkciót, így az oldalunk a háttérképpel együtt láthatóvá válik. Majdnem kész vagyunk, az újságunk már most tiszta, jobban olvasható és szebb hátteret kapott.

Fésüljük össze a rétegeket már nem lesz szükségünk rájuk (Layer/Flatten Image)

Kész vagyunk a munkafolyamat lépéseinek felvételével. Kapcsoljuk ki az Actions palettán a felvételt. Stop gomb.
(Megjegyzés: a példában egy egyszerű Actiont-t mutatunk, több funkciót is be lehet építeni ami megjobban kitisztítja az oldalakat és jobban előkeszíti az oldalt az OCR-ra, de a cikkben az egyszerűségre törekedtünk)

Tehát folytassuk a munkát, az Actions palettánknak valahogy így kell kinéznie:

Ezután kezdhetjük a kötegelt munkát (batch)  A batch szépen lefut magától feldolgozva a fentebb rögzített Actions-t, minden szkennelt oldalon, ami lehet akar több ezer is. Érdemes a feldolgozott fájlokat külön könyvtárba menteni, hogy megmaradjanak az eredeti szkennelt példányok (ha esetleg valami gond van a batch-el újra lehessen futtatni) menjünk a fájlmenübe és válasszuk az Automate/Batch menűpontot.

Állítsuk be a különböző paramétereket  Az Action-t, amit le akarunk futtatni, a Source, vagyis azt a könyvtárat ahol a feldolgozandó, szkenelt képeink vannak és a Destination-t, ahová menteni szeretnénk. Kapcsoljuk be az Override Action Open és Save kapcsolókat, hogy a batch ne csak azt a fájlt nyissa meg amit az Actions-ben megadtunk hanem mindet amit a könyvtárban talál.

Miután beállítottunk minden paramétert, klikkeljünk az OK gombra és elindul a kötegelt munkafolyamat. Attól függően hogy mennyi képet kell feldolgoznia ez eltarthat órakig de akár napokig is.Az oldalak tehát kész vannak, és ha 300 DPI-ben A3-as méretben vannak akkor azok már készen is állnak a nyomtatásra. Vastag papírra nyomtatva, bekeretezve majdnem úgy néz ki mint az eredeti 100 évvel ezelőtti példány és egész jól mutat a nappali falán.

De ha tovább akarunk lépni és archívumunkat digitális formában akarjuk átmenteni, sőt azt is szeretnénk, hogy az oldalak tartalmában keresni is lehessen, akkor a képeket szöveggé kell alakítanunk.

Szerencsére itt is van lehetőség automatizálásra.Töltsük be az oldalunkat az Abbyy Finereader-be (ez egy OCR, vagyis karakter felismerő program, létezik több fajta de én ezt találtam a legjobbnak, mivel tanítható)

Az Options-ban válasszuk a magyar nyelvet. Ezután ha a Read-gombra klikkelünk a program elindul és felismeri a betűket, szavakat, mondatokat. Ha az előző Photoshop batch-el jó munkát végeztünk és igazán szépen kitisztítottuk az oldalakat akkor a Finereader is jó munkát fog végezni és közel 95% eredményt hozhat. Természetesen elkerülhetetlen hogy itt-ott eltévesszen egy-két karaktert, - főleg, hogy régi oldalakról van szó-, de ez több ezer oldalnál nem jelenthet nagy problémát. 


A kész oldalt, most már szöveges formában el lehet menteni tetszőleges formában, Text-ben, Wordben, RTF-ben, vagy PDF-ben. Válasszuk a menűből a Save as text opciót és mentsük el PDF-ként, így  szövegünk megmarad a PDF-en belül és kereshető/kiválasztható/másolható lesz.

 Ha újságokat szkenneltünk akkor a dátumokra a fájlnévben lehet keresnia különböző oldalakon található szövegben pedig az Acrobat Reader-en belül a Find menűben.


HVG

HVG-előfizetés digitálisan is!

Rendelje meg a HVG hetilapot papíron vagy digitálisan, és olvasson minket bárhol, bármikor!