szerző:
techline.hu

Pdf-ból szöveget kinyerni igazán nem ördöngösség.

Pdf-ból szöveget kinyerni igazán nem ördöngösség. Ott van mindenekelőtt a jól bevált módszer: megnyitjuk a szóban forgó pdf állományt, például az ingyenes Adobe Readerben, ahol – feltéve persze, hogy nem védett a file – azután kijelöljük, majd a jól ismert Ctrl C + Vtrl V módszerrel áttesszük a szövegszerkesztőnkbe. Sőt, a Readerben  arra is van lehetőség, hogy egyszerűen lementsük a szöveget .txt formátumba.
És persze vannak célszoftverek is erre a célra, amelyekből már jó párat bemutattunk, például itt és itt.
Nem állítjuk, hogy az A-PDF Text Extractor nevű program (letölthető innen) csodákra képes az előzőekhez képest, viszont gyorsaságban és egyszerűségben tényleg verhetetlen, kérdés persze, hogy ez utóbbi jellemzője (a végtelen egyszerűség) előnyös avagy inkább hátrányos.

A fejlesztő weboldalán a pdf formátumhoz kapcsolódó programokból válogathatunk

A program letöltése után (amit persze előbb ellenőrizzünk a Dr. Web programmal, amiről itt írtunk), indítsuk el az .exe fájlt, s menjünk végig a telepítős varázslós procedúrán. Ez mindössze pár másodpercet vesz igénybe, s máris birtokba vehetjük a programot.
Ha rákattintunk asztali ikonjára, feltűnik a végletekig leegyszerűsített ablak, ahol csupán néhány lehetőség közül választhatunk.

Nem állítjuk, hogy túl sok lehetőséggel kényeztetne el a program

Az Open opcióra kattintva választhatjuk ki a .pdf fájlt, majd  az Extract text opció következik. Szinte egy szemvillanásnyi idő alatt előkerül a Mentés másként ablak, ahol eldönthetjük, hova is mentjük el a kinyert szöveget (.txt formátumban).

Ha akarjuk, azonnal elénk tárul a pdf-ből kivont szöveg

Mindebben semmi érdekes nincsen, s amiért egyáltalán érdemes szót vesztegetni a programra, az az Opciók (Options) gomb mögött rejlik. Ha ugyanis erre rákattintunk, több lehetőség közül választhatunk. Meghatározhatjuk például, hogy mely oldalakkal foglalkozzon a program (külön kijelölhetjük a páros és páratlan oldalakat), illetve azt is, hogy milyen formában vonja ki a szöveget (egymás után jöjjenek a sorok, függetlenül a hasábos elrendezéstől, maradjon meg az eredeti elhelyezés, illetve jelölje a program a szavak pozícióját is. Kérdés persze, hogy mindez elegendő érv amellett, hogy az Adobe Reader helyett inkább az A-PDF Text Extractorra voksoljunk.

Érdekesnek találta cikkünket?
Legyen HVG pártoló tag!

A HVG Pártoló Tagság programja az első olyan kezdeményezés, aminek keretében az olvasóink közelebb kerülhetnek szerkesztőségünkhöz és támogatásukkal segíthetik, hogy újságírói munkánkat továbbra is az eddig megszokott magas színvonalon végezhessük. Tagjainknak heti exkluzív hírlevelet küldünk, rendezvényeket kínálunk, a könyveinkre és egyéb termékeinkre pedig komoly kedvezményt adunk. Támogatóként már heti egy kávé árával is hozzájárulhat a minőségi újságíráshoz! „Amikor annyira eluralkodik a mindennapi életünkön a virtualitás, üdítő igazi emberi kapcsolatokat építeni.”
K. Erna – Pártoló tag


„Régóta olvasom a HVG-t és cikkei között mindennap találok érdekfeszítőt!”
H. Szabolcs - Támogató
Csatlakozzon programunkhoz, támogassa munkánkat egyszeri hozzájárulással vagy fizessen elő a hetilapra!
A HVG Pártoló Tagság programja az első olyan kezdeményezés, aminek keretében az olvasóink közelebb kerülhetnek szerkesztőségünkhöz, és támogatásukkal segíthetik, hogy újságírói munkánkat továbbra is az eddig megszokott magas színvonalon végezhessük. Támogatóként már heti egy kávé árával is hozzájárulhat a minőségi újságíráshoz! Csatlakozzon programunkhoz, támogassa munkánkat egyszeri hozzájárulással vagy fizessen elő a hetilapra!
techline.hu Tech

A leggyorsabb PDF-olvasók

Igaz, hogy az új Adobe Reader már gyorsabban indul, de ennek ára van, ugyanis a...