PDF’den veri nasıl ayıklanır?

2 Haziran 2015 pinardag

Taşınabilir Belge Biçimi (PDF) platformlar arası taşınabilir ve yazdırılabilir belgeler oluşturmak amacıyla üretilmiş sayısal bir dosya biçimi ve dünyanın belkide en fazla kullandığı belge türünden biri. Özellikle veri gazeteciliği alanında çalışma yapanlar için son dönemlerde önemli bir konu haline geldi pdf’den veri ayıklama ve veriyi çekip kullana bilmek. Bir excel tablosu gibi kolay olmadığından bu işlemi en rahat yapmayı sağlayan araçlardan bazıları şöyle:

1-Tabula

Tabula, eski Knight-Mozilla Açık haber üyesi Manuel Aristaran tarafından ProPublica işbilriğinde açık kaynak olarak geliştirilen PDF ve CSV formatındaki dosyalardan veri ayıklamaya yardımcı olan bir yazılım.

2- Scraper Wiki ScraperWiki web merkezli platform web sitelerinden verileri analiz edip, ayıklayıp, temizlemenizi sağlıyor. Ayrıca PDF’den excel tabloyu verileri de aktarmanıza yardımcı oluyor. Nasıl kullanabileceğinizi bu adresten öğrenebilirsiniz:

Buradan da başlayabilirsiniz: https://datamineruk.wordpress.com/2011/07/21/getting-to-grips-with-scraperwiki-for-those-who-dont-code/

3-Come to Docs

Come to Docs is an online pdf’den excele çevirmeye yardımcı olan çevrimiçi doküman yönetim sistemi. ( .txt dosyası gibi formatta dosyalar için de geçerli) Kullanımı oldukça kolay ve sistem olarak da oldukça güvenilir bir yazılım.

4-Zamzar

Zamzar, ücretsiz çevrimiçi dosya dönüştürücü bir diğer araç. Kullanımı da oldukça kolay.

5-Nitro

Nitro, PDF dosyalarını dönüştüren tarifeli bir araç ancak ücretsiz kullanma demoları da var ve 14 günde kullanma olanağı sağlıyor. Kullanımı da oldukça kolay.

Bunun dışında İngilizce olarak kaleme alınmış ama PDF dosyalarının veri gazetecilerinin işine bu haliyle ne kadar az yaradığına dikkat çeken ve bundan kurtulmanın yollarını anlatan güzel bir örnek yazıyı aktarıyoruz. Okumak için tıklayınız

Ek olarak bu konuyla ilgili bazı kaynakları daha aktarıyoruz:

Veri Güdümlü

http://datadrivenjournalism.net/resources/getting_text_out_of_an_image_only_pdf2#sthash.DXQZw4KM.dpuf

Excel’den taranmış görüntü

http://www.verypdf.com/app/scan-to-excel-ocr/scanned-image-to-excel-converter.html

PDF’den metine

http://www.newocr.com/

http://datadrivenjournalism.net/resources/getting_text_out_of_an_image_only_pdf2

Propublica rehberliği:

http://www.propublica.org/nerds/item/turning-pdfs-to-text-doc-dollars-guide

ftp.foolabs.com/pub/xpdf

Açıklayanlar: