PDF’den veri nasıl ayıklanır?
Taşınabilir Belge Biçimi (PDF) platformlar arası taşınabilir ve yazdırılabilir belgeler oluşturmak amacıyla üretilmiş sayısal bir dosya biçimi ve dünyanın belkide en fazla kullandığı belge türünden biri. Özellikle veri gazeteciliği alanında çalışma yapanlar için son dönemlerde önemli bir konu haline geldi pdf’den veri ayıklama ve veriyi çekip kullana bilmek. Bir excel tablosu gibi kolay olmadığından bu işlemi en rahat yapmayı sağlayan araçlardan bazıları şöyle:
1-Tabula
Tabula, eski Knight-Mozilla Açık haber üyesi Manuel Aristaran tarafından ProPublica işbilriğinde açık kaynak olarak geliştirilen PDF ve CSV formatındaki dosyalardan veri ayıklamaya yardımcı olan bir yazılım.
2- Scraper Wiki ScraperWiki web merkezli platform web sitelerinden verileri analiz edip, ayıklayıp, temizlemenizi sağlıyor. Ayrıca PDF’den excel tabloyu verileri de aktarmanıza yardımcı oluyor. Nasıl kullanabileceğinizi bu adresten öğrenebilirsiniz:
Buradan da başlayabilirsiniz: https://datamineruk.wordpress.com/2011/07/21/getting-to-grips-with-scraperwiki-for-those-who-dont-code/
3-Come to Docs
Come to Docs is an online pdf’den excele çevirmeye yardımcı olan çevrimiçi doküman yönetim sistemi. ( .txt dosyası gibi formatta dosyalar için de geçerli) Kullanımı oldukça kolay ve sistem olarak da oldukça güvenilir bir yazılım.
4-Zamzar
Zamzar, ücretsiz çevrimiçi dosya dönüştürücü bir diğer araç. Kullanımı da oldukça kolay.
5-Nitro
Nitro, PDF dosyalarını dönüştüren tarifeli bir araç ancak ücretsiz kullanma demoları da var ve 14 günde kullanma olanağı sağlıyor. Kullanımı da oldukça kolay.
Bunun dışında İngilizce olarak kaleme alınmış ama PDF dosyalarının veri gazetecilerinin işine bu haliyle ne kadar az yaradığına dikkat çeken ve bundan kurtulmanın yollarını anlatan güzel bir örnek yazıyı aktarıyoruz. Okumak için tıklayınız
Ek olarak bu konuyla ilgili bazı kaynakları daha aktarıyoruz:
Veri Güdümlü
Excel’den taranmış görüntü
http://www.verypdf.com/app/scan-to-excel-ocr/scanned-image-to-excel-converter.html
PDF’den metine
http://datadrivenjournalism.net/resources/getting_text_out_of_an_image_only_pdf2
Propublica rehberliği:
http://www.propublica.org/nerds/item/turning-pdfs-to-text-doc-dollars-guide
Açıklayanlar:
https://docs.google.com/file/d/1-y5aHy5KSZhAtd4Q7ZC_NVGylLNN5mHZmSeiZi15r8LHAhZXMjm6LctqsybM/edit