PDF’den veri ayıklama aracı Tabula’nın yeni sürümü yayınlandı

12 Ağustos 2015 pinardag

PDF dosyalarından verileri almaya çalışmış ve veri tablosu oluşturmak için savaş verdiyseniz sorunun genelde ne olduğunu bilirsiniz. Metinler kısmen PDF formatından ayıklansa da veri tablosu oldukça dağınık şekilde elinize ulaşır. Bir araç desteği olmadan gazetecilerin verileri ayıklaması bu sebeple bıktırıcı olabiliyor.

Tabula burada devreye girerek hayat kurtarıyor: Açık kaynak ücretsiz olan bu aracı bilgisayarınıza indiriyorsunuz , yerel bir arama motoru ile de çalışıyor. Kullanım şeklide oldukça kolay. Herhangi bir PDF dosyasını yüklüyorsunuz, sonra ayıklamak istediğiniz bölüm üzerinde bir dikdörtgen çiziyorsunuz. Veriler, CSV olarak herhangi bir elektronik tablo programına aktarılır böylece.

Tabula geçtiğimiz hafta iki yılın ardından yazılımını güncellediğini ve 1.0 numaralı sürüme geçtiğini duyurdu. Bu sürüm Windows, Mac ve Linux’de kullanıma uygun. Sürümün en önemli özelliği revizyondan geçirilmiş kullanıcı arayüzüne sahip olması. (Github’dan inceleyiniz)

Tabula’yı kullanacaklar için bilinmesinde fayda var bu araç sadece gerçek PDF dosyalarında kullanılabilir, yani taranmış fotoğraf formatında olan dosyalarda çalışmıyor. Bunun için OCR yazılımı alternatif olabilir ya da elle verileri ayıklamanız gerekebilir eğer bir fotoğraf dosyası olarak elinizdeyse. Aracın gelişmesini Knight Foundation desteklemiştir.

Yeni sürüm hakkında daha fazla detay için ve yazılımı indirmek için tıklayınız.

Açık Veri ve Veri Gazeteciliği Platformu

PDF’den veri ayıklama aracı Tabula’nın yeni sürümü yayınlandı

Bir yanıt yazın Yanıtı iptal et