PDF’den Veri Kazıma (Uygulama /Video)
Veri formatının makine okunabilir olması, erişiminin zor olmaması ondan yararlanma hızını arttırıyor. Açık formatlı olmasının kamusal alanda da , habercilik yaparken de oldukça önemli hale geliyor. Veriler kapalı formatta ve yapılandırılmamış şekilde mevcut olduğunda işler zorlaşabiliyor. PDF’de bu formatlardan biri.
Örnek 1:
2014 yılında Arjantin yönetimi 2004-2013 yılları arasında yapılan harcamaların verilerini ham PDF dosyaları ve görsel olarak paylaşmıştı. Yığınlar dolusu yapılandırılmamış ve bilgiyasalar tarafından (makina okunabilirliği olmayan) okunamayan ve analizi oldukça güç dosyalardı bunlar.Modül 2’de Ders 5’de yer verilen dünyadan veri gazeteciliği siteleri arasında yer alan La Nacion gazetesi bu verileri kazımayı, dönüştürmeyi ( PDF’den excel’e , excel’den CSV’ye, TSV’ye) başarmış, veriyi kullanılabilir, yapılandırılmış veri setlerine dönüştürmüş, harcamalar daha detaylı görülebilmiş ve manşet haber olarak yer almıştı. Haber her anlamda o dönemde hem yönetimin şefffalığına yönelik etkiler yaratmış hem de yasal sürece yönelik araştırmaların daha etkin şekilde yürütülmesinin yolunu açmıştı. Ayrıca veri gazetecileri bu dönüştürülmüş yığınla veriden çok sayıda farklı veri güdümlü haber de çıkarmışlardı. Ödül alan bu projeyi buradan detayı olarak da inceleyebilirsiniz: http://blogs.lanacion.com.ar/projects/data/argentina%C2%B4s-senate- expenses-2004- 2013/
Örnek 2:
23 Temmuz 2016 tarihli Resmi Gazete’de yer alan 58 sayfalık OHAL ‘in Kanun Hükmünde Kararnamesi. Taranmış bir PDF dosyası. Açık format değil, yapılandırılmış değil, makine okunabilirliği ise yok. PDF dosyasının tamamı:http://dagmedya.net/wp-content/uploads/2016/07/kapatilan-okullarin-tam-listesi-.pdf
Aşağıda Açık Veri ve Veri Gazeteciliği Derneği’nin Temmuz-Eylül tarihleri arasında düzenlediği ve herkesin erişimine de açtığı Açık Veri ve Veri Okuryazarlığı derslerinin modül 3’de yer alan Tabula ile Veri Kazıma Pratiği videosu yer almakta.
Video Not dökümü için tıklayınız
Veriseti / güncel : 2015 -2016 yılı MEB Eğitim İstatistikleri Raporu
Kulanılan veri seti kaynağı: https://drive.google.com/open?id=0Bxz1Zy_R9wbOUFByd2Y1VzVyYVE
(Bilgi Edinme Hakkın’dan yararlanılarak temin edilmiştir)
Araç hakkında kısa bilgi / url: http://tabula.technology/ Tabula açık kaynaklı pdf’den veri kazıma aracıdır. Yukardaki adresten cihazınıza indirebilirsiniz. Araç sadece elektronik pdf dosyalarından veri kazıyabilir. Taranmış rapor veya dökümanlar Tabula ile kazınamaz. Ayrıca aracı kurmadan önce Java yazılımı cihazınıza kurulmalı. Bu adresten edinebilirsiniz: https://java.com/tr/download/ Eğer Tabula yazılımı cihazınıza yüklemekte sorun yaşıyorsanız, aşağıdaki beta sürümlerini deneyebilirsiniz.
Beta veya diğer sürümler için : https://github.com/tabulapdf/tabula/releases
AVVG’nin tüm eğitimlerine kayıt olarak ve başvuruyu tamamlayarak erişebilirsiniz:
http://avvg.org.tr/