Kötü Veriyi Düzeltmenin 5 Yolu
Gazeteci , iş insanı ya da akademisyen olarak çalışmalarınızı etkileyebilecek bir yığın veri var. Bu verilerin görselleştirilmesi, analiz edilmesi gerekiyor haber merkezinizde, üniversitenizde, şirketinizde istenen kalitede işler çıkmasını sağlayabilmeniz için. Problem ise bu verilerin iyi şekilde oluşturulmaması. Bazı veriler yaygın olarak ” kötü veri” olarak bilinir. Bu şu anlama gelir önemli bilgiler eksiktir, doğru şekilde kaydı yapılmamıştır, yanlış formatlıdır ya da güncel değildir. Bazı kötü verilerin düzenlenmesi uzmanlar, yazılımcılar tarafından ele alınması gerekirken, bazılarının siz tarafından onarılması gerekir.
Rehberden özet bazı bölümler şöyle:
Kötü veriyi düzenlemenin 5 yolu:
1) Veri PDF Formatında
Büyük oranda veriler – özellikle devlet verileri- sadece PDF formatında oluyor. Eğer PDF’de iyi seviyede kazıyabilecek metinler , içerikler var ise bu bilgiyi alabilecek bir kaç iyi seçenek var.
Çözüm: Açık kaynak iyi bir araç Tabula kullanılabilir. Ancak Adobe Creative Cloud’unuz var ise Acrobat Pro’yu da kullanabilirsiniz, bu araçla da PDF’lerden mükemmel şekilde veriyi Excel’e aktarabilirsiniz.
2) Veri çok bölümlü /detaylı olabilir
Verinin çok yüzeysel olmasının karşıtı anlama geliyor bu. Örneğin ilçeler var elinizde ama siz şehirleri istiyorsunuz ya da aylar var elinizde ama siz yılları istiyorsunuz. Ve bu durum oldukça yaygın.
Çözüm: Veriler, bir SQL veritabanı kullanarak veya özel kod yazarak Excel veya Google Dokümanda özet tablo özelliği kullanılarak birleştirilebilir. Özet Tablolar ( Pivot Tables) her muhabirin öğrenmesi gereken önemli bir araç. Ama özet tabloyla yapabileceklerinizin limiti olduğu için Microsoft Excel ‘den ekleyebileceğiniz 6 eklentiyi de kurabilirsiniz: analysis toolpak, power pivot, solver, random generator, quandl, fred), bu eklentilerle pro seviyede veriyi bulma, analiz etme hizmetlerinden daha etkili şekilde yararlanabiliyorsunuz. Çok büyük verisetleri ve onların birleştirilmesi konusunda programcılarla çalışmanız da gerekebilir.
3) İnsan hatası- girişler ve manüel düzenleme
İnsanların veri girişlerini yapması sonucunda hataların oluşması oldukça yaygın bir sorun. İnsan tarafından girilen verilerde hata oranı çok yüksek. Manüel düzeltmeler de yine insanlar tarafından yapıldığı için yine insan odaklı hataların devam etmesine neden oluyor, bunun nedeni ise verinin orijinalini düzenleyen kişinin bilmemesi.
Çözüm: Manüel girişlerde veriden emin olma konusu oldukça önemli çünkü kaynağınızın neresi olduğunu, nereden alındığını açık şekilde göstermeniz gerekiyor. Kaynağın net olmaması birinin rahatlıkla yapılan işi önemsememesinin yolunu açacaktır. Akademi sıklıkla verilerini devletten, anketlerden alır. Gazeteciler de bunlardan yararlanır. Verilere yönelik herhangi bir değişiklik kaydının olmaması, veri üzerinde nasıl bir değişiklik yapıldığını anlamak neredeyse imkansız olur. Olabildiğince verinin gerçek kaynağına ulaşmak gereklidir böyle bir durumda.En azından en güncel, en son versiyonuna ulaşmak çok önemlidir. Sonrada bunun üzerinden analizinizi yapabilirsiniz.
4) Hata payı oranı (HPO)bilinmiyor ya da çok büyük
Bazen problemin hata oranı umursanmıyor, ya da nereden kaynaklı üzerinde durulmuyor. Bilimsel olmayan anketler bir örnek. Bilgisayar olmadan hata payı oranını bilmek / anlamak neredeyse imkansızdır. Diğer büyük problem ise hata oranı büyük olan sayıların kullanılması. Bunlar genellikle anket verileriyle ilişkili olabiliyor. Seçim verileri kullanılacak ise ağırlıkta resmi kurumların seçim verilerini incelemelisiniz.
Çözüm: Genel kural, ne zaman bir anketin verisini kullanırsanız mutlaka HPO (Hata Payı Oranı ) sormalısınız. Eğer kaynak size bunu vermiyor ise, kullanmanız da doğru olmayacaktır analiz için. HPO çok büyük ise kullanmanız ile ilgili tam bir kural olmasa da , yüzde 10 üstünde Hata Payı oranı olan verileri kullanmada dikkatli olunmalıdır.
5) Zaman Dilimi ya da Referans Yapısı maniple edilmiş ise
Bazı kaynaklar bilmeyerek ya da bilerek veri tarihlerini değiştirilmiş olarak yaygınlaştırırlar. Ya da spesifik bir zaman diliminde başlar veri vb. Ya da bir veriniz referans yapısı maniple edilmiştir.
Suç verileri örneğin çok sık politikacılar tarafından karşılaştırma için kullanılır ve önceden daha fazla iken, kendi yönetimleri döneminde düştüğünü vb. örnekler sunarlar. Örneğin 2004 yılından bu yana yüzde 60 düştü ya da endeks ile ifade edilebilir 100 iken 40’a düştü gibi. Her iki durumda da bu karşılaştırma için iyi bir örnek değil.
Bu örnek ya da başka örnek önemli değil, 2004 yılı belkide karşılaştırma için uygun yıl olmayabilirdi. Alışılmadık suç oranlarının oldukça yüksek olduğu bir yıl olabilirdi. Aynı durum yer /mekan/şehir karşılaştırmalarında da oluyor. Biri bir ülkeyi kötü göstermek istediğinde kısa yoldan verileri kullanarak bunu yapabiliyor , daha iyi olan bir ülkenin verilerini kullanarak .
Çözüm: Zaman bilgisi sınırlı olan bir veriniz var ise ilk yıllar ile hesaplama yapma ve kullanmadan kaçınmalısınız. Bir kaç yıl öncesinden başlıyorsanız ( ya da ay ve günler) o zaman daha rahat olabilirsiniz karşılaştırmayı tek bir veri noktası ile gerçekleştirmediğiniz için. Zaman dilimine yönelik manipülasyonlar insanların çok fazla konfirme bekledikleri ve yargıyla baktıkları bir süreci doğurabiliyor. Mümkün olduğunca farklı kaynakları kullanarak karşılaştırma yapınız.
Geri bildirim: Veri Gazetecileri için Excel & Özet Tabloyla Veri Analizi Yapmak – Açık Veri ve Veri Gazeteciliği