Açık Veri Kalitesi Hakkında Bilinmesi Gereken Dört Şey
İyi veri, iyi sonuç almayı sağlar. Veri kalitesi kavramı ne demek? Açık veri uzmanları bununla ne demek istiyorlar? Teknik boyutu , verinin depolanma şekli mi bu tanımın karşılığı olarak görülüyor, yoksa veri okuryazarlığının etkisi de önemli mi?
Açık Veri Enstitüsü’de yer alan dört madde ile açık ver kalitesi şöyle açıklanıyor:
1-Kaliteli bir veri seti demek, iyi yayınlanmış bir veri kümsesi demektir
İlk izlenim her alanda olduğu gibi, veri dünyasında da önemli. Bir veri kümesini yayınlama şekli, bir kullanıcının ondan yararlanabilme hızını ve verim almasını etkiliyor. Veri setinin içeriği ne kadar iyi olur ise olsun; bir veri seti iyi yapılandırılmış, arşivlenmiş değil ise yararlanmakta o kadar zorlaşır.
Açık veri sertifikaları, açık veriler için kalite ve güvenin bir işaretidir. Verilerin yayınlanmasının yasal, teknik, pratik ve sosyal yönlerini ölçer. Sertifika oluşturmak ve yayınlamak, bir yayıncının erişime açtığı verisine güvenmeyi sağlar. Açık veri sertifikaları, verilerin web ile ne kadar iyi entegre olduğunu değerlendiren beş yıldız planının tamamıdır.
2. Bir veri seti çeşitli problemleri içerebilir
Veri kalitesi aynı zamanda bir veri kümesinin içeriği ile de ilişkilidir. Veri hataları, genellikle veri toplandığında ortaya çıkar. Ancak, sorunlar kullanıcılar veri ile çalışmaya başladıklarında belirginleşir.
Hepsi olmasa da veri kalitesi sorunu ile ilgili bir kaç madde şöyle:
a)Veri kümesi, olması gerektiği şekilde , şemda değil: örneğin eksik sütunlar var ya da yanlış sırada.
b)Veri kümesi, geçersiz veya hatalı değerler içerir: örneğin beklenen aralıklar dışındaki sayıların olması, imla hataları veya geçersiz telefon numaraları, metinler
c)Veri setinde eksik verilerin olması: örneğin veri seti tüm mevcut verileri içermiyor – bir veri kümesindeki bazı adres posta kodu eksik olabilir
d)Verilerin hassas problemlemlerinin olması: örneğin bunlar, verileri kaydetmek için kullanılan sensörlerin veya diğer cihazların (GPS cihazları gibi) doğruluk sınırlamalarının olması gibi veya çoğu analiz sırasında ortaya çıkan basit yuvarlama hatalarının olması vb.
3. Veri hatalarını düzeltmenin birkaç yolu var
Bazı veri hatalarını düzeltmek, görmek diğerlerine göre daha kolaydır. CSVLint gibi araçlar, bir veri kümesini doğrulamak için oldukça iyi bir yöntem olabiliyor. Ancak, bazen değerin doğru olup olmadığını teyit etmek için ek adımlar atmak gerekebiliyor. E-posta adresini doğrulamak da önemli konulardan biri.
Veri kalitesi sorunlarını belirlemeye yardımcı olmanın diğer bir yolu, verileri yasal boyutunu da incelemek. Kayıtların kontrol edilebilmesi. Örneğin, ülke isimleri , standart kayıtlarının doğrulanabilir olması. Açık kayıtlar, veri ekosisteminin önemli bir parçasıdır.
Diğer hatalar türleri düzeltmek daha zordur. Şirket adları ve adresleri zaman içinde geçersiz veya hatalı olabilir. Verilerin açık şekilde yayınlanması başkalarının düzeltmeleri tanımlamasına ve katkıda bulunmasına izin verebilir. İçerikleri açmak onları daha iyi hale getirmeye yardımcı olur.
4. Bazen ‘iyi kalite’ ihtiyaçlarınıza bağlıdır
Veri kalitesini artırmaya yardımcı olmanın bir yolu da, veri kümesi için kalite metrikleri oluşturmaktır. Metrikler, bir veri kümesindeki sorunların türlerini özetlemenize yardımcı olur. Belirli sütunlarda geçerli ve geçersiz sayıların sayısını saymak. Metrikler, bir veri kümesinin kalitesinin zaman içinde değişip değişmediğini düzenli olarak çalıştırır. Bununla birlikte, bir veri kümesinin kaliteli olup olmadığı hakkında objektif bir değerlendirme yapmak zordur. Bazen nitelik, gözlemcinin analizine bağlı da olabiliyor.
Basit bir coğrafi görselleştirme yapmak istiyorsanız , bu bağlamda bir veri kümesindeki GPS doğruluğu önemli olmayabilir. Fakat bir sınır anlaşmazlığına girerse, hassasiyet yaratabilir.
Kırılmış sensörlerden gelen yanlış okumalar, ham bir veri kümesinden filtrelemelerini isteyebilecek kullanıcıların çoğunluğu için bir sıkıntı olabilir. Ancak, sensör arızaları üzerine analiz toplamak istiyorsanız, o zaman hataları görmek önemlidir.
Bir veri kümesindeki tüm veri kalitesi sorunlarını düzeltmek, önemli bir yatırım da sağlayabilir. Bununla birlikte, verileri açarak ve başkalarına düzeltmelerde bulunmalarını sağlayarak, verilerin korunması maliyetini artırabilirsiniz. İşleri açmak onları daha iyi hale getirmeye yardımcı olabilir.
Çevri kaynak: http://theodi.org/blog/four-things-you-should-know-about-open-data-quality