Veri Doğrulama Yöntemleri-İpuçları
Gijn
Toplanana verileri analiz etmeden önce doğrulamaya ve temizlemeye ihtiyaç duyarız. Aşağıda tavsiyeleri içeren kaynaklar listesinden yararlanabilirsiniz.
Veri Biyografileri: Verinizi Tanımak istatistikçi Heather Krause tarafından hazırlanan yazıda verileri analiz etmeden önce veri biyografisi oluşturmanın verilerdeki tutarsızlıkları anlamada önemli olduğuna yer veriliyor. Verilerin objektifliği konusunda sistematik bir kontrolün önemli bir doğrulama aşaması olduğuna dikkat çekiliyor. Yani “veri setinin adı, veri seti kaynağının linki, tutulan kaynağın linki, veriyi kimin topladığı, verinin boyutu, kimin katkı sağladığı ya da sağlamadığı, veri setinin ne zaman toplandığı, ne zaman güncellendiği, neden toplandığı, verinin kalitesi, verinin kullanım şartları/koşulları” başlıklarından oluşuyor.
Quartz Dağınık/Kötü Veri Rehberi verilerde olası hataların neler olabileceğine yer verilen önemli bir liste. Verinizi temizlemeden önce bu listeyi inceleyebilirsiniz ve dağınık verilerde olan hataları anlayabilirsiniz. Çince, Japonca, Portekizce, İspanyolca ve Türkçe’ye çevrildi.
ProPublica’nın Veri Doğrulama Rehberi verinizi doğrulamak için önemli bir veri doğrulama rehberi. Düzenli olarak güncellenen rehbere Github üzerinden ulaşabilirsiniz.
OpenRefine ile veri derleme/temizleme Miriam Posner tarafından hazırlanan yazı ekran görüntüleri ile aşama aşama veri temizleme yöntemlerini öğretiyor. Türkçe veri temizleme video linkine ise buradan ulaşabilirsiniz. Ayrıca Duke Üniversitesi tarafından çevrim içi rehbere de buradan ulaşabilirsiniz.
Veri gazetecisi Maarten Lambrechts tarafından dağınık veriyi excel ile temizleyip standartlaştırmayı sağlayan eğitime buradan ulaşabilirsiniz. Google e-tablo ile veri temizleme videosuna ise buradan ulaşabilirsiniz.