Araştırmacılar İçin Veritabanı Oluşturmanın İpuçları
Küresel Araştırmacı Gazetecilik Ağı (GIJN)
Miriam Forero Ariza
Fotoğraf: Julia Joppien / Unsplash
Kolombiya bu yıl protestolar, silahlı çatışmalar ve polisin görevini kötüye kullanmasına yönelik suçlamalarla sarsıldı. Tüm bu süreçte gazeteciler olayları takip etmek için yoğun çaba sarfettiler.
Kriz büyüdükçe bir kaç bağımsız medya kuruluşu ve çeşitli insan hakları örgütleri protestolarla ilişkili ölümleri, gücün kötüye kullanımını, şiddeti ve gözaltıları kaydetmek için kendi veri tabanlarını oluşturmaya başladılar. Öyle ki temmuz ayında 70’ten fazla Sivil Toplum Kuruluşu kendi veritabanlarını oluşturuyordu.
Buna benzer bir veritabanı “Rutas Del Conflicto” (Normalde veri gazeteciliği tekniklerini kullanarak Kolombiya’nın 50 yıllık silahlı çatışmalarını kayıt altına alan bir dijital medya kuruluşu) tarafından tasarlandı. Bu yılın başlarında Rutas Del Conflicto ekibi hükümetin vergi reformu üzerine başlayan ve sonrasında hükümet karşıtı protestolara dönüşen eylemlerde uygulanan şiddeti haber yapmaya başladı.
Gazeteci Oscar Parra öncülüğünde muhabirler, gazetecilik öğrencileri, bir yazılımcı ve grafik tasarımcıyla kurulan bir ekip, ülke genelinde süren protestolarda yaşanan can kayıplarını kayıt altına almak için bir veritabanı oluşturdu.
Parra ve Ekibi, günlük olaylardan, basın bültenlerinden, STÖ’lerden, mağdurlarla ve tanıklarla yapılan röportajlardan veri toplayıp doğrulayarak protestolarda yaşanan şiddeti gösteren doğrulanmış bir veritabanı oluşturmayı başardı. Oluşturulan veritabanı sayesinde kurbanların kim olduğu, ölümlerin neye bağlı olarak gerçekleştiğini keşfettiler ve protestolarda yaşanan şiddetin arkasındaki polis vahşetini kanıtladılar.
Bu çalışma, Parra’nın gazetecilik için oluşturduğu ilk veritabanı değildi. Aslında Rutas del Conflicto 2012’de ortaya çıktı. Oscar Parra eski paramiliterlerin Kolombiya ordusunun Kolombiya Silahlı Asi Güçleri’ne (FARC) karşı savaşındaki rolleri hakkında kanıtlar sunduğu adalet sürecine geçişi anlatırken kurulmuştu.
Parra, duruşmalarda sık sık sivillerin ve düşman güçlerinin öldüğü katliamlarla ilgili detayların ortaya çıktığını farketti. Parra, “Bu yüzden, haritalama araçları ve zaman çizelgeleri oluşturmaya çalışmak için tüm bu bilgileri bir veritabanında gruplandırmanın iyi olacağını düşündüm.” dedi ve her bir mahkemedeki bireysel hikayelerin, bir haritanın aksine mahkemede neler olduğuna dair tam bir resim oluşturmadığını da sözlerine ekledi.
Parra, bir sistem mühendisi olarak bilgisini – önceki kariyeri – ve araştırmacı gazeteciliğe olan tutkusunu bir grup öğrenciyi eğitmek için kullandı ve Rutas Del Conflicto’nun ilk adımı için fon aradı. Bu da Parra ve ekibinin 2017’de en iyi veri gazeteciliği sitesi ile 2017 Veri Gazeteciliği Ödülünü kazanmasını sağladı.
La Paz en el Terreno (Zemindeki Barış), barış anlaşmalarının imzalanmasından sonra Kolombiya’daki şiddeti inceleyen bir veri projesidir. Resim: Rutas del Conflicto’nun izniyle kullanılmaktadır.
Ekip, o zamandan beri savaş mağdurlarının ülke boyunca uzanan nehirlerde nasıl zorla ortadan kaldırıldığını ve Kolombiya’da uygulanan şiddet ile arazi mülkiyeti anlaşmazlıkları arasındaki ilişkiyi ortaya çıkarmak için aynı veri toplama, düzenleme ve işleme adımlarını izliyor.
Bugün dünyanın dört bir yanındaki haber odaları verinin eksik veya güvenilir olmadığı durumlarla karşı karşıya kaldıklarında kendi veri tabanlarını oluşturuyor. Diğerleri bunları, olaylar meydana gelirken veya çeşitli bilgi kaynaklarını çapraz kontrol etmek gerektiğinde bir raporlama veya araştırma kaynağı olduğu için geliştiriyor.
“İhtiyacınız olan verilere sahip olamamak, inandığınız bir hikayeyi anlatamamak için bir neden değildir. Halk için yararlı olabilir.” – Organize Suç ve Yolsuzluk Raporlama Projesi’nin Latin Amerika veri editörü Romina Colman.
Bunu 2009 yılında, Kolombiya araştırmacı gazeteciler derneği GIJN (Uluslararası Araştırmacı Gazeteciler Ağı) üyesi Consejo de Redacción (CdR) ile bir veritabanı oluşturmaya çalışırken öğrendim. Gazeteci ortaklarımız için kamu görevlilerini ve yolsuzluğu araştırmalarına yardımcı olacak bir veritabanı oluşturmak istedik. O zamanlar, belgelerden veri çıkarmak için araçların sayısı azdı. Kolombiya’da veri gazeteciliği yeni ortaya çıkıyordu ve hükümetten yönetilebilir dijital formatlarda çok kısıtlı bilgi alabiliyorduk.
Bu yüzden işe kamu görevlilerinin çıkar çatışmalarını ve kampanya bağışçılarını beyan ettikleri, çoğu el yazısıyla yazılmış yüzlerce kağıt belgeyi yazıya dökerek başladık. 20’den fazla resmi kaynaktan ilgili diğer verileri ekledikten birkaç yıl sonra 2 milyondan fazla kayıttan oluşan bir veritabanı derledik. Bu, bizi önde gelen araştırma dergisi Semana’nın haberi tehlikeli arazi dağıtımı gibi bir dizi siyasi görevin suistimalini ortaya çıkmaya götürdü.
Araştırmacı gazeteciler, doğru uzmanlıkla her türlü formatta bilgi ile karşılaşabilirken, hepsi işlenebilir veritabanlarına dönüştürülebilir.
2011 yılında veri yönetimi ve analizi bir gazetecilik tekniği olarak zemin kazanırken; Kolombiya Açık Devlet Ortaklığı’na (şeffaflığı artırmak için 78 ülke tarafından imzalanan küresel bir girişim) katıldı. Bu, benim ve ekibimin konuyla ilgili hikayeleri anlatmak için veritabanları oluşturmaya devam etmesine imkan sağladı. Biri, yerel denetçiler -belediye başkanlarının ve valilerin çalışmalarını denetlemekle görevli kamu görevlileri- ve tam da bu kişilerin izlemesi gereken kişiler arasındaki bağlantıları araştırdı. Bir diğeri, 2018’de başkanlık ve kongre kampanyalarını kimin finanse ettiğini adayların raporlarının kamu sözleşmeleri, şirket kayıtları ve yerel kamu görevlilerinin geçmiş verileriyle çapraz kontrol ederek analiz etti.
Gazeteciler 1980’lerde veritabanı oluşturmaya başladı. Son yıllarda teknolojide yaşanan gelişmelerle web sayfalarından veri çıkarma, PDF’leri veya taranmış dosyaları düzenlenebilir biçimlere dönüştürme ve büyük miktarda veriyi birleştirme imkânı ortaya çıktı ve daha erişilebilir hale geldi. Gittikçe daha fazla muhabir günümüzde veri gazeteciliği eğitimi aldı ve bu durum gazeteciler, yazılımcılar ve bilgisayar mühendisleri arasındaki iş birliklerinin artmasına neden oldu. Bu da veritabanları oluşturmanın ve gazetecilerin veri ile haber yapmasının daha uygulanabilir hale gelmesini sağladı.
Dünya genelinde haber odaları İtalya’da suçluların el konulan varlıklarını, ABD’de şok etkisi yaratan ölümleri, polisin gücü kötüye kullanımını araştırmak ve ulus ötesi soruşturmalarda iş birliği yapmak için veri tabanları oluşturdu. Yakın zamanda 12 ülkeden bir grup gazeteci, Latin Amerika’da çevre hakları savunucularına yönelik 2.460 şiddet vakasını içeren, daha önce hiç sistematik hale getirilmemiş bilgiler barındıran bir veritabanı oluşturdu. Bu grup daha sonra Direniş Ülkesi (Tierra de Resistentes) adlı özel bir projede bu veri seti hakkında 36 araştırma raporu yayınladı.
Dünyanın diğer tarafında Organize Suç ve Yolsuzluk Raporlama Projesi (OCCRP), yüzlerce banka kaydından 1.3 milyondan fazla alım-satım işlemi hakkında veri çıkarmak için son teknolojiyi kullandı. Bu çalışma Rus oligarklarının ve politikacılarının haksız kazandıkları milyonları gizlice yurt dışına nasıl kaçırdığını, kara para akladıklarını ve vergi kaçırdıklarını gözler önüne serdi. Troika Laundromat’ın bu araştırmasıyla OCCRP 2020 Sigma Ödülü’nü kazandı.
Bu projeler kamuya açık olmayan veya merkezi olarak derlenmemiş ve açığa çıktığında büyük etki yaratacak hikayelerin anlatılması için birleştirilmiş verilerin kullanılmış olması açısından önemlidir ancak araştırmacı gazeteciler daha küçük ölçekte veritabanları oluşturarak büyük etki yaratacak hikayeler ortaya çıkarabilir. İşte araştırmacılar için veritabanları oluşturmaya nasıl yaklaşılacağına dair adım adım bir kılavuz.
Kendinizi Hazırlayın
- Verileri Elde Edeceğiniz belgeleri inceleyin. Herhangi bir kalıp görmeye çalışın; bu tekrarlayan öğeler veritabanınızı nasıl yapılandıracağınız konusunda size ipuçları verecektir. Sıfırdan başlıyorsanız ve röportajlardan ve geleneksel raporlardan kayıt alacaksanız, ortak bir nokta bulmak için benzer vakaları veya hikâyeleri analiz edin. Bu keşif aşamasında uzmanlarla konuşmanız faydalı olabilir.
- Toplayacağınız verilerin kapsamını analiz edin. Hangi zaman aralığındaki verileri toplayacaksınız? Hangi vakaları dahil edecek veya hariç tutacaksınız? (Bu açık ve spesifik kriterler gerektirir.) İşlediğiniz kayıt sayısında bir sınır olacak mı? Bu sorulara projenizin kaynaklarını -zaman, ekip, fonlar, teknoloji vb – göz önüne alarak yanıtlamanız size yardımcı olacaktır.
- Soruları listeleyin. Araştırma sırasında cevap aradığınız soruların bir listesini yapın. Bu veritabanının tasarımına rehberlik edecektir.
- Özellikle bu ilk aşamada takım çalışmasını destekleyin. Meslektaşlar arasındaki tartışmalar, bu ilk önemli aşamayı kolaylaştırır ve işinizi daha iyi getirir. (Tierra de Resistentes projesi böyle başladı: Veritabanı ve soruşturma, araştırmacı gazetecilik atölyeleri sırasında şekillendi.)
Veritabanınızı Tasarlayın ve Geliştirin
- Her satırın neyi anlatacağını kararlaştırarak başlayın. (vakalar, kişiler, yerler, ürünler, olaylar, ülkeler, işlemler vb.)
- Daha sonra her kaydı tanımlamaya yardımcı olacak öğelerin bir listesini yapın: Burada sütunlardan bahsediyoruz. Örneğin, her satır bir kişiyse, alanlar ad, kimlik numarası, yaş, konum, meslek vb. olabilir.
- Kaydettiğiniz her veri için bir anahtar belirlemeye çalışın. Kimlik numaraları (mümkün olduğunda) isimlerden daha iyi bir fikirdir. Ayrıca, her kaydı benzersiz kılan iki veya üç özelliği birleştirerek kodlar oluşturabilirsiniz. İki veya daha fazla veri seti arasında çapraz kontrol yapmanız gerekiyorsa bu anahtar gerekli olacaktır.
- Tanımlayıcı bilgiler haricinde kayıtlarınızı detaylandırmak için notlar ekleyin. Notlar genellikle anlatı için faydalı olacak kısa paragraflardır. Ortak özelliklere atıfta bulunan ve kategori oluşturanlar için sınıflandırarak notlar ekleyin.
- İstikrar her şeyden önemlidir. Bu nedenle, sayıların sayı olarak yazıldığından, tarihlerin doğru biçimde olduğundan ve kategorilerin her zaman aynı şekilde yazıldığından emin olmak için doğrulama yapılandırmalarını kullanın. Mümkün olduğunca açık uçlu sorular yerine çoktan seçmeli sorular kullanın.
- Çalışma alanlarınızın sayısında aşırıya kaçmayın. Yalnızca araştırmanızla ilgili, veri analiziyle alakalı ve ekibinizin doldurabileceği çalışma alanları oluşturun.
- Veritabanınız birden fazla tabloya ihtiyaç duyabilir. Konunun karmaşıklığına ve ilgili öğeler arasındaki ilişkilere bağlı olarak veritabanınız birden fazla tabloya sahip olabilir.
- Veritabanınızın kullanıcı dostu olduğundan emin olun. Veritabanı tasarımının, teknoloji düzeyi ne olursa olsun projeye dahil olan herkes için kullanıcı dostu olduğundan emin olun. OCCRP’nin kurucu ortağı ve inovasyon şefi Paul Radu, “Özellikle gazeteciler ve gazeteciler için oluşturulmuş bir araç olmalı” diyor.
- Veritabanını ölçeklenebilir hale getirin: Tasarımınız, siz, ekibiniz veya bir başkası tarafından, gelecekteki daha büyük bir projenin ilk adımı olabilir.
Sürekli Test Edin
- Veritabanının pilot testini uygulayın. Beklediğiniz gibi çalışıp çalışmadığını görmek ve üzerinde çalışmayı umduğunuz hikayeler için yararlı olup olmayacağını değerlendirmek için bazı kayıtları doldurun. Projenin ne kadar sürebileceğini tahmin etmenin iyi bir yolu: Yeni bir kayıt eklemek için geçen ortalama süreyi ölçmek ve hesaplamak, denetlemek ve ardından bilgileri onaylamaktır.
- Olasılıkların listesini yapın. Olası engelleri veya hata senaryolarını analiz etmek ve bunların üstesinden nasıl geleceğinizi belirlemek için bir liste oluşturun.
- En önemli alanların güvenilirliğini ve tutarlılığını değerlendirin. Farklı şeyler söyleyen çeşitli kaynaklarınız varsa – ki bu rakamlar veya tarihler ortaktır- bilgiyi, kimin doğruyu söylediğine keyfi olarak karar vermek yerine, ortadaki anlaşmazlığı, rahatça tanımlayabileceğiniz “ayrıntılar” sütununa taşımak isteyebilirsiniz.
Veritabanınızı Doldurun
- Muhabirlere uygulamalı eğitim vermek için bu test sürecinde öğrendiklerinizi uygulayın. Veritabanındaki bilgileri toplayacak, girecek ve analiz edecek olan muhabirlere uygulamalı eğitim vermek için bu test sürecinde öğrendiklerinizi uygulayın. Herkesin kavramları ve kategorileri aynı şekilde anladığından emin olun.
- Ortak depolama araçlarından yararlanın. Erişimin yalnızca bir kişiye bağlı olmaması için ortak depolama araçlarından yararlanın.
- Tasarım aşamasında tanımladığınız kategorileri kullanarak verileri ayırın. Böylece kimin hangi bilgileri topladığı ve tekrarlardan nasıl kaçınıldığı konusunda kurallar netleşir.
- Web’den veya metin belgelerinden veri toplamanız gerekiyorsa çabalarınızı araştırmanızla en alakalı olan şeyin ne olduğuna ve hikayelerinizin odağını neyin belirleyeceğine odaklayın. Örneğin; Troika projesinde, işlemlerin amacını belirlemek kilit noktaydı.
- Sahip olduğunuz veri miktarı tek başına yönetemeyeceğiniz kadar büyükse dışarıdan bir profesyonel işe almayı düşünün. Ya da bir şirket, belgeleri daha önce haber odanızla tasarlanmış bir veritabanına aktarabilir.
Denetim ve Doğrulama Kontrolü Yapın
- Veritabanını oluşturmak, araştırmanın yalnızca ilk adımıdır. Verileri analiz etmeden ve sonuçlar çıkarmadan önce, ister belgeler ister hikayelerin ana karakterleri olsun, orjinal kaynaklarla doğrulamanız gerekir. Parra, Rutas del Conflicto’daki projelerinden biri hakkında, “Verilerimizi katliamların olduğu belediyelere götürdük. Böylece hayatta kalanlar medyanın ve başkalarının yıllardır söylediği yanlışları düzeltebildi.” diyerek konuyu açıklıyor.
- Ne tür bir denetim yapacağınıza karar verin. Bu denetim projenizin kapsamına bağlı olarak değişir. Her bir kaydı orijinal belgelerle çapraz referans vererek kontrol edebilir veya rastgele nokta kontrolleri yapabilirsiniz, ancak bunlar veritabanındaki önemli sayıda kaydı kapsamalıdır. Her iki senaryoda da verileri inceleyen kişi, verileri giren kişi olmamalıdır.
- Denetimde nelere dikkat etmelisiniz? Kriterleri karşılamayan yazım hataları, sayılar, tarihler, kopyalar ve kayıtlar.
- Sayıları gözden geçirmek için iki öneri: Sistemin toplamları otomatik olarak toplamasını sağlayın ve bunları orijinal belgelerdekilerle karşılaştırın ve aykırı değerleri (çok büyük veya çok küçük ve bir hata olabilecek rakamlar) bulmak için verileri sıralayın.
- Veritabanı şu aşamalardan geçene kadar kullanıma hazır olmayacaktır: Bilgi kontrolü, veri denetimi, kişisel kaynak karşılaştırmaları ve yasal inceleme.
Tierra de Resistentes ekibinden Güney ve Orta Amerika’daki çevre savunucularına yönelik saldırıları detaylandıran bir harita. Resim: Ekran görüntüsü.
Yazılım
Bir gazeteci olarak, bir veritabanı projesinde çalışmak için sistem geliştiricisi olmanıza gerek yoktur. Bunun yerine, bu uzmanlığa sahip birini ekibinize dahil edin ve ortaklık çalışın. Aşağıdaki araç listesi size yardımcı olabilir:
- Muhabirlerin veritabanını doldurmasına yardımcı olacak bir web formu oluşturmaya yönelik uygulamalar: Google Formlar, Node.js, Django veya Flask.
- Veritabanı Depolama için: Mongo DB Atlas veya Google’s Firebase.
- Verilerin yapılandırılması ve işlenmesi için: Python (yukarıda belirtilen depolama seçeneklerine bağlanabilir), PostgreSQL, ELK Stack ve Filemaker.
- ve tabii ki, verileri her zaman veritabanı sisteminden indirebilir ve Excel veya Google E-Tablolar ile üzerinde çalışabilirsiniz. Bunlardan biriyle başlamak, daha küçük projeler için en iyi seçenek de olabilir.
Son Öneriler ve İpuçları
- Bu tür projelerde güvenlik en önemli sorundur. Bu nedenle şifreli iletişimler kullanın, verilerin yedek kopyalarını kullanın ve kişisel güvenliğinizi göz önünde bulundurun.
- Excel’i nasıl kullanacağınızı öğrenin. Aynı zamanda veri bilimcileri ve geliştiricilerle de iş birliği yapın.
- İşi kolaylaştırabilecek araçların farkında olun: Kazıma araçları, veritabanını doldurmak için çevrim içi formlar, PDF dönüştürücüler, OCR (optik karakter tanıma) ile tarama ve büyük metin işleme. OCCRP’de, bu görevlerin neredeyse tamamını yapan bir platform olan Aleph’i yarattılar; büyük hacimli çok formatlı belge kayıtlarına kolay erişim, arama, harf çevirisi ve göz atma konusunda yardımcı olur.
- Bu girişimler genellikle büyük ekipler gerektirdiğinden, kimin proje lideri olacağına karar verin ve araştırmacı işbirlikleri için önerileri dikkate alın.
- Güvenlik ve güvenlik protokollerinin izin verdiğini varsayarak, metodolojiyi ve kaynakları hedef kitleniz için şeffaf hale getirin. Güvenilirlik oluşturmak için veritabanını oluşturduğunuz orijinal belgelerin bir örneğini gösterin.
- Araştırmanın yanında iletişim bilgilerinizi yayınlayın, böylece okuyucular sorular sormak veya veritabanında bir hata için sizinle iletişime geçebilirler.
Ek Kaynaklar
- Gazeteciler Evsizlik Konusunda Konuşmayı Değiştirmek İçin Eksik Verileri Nasıl Takip Etti?
- Nasıl Bir Veri Gazeteciliği Ekibi Oluşturursun?
- Savaş ve Çatışmayı Araştırmak İçin Veri Gazeteciliği Nasıl Kullanılır?
Yazar Hakkında
Miriam Forero Ariza, çalışmaları Vice, Colombiacheck ve El Espectador tarafından yayınlanan Kolombiyalı serbest çalışan bir araştırmacı ve veri gazetecisidir. Ortak araştırma, veri analizi ve görselleştirme konularında on yıldan fazla deneyime sahiptir. Iberoamerican Veri Gazeteciliği El Kitabı’nın ortak yazarıdır.
Çeviren: Abdullah Keleş Düzenleyen: Pınar Dağ |