Veriyi Kavramak için Veri Görselleştirmeyi Kullanmak
William S. Cleveland (Veriyi Görselleştirmek, Hobart Yayınları)
Görselleştirme, veri analizi için kritik öneme sahiptir. Verinin girift (çapraşık) yapısını başka türlü içselleştirilemeyeceğimiz bir şekilde ortaya koyabilmemizi sağlayan öncü cephemizdir. Görselleştirme sayesinde önceden tahmin edilebilir etkileri sorgulayabilir keşfederiz.
Veri, bir bilgisayarın sabit diskinde depolanmış bir dosyadaki bit ve baytlardan oluşur ve görünmezdir. Veriyi görebilmek ve anlamlandırabilmek için onu görselleştirmek ihtiyacı duyarız. Bu bölümde, _görselleştirmek_ terimine dair verinin safi metinsel gösterilişini de içeren geniş kapsamlı bir tanım kullanacağım. Örneğin, bir veri setinin bir hesap tablosu yazılımına yüklenmesi veri görselleştirme olarak kabul edilebilir. Görünmez veri ekranımızda birden görünür bir “resime” dönüşüverir. Öyleyse soru gazetecilerin veriyi görselleştirmeye ihtiyaçları olup olmadıkları değil, hangi tür görselleştirmenin hangi tür durumlarda en kullanışlı olacağıdır.
Bir başka deyişle: tablo görselleştirmenin ötesine geçmek ne zaman anlamlı olur? Kısa cevap: _çoğu zaman_ olacaktır. Tablolar yalnız başlarına bir veri seti hakkında bize kesinlikle yeterince bilgi verici değildir. Ayrıca tablolar yalnız başlarına verinin içindeki örüntüleri hemen fark edebilmemize imkan tanımazlar. Burada verebileceğimiz en yaygın örnek verinin ancak bir harita üzerinde görselleştirilmesi sonucunda anlamlanacağı coğrafi örüntülerdir. Fakat daha sonra bu bölümde göreceğimiz üzere bu örüntülerden daha başkaları da mevcuttur.
Yeni Anlayışlar Keşfetmek için Veri Görselleştirmeyi Kullanmak
Veri setlerinden veri görselleştirme araçları ve teknikleri vasıtası ile adeta bir yaylım ateşi gibi hazır haber öykülerinin çıkacağını beklemek gerçekçi olmaz. Bize bir haber öyküsünü garantileyebilecek hiçbir kural, hiçbir “protokol” yoktur. Bunun yerine, “yeni anlayışlar, kavramlar” arayışında olmak çok daha anlamlıdır ve bu arayış iyi bir gazetecinin elinde işlenerek haber öykülerine dönüştürülebilir.
Her yeni görselleştirmenin bizlere verilerimiz hakkında yeni ufuklar sunması olasıdır. Bu yeni ufuklardan bazıları halihazırda biliniyor (ancak henüz kanıtlanmamış) olabilir, bazıları ise tamamen yeni hatta bizler için tamamen sürpriz olabilir. Bazı yeni kavrayışlar yeni bir haber öyküsünün başlangıcını işaret ederken, diğerleri yalnızca verideki hataların sonucu olabilir. Bunların neredeyse tamamı veriyi görselleştirmekle farkedilebilir.
Verideki yeni anlayışları/ufukları keşfetmeyi etkili kılabilmek için bu bölümün geri kalan kısmında tartışılan süreci oldukça yararlı buluyorum.
Veriyi Kavrayış: Bir Görselleştirme (Gregor Aisch)
Veriyi nasıl görselleştireceğinizi öğrenin
Görselleştirme veri setine dair eşsiz bir perspektif sağlar. Veriyi çok çeşitli yollarla görselleştirebilirsiniz.
Görece olarak daha küçük boyutlardaki veri ile uğraşırken tabloları kullanmak çok faydalı olacaktır. Etiket ve miktarları olabilecek en düzenli ve organize şekilde gösterirler, veriyi filtreleme ve arama yapma olanakları ile verinin bütün potansiyel yönlerini ortaya koyarlar. Buna ek olarak Edward Tufte tablo sütunlarına küçük grafikler veya her satıra bir doğrusal grafik (bunlar kıvılcım-sparkline olarak adlandırılmıştır) ekleme önerisinde bulunmuştur ancak daha önceden de vurgulandığı üzere tabloların açık kısıtları vardır. Her ne kadar en iyi 10 gibi tek boyutlu aykırı verileri göstermekte çok iyi olsalar da, birçok boyutu (mesela zaman içerisindeki bir ülkedeki nüfus değişimi) aynı anda karşılaştırmak için yetersiz kalırlar.
.Tufte’den Pratik Öneriler: Kıvılcım Grafikleri (Gregor Aisch)
Tablolar, genellikle, verilerinizin harita ölçeklerini geometrik şekil ölçülerine çevirmeye yarar.Görsel özelliklerin etkililiği ile ilgili yazılı çok şey bulunuyor, bunun kısa versiyonu ise;renklerin zor, pozisyonun her şey olduğudur. Örneğin, bir düzlem içinde x ve y koordinatlarına göre konumlandırılmış iki boyut vardır. Bununla birlikte,görünen simgelerin renk ve boyutlarına bağlı üçüncü bir boyut gözlemleyebilirsiniz. Çizgi grafikler, zamansal değişim içeren olayları göstermek için uygunken,çubuk grafikler farklı kategorilerdeki verileri karşılaştırmak için mükemmeldir. Verilerinizi üst üste kümeleyebilirsiniz. Eğer az sayıda bir grubu karşılaştırmak isterseniz, aynı grafikte birden çok durumu göstermek güçlü bir yoldur. Bütün grafiklerde, verilerinizin farklı yönlerini keşfetmek için değişik türlerde ölçüler kullanabilirsiniz. (örn.,doğrusal ya da logaritmik ölçü)
Aslında üzerinde çalıştığımız çoğu veri insanlarla ilişkilidir. Haritanın gücü bizim fiziksel dünyamızla tekrar iletişim halinde olması. Suç olaylarının haritalandırıldığı bir veri seti düşünün. Suçun nerede yaşandığını görmek istersiniz. Ayrıca haritalar veri içindeki coğrafi ilişkileri de ortaya çıkarabilir.
Renktonlu Harita (Gregor Aisch)
İlişkiler hakkında konuşurken en önemli görselleştirme yöntemlerinden dördüncüsü bir grafiktir. Grafikler tamamı ile veri noktalarınız (düğüm noktaları) ve aralarındaki bağlantılar (uçlar) hakkındadır. Düğüm noktalarınızın konumu ağın iç yapısını hızlı bir şekilde görmemize olanak sağlayan az ya da çok karmaşık grafik düzenleme algoritmaları tarafından hesaplanır. Grafik görselleştirmenin asıl numarası genelde ağın kendisini modelleyebilecek doğru metodu bulmakta gizlidir. Her veri seti ilişkileri halihazırda içermiyor olabilir; içerseler bile, bakılacak en ilginç şey bu olmayabilir. Bazı durumlarda düğüm noktalarının arasındaki uçları tanımlamak gazeteciye kalmış bir durumdur. Buna dair harika bir örneğe şuradan bakabilirsiniz (modelin uçları bütün oylamaların %65’inden daha fazlasında aynı oyu kullanmış senatörleri birleştiriyor): http://slate.me/senate-social[U.S. Senate Social Graph]
Gördüğünüzü analiz edin ve yorumlayın
Bir defa verinizi görselleştirdiğinizde sıradaki basamak yarattığınız bu resimden bir şeyler öğrenmektir. Kendinize sorabilirsiniz:
* Ben bu resimde ne görebilirim? Bunu görmeyi mi bekliyordum?
* İlginç kalıplar var mı?
* Veri bağlamında bu ne anlama geliyor?
Bazen bütün güzelliğine rağmen veriniz hakkında size ilginç hiçbir şey söylemeyen bir görselleştirme ile başbaşa kalabilirsiniz. Fakat neredeyse her durumda her görselleştirmeden öğrenilebilecek (ne kadar küçük olursa olsun ilginç bir şeyler vardır.
Basamakları ve çıkarımlarınızı dokümante edin
Eğer bu süreci veri seti üzerinden bir yolculuk olarak düşünürseniz, dokümantasyon sizin seyahat günlüğünüzdür. Size nerelere seyahat ettiğinizi, oralarda neler gördüğünüzü ve sonraki seçimlerinizi nasıl oluşturduğunuzu söyleyecektir. Verinize ilk kez bakmadan önce bir dokümante etmeye başlayabilirsiniz.
Daha önce görülmemiş bir veri setiyle çalışmaya başladığımız çoğu durumda çok önceden veri ile ilgili önkabuller ve beklentiler ile dolmuş oluruz. Genellikle çalıştığımız veri seti ile neden ilgilendiğimiz hakkında bir sebebimiz vardır. Dokümantasyona bu ilk düşünceleri not ederek başlamak iyi bir fikir olabilir. Bu bize önyargılarımızı tanımlamamızda yardımcı olur, ve ine bulmak istiyorsak onu bularak veriyi yanlış yorumlama riskimizi azaltır.
Gerçekten dokümantasyonun bu süreçteki en önemli basamak olduğunu düşünüyorum. Ayrıca bu basamağın atlamaya en yatkın olduğumuz basamak olduğunu da. Aşağıdaki örnekte de görebileceğiniz üzere tarif edilen süreç birçok çizim ve veriyle mücadeleyi içeriyor. Yarattığınız 15 grafikten oluşan bir sete bakmak oldukça kafa karıştırıcı olabilir, özellikle de bunun üzerinde belli bir zaman geçtikten sonra. Aslında bu grafikler (size veya bulgularınızı anlatmak istediğiniz kişiye) ancak yaratıldıkları bağlamla beraber sunulduklarında gerçekten bir anlam taşırlar. Bu yüzden şu gibi şeyler üzerine notlar almak için ilgili zamanı ayırmanız gerekir:
* Bu grafiği niye oluşturdum?
* Bunu oluşturmak için veriye ne yaptım?
* Bu grafik bana ne söylüyor?
Veriyi dönüştürün
Doğal olarak, son görselleştirme üzerinden yaptığınız çıkarımlarla beraber sırada ne göreceğinize dair bir fikriniz oluşabilir. Veri seti içerisinde şimdi daha detaylı incelemek isteyebileceğiniz bazı ilginç kalıplar olabilir.
Olası dönüşümler şunlardır:
Yakınlaştırmak: Görselleştirme içerisindeki belirli bir detaya ayrıca bakmak
Bir araya getirme: Birçok veri noktasını tek bir grupta birleştirme
Filtreleme: Ana odağımızda olmayan veri noktalarını (geçici olarak) yok saymak, ortadan kaldırmak
Aykırılıkları yok etmek: Veri setinin %99’u temsil etmeyen tekil noktalardan kurtulmak
Diyelim ki, bir grafik oluşturdunuz; sonucunda anlam ifade etmeyen birbirine yüzlerce hücreyle bağlanmış bir düğüm yığını ortaya çıktı.(görselleştirmede “yoğun bağlı ağlar” olarak adlandırılan çok yaygın bir sonuç). Bunun için yapılabilecek en genel düzeltme adımı bazı hücreleri filtrelemek olabilir. Örneğin, eğer hücreler, bir ülkeden ülkeden diğer ülkeye para akışını temsil ediyorsa, belirli bir miktarın altındaki para akışını temsil eden bütün göstergeleri silebiliriz.
Hangi Araçlar Kullanılabilir?
Araçların kullanım kolaylığı önemli bir nokta. Her veri görselleştirme aracının iyi olduğu bir konu vardır. Görselleştirme ve veri işleme, ucuz ve kullanımı kolay olmalıdır. Eğer görselleştirmenizin etkenlerini değiştirmek saatlerinizi alıyorsa, bu deneyimi daha fazla yaşamak istemezsiniz. Bu, aracı kullanmayı öğrenmenize gerek olmadığı anlamına gelmiyor. Fakat öğrendikten sonra, aracın gerçekten etkili olması gerekli.
Bir aracın veri çekme ve veri görselleştirme işlerinin ikisini de yapabilmesi çok şey ifade ediyor. Bunları yapmak için iki farklı araç kullanmanız, verilerinizi sık sık dışa ve içe aktarmanız anlamına gelir. Burada hem veri çekme hem de görselleştirme yapan araçların kısa bir listesini bulabilirsiniz.
* LibreOffice, Excel veya Google Docs gibi hesap tablosu programları
* R (r-project.org) veya Pandas (pandas.pydata.org) gibi istatistiksel programlama çerçeveleri
* Quantum GIS, ArcGIS, veya GRASS gibi Coğrafi Bilgi Sistemleri (GIS)
* d3.js (mbostock.github.com/d3), Prefuse (prefuse.org), veya Flare (flare.prefuse.org) gibi Görselleştirme Kütüphaneleri
* Open Refine veya Datawrangler gibi veri düzenleme araçları
* ManyEyes veya Tableau Public (tableausoftware.com/products/public) gibi programlama bilgisine ihtiyaç duymadan kullanılabilecek görselleştirme araçları
Sıradaki bölümde yer alan örnek görselleştirme (bilimsel) veri görselleştirme adeta İsviçre Ordu Çakısı sayılabilecek R kullanılarak yaratılmıştır.
Bir Örnek: Birleşik Devletler Seçim Katkıları Verisini Anlamlandırmak
ABD Başkanlık Kampanyası’nın finansal veri tabanına baktığımızda ABD başkan adaylarına yaklaşık 450,000 adet yardım yapıldığını görürüz. CSV dosyası 60 megabayttır ve bu dosya Excel’de işlemek için çok büyüktür.
İlk aşamada FEC veri setine yönelik katkılara dair ilk varsayımlarımı yazacağım:
*En fazla katkı Obama alıyor. ( Başkan olduğundan ve büyük bir popülerlik kazandığından beridir)
*Yardımlar seçim gününe yaklaştıkça artıyor.
*Obama Cumhuriyetçi seçmenlerden daha çok küçük destekler alıyor.
İlk soruyu cevaplayabilmek için veriyi dönüştürmemiz gereklidir. Her katkı payı yerine, her adaya sağlanan toplam desteğin ortalamasını ele almamız gerekir. Sonuçları sıralı bir tablo ile görselleştirdikten sonra , Obama’nın en çok para getirdiği varsayımını kabul edebiliriz.
|Aday | Miktar ($)
|Obama, Barack | 72,453,620.39
|Romney, Mitt | 50,372,334.87
|Perry, Rick | 18,529,490.47
|Paul, Ron | 11,844,361.96
|Cain, Herman | 7,010,445.99
|Gingrich, Newt | 6,311,193.03
|Pawlenty, Timothy | 4,202,769.03
|Huntsman, Jon | 2,955,726.98
|Bachmann, Michelle | 2,607,916.06
|Santorum, Rick | 1,413,552.45
|Johnson, Gary Earl | 413,276.89
|Roemer, Charles E. ‘Buddy’ III | 291,218.80
|McCotter, Thaddeus G | 37,030.00
Bu tablo minimum ve maksimum miktarı gösteriyor olsa bile, aday sıralamasının altında yatan unsurlar hakkında fazla bir şey söylemiyor. Veri hakkında diğer bir görüş, “nokta grafik” adı verilen, tablodaki her şeyin ve unsurların tek bir alan içinde gösterildiği bir grafik türü. Örneğin, nokta grafik Obama ve Rommey, ya da Romney ve Perry arasındaki uzaklığı, başka bir veriyi çıkarmadan anında karşılaştırmamıza olanak tanır. (Not: nokta grafik R. kullanarak yaratıldı. Bu bölümün sonunda kaynak kodları ile ilgili bağlantıları bulabilirsiniz.)
Altta yatan kalıpları belirlemek için görselleştirmeler (Gregor Aisch)
Şimdi veri setlerine büyük resimden bakalım. İlk adımda yapılan bütün bağış miktarlarını zamanlarına göre basit bir plan biçiminde görselleştirdim. Buradan, neredeyse tüm bağışçıların, 3 büyük bağışçı dışında çok küçük olduğunu görebiliriz. Daha dikkatli bakıldığında, bu dev bağışların 2012 yılında 29 Haziran (450 bin dolar), 29 Eylül(1.5 milyon dolar) ve 30 Aralık(1.9 milyon dolar) tarihlerinde yapılan “Obama Zafer Fonu” (ayrıca Süper Paket olarak da bilinir)’ndan geldiği görülüyor.
Üç açık aykırılık (Gregor Aisch)
Şüphesiz ki Süper Paket’ten gelen bağışlar, tek başına veri setindeki en önemli hikaye, bunun arkasındaki unsurlara bakmak da ayrıca ilginç olabilir. Şimdiki noktada, bu büyük bağışlar, bireysel olarak yapılan bağışları görmemizi engelliyor. Bu yüzden bu verileri, veri setinden temizleyeceğiz. Bu değişiklik genellikle “aykırı kaldırma” olarak bilinir. Yeniden görselleştirdikten sonra, çoğunluk bağış miktarını aralığının “10 bin dolar ve 5 bin dolar ” aralığında olduğunu görebiliriz.
Aykırılıkları yok etmek (Gregor Aisch)
Federal Seçim Kampanyaları Komisyonu(FECA)’na göre, bireyler her bir aday için 2500 dolardan fazla bağış yapamaz. Gördüğümüz üzere bu limiti aşan birçok bağış var. Özellikle, Mayıs ayındaki iki büyük bağış dikkatimizi çekiyor. Öyle görünüyor ki, bunlar Haziran ve temmuz aylarındaki negatif bağış miktarını(para iadelerini) ‘aynalıyor’. Veri setini daha iyi araştırdığımızda sıradaki işlemler ortaya çıkıyor:
*Stephen James Davis, 10 Mayıs’ta Obama’ya 25,800$ bağışladı, Banneker Partners (avukat), San Francisco.
*Cynthia Murphy, 25 Mayıs’ta Obama’ya 33,300$ bağışladı. Little Rock, Murphy Group (Halkla İlişikiler)
*15 Haziran’da ise 30,800$ üzerinden Cynthia Murphy bağıştan 2500$ azalmış olarak iade edildi.
*8 Temmuz’da 25,800$ üzerinden Stephen James Davis’e bağıştan 0$ azalmış olarak iade edildi.
Bu rakamlar hakkında ilginç olan ne? Cynthia Murphy’e, bireylerin her yıl Ulusal Parti Komiteleri’ne verebileceği maksimum miktara eşit olan 30,800$’lık geri ödeme yapıldı. Belki de Murphy, bütün bağışları daha önce reddedilen tek bir banka işleminde bir araya getirmek istiyordu sadece. Stephen James Davis’e 30,800$ eksi 5000$’a eşit olan 25,800$’lık bir geri ödeme yapılmıştı. (Katkı herhangi bir siyasi komite ile sınırlandırıldı)
Son grafikten çıkan diğer ilginç sonuç, Cumhuriyetçi adaylara katkı olarak $5000 ve -$2500 da yatay bir çizgi düzlemidir. Daha detaylı incelemek için, yalnızca Cumhuriyetçi bağışları görselleştirdim. Çıkan grafik, verideki veri görselleştirmedikçe gözle görülmeyen düzlemler için harika bir örnektir.
Aykırılıkları yok etmek 2 (Gregor Aisch)
Görülen Cumhuriyetçi adaylara çok sayıda $5000 bağışın olduğudur. Gerçekte, veride yapılan bir sorgulama, 1243 adet -toplam bağış sayısının yalnızca 0.3% ‘ü- bağış yapıldığını çıkarır, fakat bağışlar zamana eşit şekilde yayıldıklarından, çizgi ortaya çıkmaktadır. Çizgiyle ilgili ilginç olan bireysel bağışlar $2500 ile sınırlıydı. Sonuç olarak bu limit bağışçılara geri ödendi, ki bu da ikinci -$2500 çizgi düzlemini ortaya çıkardı. Bunun aksine, Barack Obama, benzer bir düzlem göstermemektedir.
Aykırılıkları yok etmek 3 (Gregor Aisch)
Bu sebeple, binlerce Cumhuriyetçi bağışçının, bireysel bağış limitini nasıl farketmediği gerçeği ilginç gelebilir. Bu konuyu daha detaylı analiz etmek için her bir adaya yapılan $5k’lık bağışların toplam sayısına göz atabiliriz.
Aday başına düşen bağışlar (Gregore Aisch)
Şüphesiz bu oldukça orantısız bir bakış açısıdır, çünkü her bir adayın aldığı toplam bağış miktarını dikkate almamaktadır.
Senatörün parası nereden geliyor?: aday başına düşen bağışlar (Gregor Aisch)
Bundan Ne Öğrenmeli?
Sıklıkla, bir veriyi analiz ederek görselleştirmek yeni bilinmeyen bir bölgeye yolculuk etme hissi gibi. Sadece veri ve varsayımlarınız ile başlarsınız ama attığınız her adımla, yaptığınız her grafikle konunuzla ilgili yeni şeyler bulursunuz. Bu bulduğunuz şeyler üzerinden, yeni adımlar atmak için kararlar alırsınız ve bu hangi konunun araştırmaya değer olduğuna yöneliktir. Bu bölümde de görebileceğiniz gibi, veriyi görselleştirme, analiz etme ve dönüştürme hemen hemen sonsuz bir tekrar içinde.
Kaynak Kodunu Edinin
Burada kullanılan tüm grafikler R yazılımı ile oluşturulmuştur. Bilimsel görselleştirme araçları kullanıldı ancak R yazılımı ile görselleştirme tekniği ya da veri düzenleme tekniği kolay bulunmuyor. R kullanarak nasıl veri düzenlendiği ve görselleştirme yapıldığına ilgi duyanlar için bu bölümde grafiklerin kodları veriliyor:
* https://gist.github.com/1769733[dotchart: aday başına katkılar]
* https://gist.github.com/1816161[plot: zaman içindeki tüm katkılar]
* https://gist.github.com/1816169[plot: yetkili komitelerin katkıları]
Bunların yanı sıra çeşitli kitaplar ve takip edilebilecek öğretici rehberler mevcuttur.
Gregor Aisch, Açık Bilgi Vakfı
Çeviri: Cem Gündoğan