Veri Gazetecileri için Temel Veri Kavramları: Veri Nedir, Türleri Nelerdir?
Veri nedir, türleri nelerdir, veri seti örnekleri, temel kavramlar ile nitel, nicel, kategorik, ayrık ve sürekli veri ne anlama geliyor?
Veri Toplama
Veri seti
Görselleştirme
Veri, bilginin yapılandırılıp kayıt altına alınıp, kolay analiz edilebilmesi için bir araya getirilmesine denir. Bir veya birden fazla bilgiden oluşan kümedir. Veri genellikle araştırma, gözlem, deney, sayım, ölçüm yoluyla elde edilir. Yaş, isim, telefon numarası, bir toplama işleminin sonucu ya da sınıfın yaş ortalaması birer veridir.
Ham veri etkin şekilde bilgi üretme ve analiz için önemli bir hammade olarak görülebilir. Örneğin, anketler aracılığı ile oluşturulan veriler (seçim verileri), bir oylama yapıldığında (seçim sonuçları verileri ), bir kayıt yapıldığında (doğum kayıtları verisi), bir şey satın alındığında (çevrim içi satış kayıtları vb.). gibi. Veri ayrıca cep telefonları, İnternet, uydu (GPS verisi gibi) ve birçok farklı teknolojiler tarafından da oluşturulabiliyor.
Gündelik hayatımızda veriyi sıklıkla tablolarda düzenlenmiş buluruz.Tek bir tablonun içeriği veri seti olarak ifade edilir. Veri setini analiz ederek ondan yeni bilgi -görsel çalışmalar üretmek; karar alma, politika üretme süreci için önemlidir.
Veri seti örneği: Sektörlere göre firmalarda meydana gelen iş kazaları verileri / http://madencilik.dagmedya.net/rakamsal_veriler.php
Golf topları (CC), Kaptain Kobold, Flickr.
Fotoğraftaki örneği ele alabiliriz. Ne görüyorsunuz? Golf topları. Fotoğrafa yönelik ilk veri, topların golf için kullanıldıkları. Golf; bir spor kategorisi. Bu detay topu bir sınıflandırmaya koymamızda yardımcı oluyor. Fakat bundan daha fazlası var fotoğrafta.Topların “beyaz” renkte olduğu, “kullanılmış” olduğunu da söyleyebiliriz. Topların hepsinin bir ölçüsü de var, belirli bir sayıdalar ve fiyatları da var. Önemsiz objelerde bile onlarla ilişkili çok sayıda veri bulunur. Yukarıdaki örnekte, farklı veri türleri olduğunu görebiliriz. Nitel ve nicel başlıcaları.
- Nitel veri (Qualitative data) Birimlere dayalı ölçümlerle değil sayımlarla değerleri belirtilebilen, belli bir yapısal veya kurumsal özelliği taşımakla (veya taşımamakla) simgelenen veriler. Cinsiyet, saç rengi vb. nitel özellikleri belirten veriler. Bir deneğin niteliklerini belirten verilerdir. Eğitim durumu, ev sahibi olup olmama, vs… Nitel veriler iki gruba ayrılır.
>Sınıflanabilen Nitel Veri: Birbirinden bağımsız isim bildiren, kod ve numara ile gösterilebilen, sınıflara ayrılan verilerdir. Taşıtlar: kara, hava ve deniz taşıtları:
>Sıralanabilen Nitel Veri: Belirli bir miktar belirtmeyen, bir sıra ya da dereceye göre elde edilen verilerdir. Öğrencilerin başarı durumu: pekiyi, iyi, orta… Ordu rütbeleri: albay, yarbay, subay, astsubay , …
- Nicel veri (Quantitative data) birimlerin ölçüm ve tartım sonucu değerleri saptanan sayısal özelliklerini belirten, aralıklı ölçekli veya orantılı ölçekli değişkenler. Bir deneyin sayılabilir, ölçülebilir özelliğini veren verilerdir. Sürekli nicel veri ve kesikli nicel veri olmak üzere iki türü vardır..Örneğin golf toplarının sayısı, ölçüsü, fiyatı, bir testteki skor vs.
>Sürekli nicel veri: Ondalıklı değerler alabilen nicel verilerdir. Boy uzunluğu, kilo,vs..>Kesikli nicel veri: Sayılarak elde edilen ve tam sayılı değerlerdir. Nüfus, öğrenci sayısı, hane halkı sayısı.
- Kategorik veri (Categorical data ) tanımladığınız veriyi bir kategoriye koyar: Bizim örneğimizde “kullanılmış olma” durumu kategoriktir. (“yeni”, “kullanılmış”, “kırık” vb kategorilerdir)
Veriden Bilgiye, Bilmeye.
Veriler toplanıp biçimlendirildiğinde daha fazla işimize yarar.
Aşağıda görelim:
Renk
Kategori Durum Çap Fiyat |
Beyaz
Spor-Golf Kullanımış 43 mm 8 TL |
Yukarıdaki tabloya rağmen her bir veri hala tek başına çok anlamlı değil. Veriden bilgi elde etmek için veriyi yorumlamamız gerekiyor. Golf topunun ölçüsünü ele alalım: 43 mm çap bize çok şey anlatmıyor. Sadece diğer şeylerle karşılaştırdığımızda anlamlı hale geliyor. Örneğin; sporda ekipmanlar için ölçü yönetmelikleri vardır. Minimum golf müsabakası topunun ölçüsü 42,67mm’dir. Yani topu bir müsabakada kullanabiliriz. Bu bir bilgi. Fakat hala bilme değil. Bilme, bilgi öğrenildiğinde, uygulandığında ya da anlaşıldığında yaratılır.
Yapılandırılmamış Veriye karşı Yapılandırılmış Veri
İnsanlar için veri
“Her biri 8 tl’den 43mm çapta, kullanılmış 5 beyaz golf topumuz var” bir insan için anlaması kolay bir cümle fakat aynı şeyi bilgisayarlar için söyleyemeyiz. Yukarıdaki cümle yapılandırılmamış veriye örnek. Yapılandırılmamış verinin sabit temelli bir yapısı bulunmuyor – cümle kolaylıkla değiştirilebilir ve hangi kelimenin tam olarak neye gönderme yaptığı açık değildir. Aynı şekilde, pdf’ler, taranmış fotoğraflar insan gözüne kolay , anlaşılır ve güzel hoş gelen bilgiler içerebilir ama makine okunabilir değillerdir. Yani bilgisayar dostu değillerdir.
Vikipedi ekran görüntüsüdür.
Bilgisayarlar için veri
Bilgisayarların insanlardan farklı tarafları var. Belirli kaynaklardan bilgi çıkarmalarını sağlamak son derece güçtür. İnsanlar için kolay olan bazı şeyler, bilgisayarlar için hala zor olabiliyor. Bilgisayarın veriyi işleyip, analiz etmesi için onu okuyabilmesi gerekiyor. Bu da verinin biçimlendirilmiş ve makine tarafından okunabilir formatta olması gerektiği anlamına gelir. Örneğin bunun için en sık kullanılan format tiplerinden biri CSV’dir. CSV virgülle ayrılmış değerler demektir. Ancak çok sayıda yapılandırılmış ve makine tarafından okunabilir format vardır.
CSV aşağıdaki gibidir:
“adet”, “renk”, “durum”, “ürün”, “kategori”, “çap (mm)”, “birim fiyat (AUD)”, “beyaz”, “kullanılmış”, “top”, “golf”, 43, 0.5
Açıklama: wikipedia‘daki yapılandırılmamış bilgileri/veriyi web’de kullanılır hale getiren bir grup. Bir çok veriyi semantik olarak işlenebilir hale getirip yapılandırıyor.
İlgili Okumalar
Verinin olmadığı bir günde neler oluyor?
Yaygın Dosya Formatlarına Bir Bakış
Detaylı Veri Kavramları