Açık VeriAraçKaynakVeri Gazeteciliği

Web’den Veri/İçerik Kazıma:Gazeteciler İçin Rehber

Çeviri: Bau İletişim Öğrencisi/ Dağ Medya Veri Gazeteciliği Stajyeri Faruk Aydıner
Yazı: http://gijn.org/2015/08/11/web-scraping-a-journalists-guide/ ‘den çevrilmiştir.


 

Bu yıl sadece birkaç saat önce Twitter’ın sekiz 8 milyar dolar kaybettiğini hatırlıyor musunuz? Bu veri habercileri gibi şirketlerin de kullandığı bir online araç web scraper yüzündendi.

Basitçe web scraper, web sitelerinden HTML kodlarını okuyan ve analiz eden bir bilgisayar programıdır. Böyle bir program veya ‘‘bot’’ ile websitelerinden bilgi ve veriyi çıkartmak mümkündür.

Haydi zamanda geriye gidelim. Geçen Nisan, Twitter üç aylık finansal sonuçlarını borsalar kapanırken açıklayacaktı çünkü sonuçlar biraz hayal kırıcıydı. Twitter borsacıların güvenini ölümcül bir şekilde kaybetmekten kaçınmak istiyordu. Talihsizce, bir hata yüzünden, sonuçlar 45 saniye boyunca borsalar hala açıkken çevrimiçi olarak açıklandı.

Sadece 45 saniye bir ‘‘bot’’ programının web scrape kullanarak sonuçları bulmasını, formatlamasını ve otomatikmen Twitter’ın kendisinde yayınlamasına izin verdi. (Bugünlerde, botlar bile zamandan zamana haberi ilk kez geçebilirler!)

Bir kere tweet yayınlandığında, borsacılar çılgına döndü. Bu Twitter için bir felaketti. Botun sahibi olan şirket, anlık gerçek analizler de uzmanlaşan Selerity birçok eleştirinin hedefi oldu. Şirket durumu birkaç dakika sonra açıkladı.


Bir bot için 45 saniye bir ebedi hayat gibidir. Şirkete göre, finansal sonuçları yayınlamak robot için sadece üç saniye aldı.

Web’de kazıyarak temizleme ve gazetecilik

Daha fazla kamu kuruluşu webte veri yayınladıkça, web scraping çevrimiçi gereci kodlama bilen gazeteciler için daha önemli hale geliyor. Örnek olarak, Metro gazetesinin bir haberi için, ben web scraping kullandım. Böylece Societe des alcohols du Quebec’den oniki bin ürün fiyatı ile LCBO’dan on bin ürünün fiyatlarını Ontario’da karşılaştırdım. Bir diğerinde, ben Sudbury’de iken restoranlardaki  gıda denetimini araştırmaya karar verdim. Böyle bir araştırmanın bütün sonuçları Sudbury Health Unit’in websitesinde yayınlandı. Bununla birlikte, restorantları bir bir doğrulayarak bütün sonuçları indirme imkanı da var.

Sante-publique-1024x621

Bunu, sonuçların saklandığı kaynaktan bütün bir veri tabanı için istedim. İlk reddin ardından, bilgi edinme hakkından yararlandım, -sağlık ünitesi isteğimin işleme alınması için iki bin dolar ücreti istedikten sonra. Ödeme yerine, ben kendi botumu kodlamaya karar verdim bütün sonuçları direk olarak wesitesinden almak için. İşte sonuçlar:

Python kodlama ile benim programım the Selenium library ile Google Chrome’un kontrolünü ele alıyor. Bot Health Unit tarafından denetlenen 1600 hizmet kurumunun sonuçlarını tek tek tıklıyor, veriyi çıkartıyor ve bilgiyi bir Excel dosyasına yolluyor. Bunların hepsini tek başına yapmak birisi için haftalar alabilir. Benim botum için sadece bir gecelik işti.

inspections-restaurants-1024x517

Fakat benim botum yorulmadan binlerce satırlık kodu aktarırken, bir düşünce beni rahatsız etti: Web kazımanın etik kuralları nelerdir?

Webte bulduğumuz herhangi bir bilgiyi aktarmaya hakkımız var mı? Veri kazıma ve Hackleme arasındaki sınır nerededir? Nasıl sürecin şeffaf olduğundan emin olabilirsiniz? Hem hikayeyi okuyan halk, hemde hedef kurumlar için? Gazeteciler olarak, biz en yüksek etik standartlarıyla hareket etmeliyiz. Öteki durumlarda okuyucu onlara sunduğumuz olaylara nasıl inansın?

Ne yazık ki, kodlama yönetimi Federation professionnelle des journalists du Quebec, 1996’da benimsemiş ve 2010’da düzeltmiş olduğu içerik eskimekte ve sorularımın hiçbirine açık bir cevap verememekteydi. Kanadalı Gazetecilerin Organizasonunun etik klavuzu daha güncel olmasına rağmen yine de durumu aydınlatamamaktaydı. De Quebec a Montreal Üniversitesi’nden gazetecilik profesörü Jean-Hugues diyorki: ‘Yeni alanlar vardır. Etiğin ne olduğunu yeniden düşünmeye zorlayan yeni gereçler vardır. Etik bunlarla birlikte gelişmeli.’

Böylece, cevapları kendi kendime bulmaya karar verdim, bu ülkede yaşayan birçok gazeteciyle iletişime geçerek. Bizi okumaya devam edin; bu araştırmanın sonuçları devam eden bir bölümde açıklanacak.

Note: Eğer siz kendi kendinize web scrape kulanmak isterseniz, ben bir kısa ders serisi geçen Şubat’ta yayınladım. Siz Kanada Meclisi Websitesi’nden nasıl veri çıkarırsınız onu öğreneceksiniz!

Nael Shiab University of King’s College dijital gazetecilik bölümünden mezun oldu. O Kanada Radyosu video sunucusu olarak çalıştı. Şimdi ise veri gazetecisi olarak Transcontinental’da çalışıyor.

One thought on “Web’den Veri/İçerik Kazıma:Gazeteciler İçin Rehber

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

*