Web Denetçisi ile Gizli Verileri Kazımak!
Küresel Araştırmacı Gazetecilik Ağı(GIJN)
Çoğu muhabir, araştırmalarıyla ilgili herhangi bir web sayfasındaki sağ tıklama menüsündeki “kopyala” ve farklı kaydet” işlevlerinin altındaki “öğeyi incele” seçeneğini asla fark etmez.
Ancak bu az kullanılan web inceleme aracının, bir sitenin kaynak kodundan çok sayıda gizli bilgiyi çıkarabileceği, grafiklerin arkasındaki ham verileri ortaya çıkarabileceği ve sözde kaydedilemeyecek görüntüleri ve videoları indirebileceği ortaya çıktı.
Bu aracın ve HTML temellerinin basit bir şekilde anlaşılması, muhabirlerin herhangi bir bilgisayar biliminde arka plana ihtiyaç duymadan herhangi bir web sayfasından veri çekmesine de yardımcı olabilir.
Araştırmacı Gazeteciler ve Editörler’in yıllık konferansı olan IRE21’de gazeteci ve eğitimci Samantha Sunne, kodlama deneyimi çok az olan veya hiç olmayan gazeteciler için iki basit araç kullanarak herhangi bir web sayfasından veri alma ve analiz etme konusunda ipuçları paylaştı: Web Denetçisi ve Google E-Tablolar.
Herhangi bir web sayfasından veri çıkarmak ve analiz etmek için bu araçları kullanmanın beş yolu:
1. Bağlantıları, fotoğrafları ve gömülü içeriği çıkarmak için bir web sitesinin kaynak kodunu “inceleyin”.
Her tarayıcı, Geliştirici Araçları veya Geliştirme sekmesinde Web Denetçisinin bir sürümünü sunar.
Sunne, “Tarayıcılar, web sayfasını oluşturan kod olan ‘kaynak kodunu’ okuyor ve bunu kullanıcıya gösteriyor,” diye açıklıyor.
Sunne’nin eğitim içeriklerini inceleyebilirsiniz ve farklı tarayıcılarda görünür yollarını ayrıntılarıyla anlayabilirsiniz. Örneğin Safari’de, incelemek istediğiniz sayfa alanına sağ tıklayıp “Öğeyi İncele”yi seçebilirsiniz.
Bununla, web sayfasında gömülü olan herhangi bir köprüyü ve diğer materyallerin kaynağını bulabileceksiniz. Ayrıca, bir sayfadaki bir resmin veya öğenin işlevini veya içeriğini açıklamak için kullanılan alternatif metni ve gösterilen kişilerin adlarını, çekildiği konumu ve daha fazlasını içerebilecek resim açıklamalarını da okuyabilirsiniz.
Gömülü fotoğrafları (<img src=”url”>), bağlantıları (<a href=”url”>) ve diğer öğeleri tanımlayan kodu bulmak için bir HTML başvuru kılavuzuna başvurabilirsiniz .
2. Herhangi bir web sitesinden (hatta Instagram’dan) görüntüleri ve videoları kaydedin.
Sunne’e göre, “Alınması zor dosyalara ulaşmak, Web Denetçisini kullanmanın harika bir yoludur”.
Önemli avantajlardan biri, Instagram gibi web sitelerinden bile orijinal dosyaları almayı sağlamasıdır. Bu, aksi takdirde barındırdıkları fotoğrafları veya videoları kaydetmenizi engeller.
Sadece üç kolay adım var bununla ilgili:
- İndirmek istediğiniz fotoğrafa veya videoya sağ tıklayın ve “İncele”yi seçin. Videonun kaynak kodunu parantez içine alacak “<video>” etiketlerini arayan bir sayfa araması yapın (kontrol veya komut + F).
- Web Denetçisi, kaynak kodunda “<video>” ifadesinin göründüğü tüm örnekleri otomatik olarak belirleyecektir. Ardından, “src=” ile başlayan kaynak bağlantıyı bulmak için vurgulanan bağlantıların üzerine gelin. Veya tüm resimleri/etiketleri gözden geçirin:
- Son olarak, fotoğrafı veya videoyu ayrı bir tarayıcı sekmesinde açmak için kaynak bağlantıya tıklayın ve basit bir sağ tıklama ile indirin.
Video oynatıcı
3. Verileri otomatik olarak güncellenen bir elektronik tabloda toplayın.
Araştırmanız için çok önemli olan harika bir veri setine sahip oldunuz, ancak bu bir web sayfasında bulunuyor ve verileri bir elektronik tablo olarak indiremezsiniz. Peki şimdi ne yapıyorsun?
Sunne, “Web sayfasından kopyalayıp yapıştırmak işe yarıyor” dedi. “Ancak bilgiler güncel kalmayacak veya bana bağlantıların yönlendirdiği web siteleri gibi ek bilgiler göstermeyecek.”
Burada yine Web Denetçisi kullanışlı oluyor. Bununla, web sayfasında depolanan verilerin türünü tanımlayabilir, bunları bir Google E-Tablosuna aktarabilir, ardından farklı şekillerde analiz edebilir veya görselleştirebilirsiniz.
Aşağıdaki örnekte, Avrupa Hastalık Önleme ve Kontrol Merkezi’nden COVID-19 oranlarınıçekmek için Web Denetçisini kullandık .
Tabloyu bu web sitesinden almak için şu adımları izledik:
- Kopyalamak istediğiniz tabloya veya diğer veri setine sağ tıklayın ve ne tür HTML öğesi olduğunu öğrenmek için İncele’yi seçin – yaygın öğeler “tablo”, madde işaretli listeler (“ul”) ve bağlantılar (“a”) .
- Web Denetçisi, web sayfasındaki öğeleri vurgulayacak ve ilgili kaynak kodunu gösterecektir. Bu tablo gibi HTML öğelerini bu şekilde tanımlayabilirsiniz.
Video oynatıcı
- Yeni bir Google E-Tablosunda aşağıdaki formülü, çıkarılmasını istediğiniz öğeyle doldurun – bu durumda, “tablo”. Kazıdığınız sayfada sadece bir tablo varsa, ID 0 olacaktır; iki tane varsa, ikinci tablonun kimliği 1 olacaktır ve bu böyle devam eder.
=İçe AktarHTML(“url”,“tablo”,”Kimlik”)
- =ImportHTML formülünü girdiğinizde, Google E-Tablolar size formülün nasıl çalıştığına ve alabileceği veri türlerine ilişkin bir örnek ve açıklama sağlar.
=ImportHTML(“ https://www.ecdc.europa.eu/en/geographical-distribution-2019-ncov-cases”,“tablo”,0 )
- Google E-Tablolar, e-tabloyu web sayfasından alınan verilerle otomatik olarak doldurur. Ardından verileri ihtiyaçlarınıza göre düzenleyebilir, filtreleyebilir ve görselleştirebilirsiniz.
Sunne, “Formül, ‘tablo’ HTML öğesini çekmek için kaynak kodu kullanıyor”. Programlamasız Kazıma eğitiminde daha fazla ayrıntıya giriyor .
4. Yalnızca belirli bir veri türünü ayıklayın
Bir tablonun veya sayfanın tüm verilerini indirmek araştırmanızda faydalı olabilir ancak bir sayfadaki tüm resimleri veya bir rapordaki kaynakların tüm bağlantılarını arıyorsanız ne olur?
Google E-Tablolar, =ImportXML(“url”,”xpath_query”) formülünü kullanarak bu tür kazımayı da gerçekleştirmenize olanak tanır .
Sunne, “Bir XPATH, temelde bir sayfadaki bir miktar verinin adresi gibidir” diyor. Biçimlendirilmemiş olsa bile verileri web sayfasındaki düzgün bir tabloya almanıza olanak tanır.
Panelde Sunne, belirli bir ülke adını içeren tüm başlıkların silinmesi gibi yararlı XPATH örneklerine yer verdi.
Araştırma konunuzla ilgili ilginç içerikleri takip etmek istiyorsanız, bu formülü kullanarak herhangi bir haber sitesindeki URL’leri ve başlıkları da çıkarabilirsiniz:
=IMPORTXML(“url”,”//SINIF[içerir(”ülke”)]”)
=IMPORTXML(“ https://www.nytimes.com/section/world”,”//h2 “), sayfadaki tüm “h2” öğelerini Google E-Tablosuna çeker .
=IMPORTXML(“ https://www.nytimes.com/section/world”,”//h2[içerir(.,’Çin’) ]”) yalnızca “Çin” kelimesini içeren h2 öğelerini çeker .
Örneğin, The New York Times’ın dünya bölümünde “Çin” kelimesini içeren tüm manşetleri aşağıdakileri kullanarak taradık:
- Aradığınız sınıfı (yani metin tipini) belirlemek için web sayfasını inceleyin (paragraf için (paragraf için “p”, başlık için “h1”, alt başlıklar için “h2”)…)
- Aradığınız kelimeyi formüle girin (“ülke” yerini değiştirin)
- Verilerin günde bir kez Google E-Tablolarınıza otomatik olarak yüklenmesini sağlayın!
5. Ücretsiz uygulamalar (koddan korkuyorsanız)
Tüm bunlar sizi biraz HTML öğrenmeye ikna etmediyse, yine de tarayıcı uzantılarını veya ücretsiz uygulamaları kullanmayı deneyebilirsiniz. Verilerin nasıl toplandığı ve biçimlendirildiği konusunda size daha az kontrol sağlarlar, ancak sizi kod satırları ve elektronik tablo formülleri yazma zahmetinden kurtarır.
Sunne’nin tavsiyeleri şunlar:
- Parsehub : Etkileşimli içerik de dahil olmak üzere herhangi bir web sitesinden veri çekebilen (ve JavaScript veya AJAX kullanılarak kodlanmış sayfalardan veri ayıklayan) bir masaüstü uygulaması. Kullanıcı dostu arayüzü sayesinde kod
- lama bilgisi gerektirmez ve verileri Excel ve JSON’a yüklemenin yanı sıra Google E-Tablolar ve Tableau analitik platformuna aktarmanıza olanak tanır .
- Outwit : Web kazıyıcılarına ek olarak, özel bir kazıyıcı oluşturma, kazımayı otomatikleştirme ve hatta sizin için verileri çıkarma hizmetleri sunar.
- WebScraper : Kodla uğraşmak isteyenler için kolay bir tıkla WebScraper, web sitesinin yapısına ve çıkarmak istediğiniz veri noktalarına göre “site haritaları” oluşturabilir.
Ek kaynaklar
- GIJN Kaynak Merkezinin Veri Kazıma
- GIJN’nin Veri Gazeteciliği Kılavuzu: Verileri Kazıma, Temizleme ve Hazırlama Araçları
- Web Kazıma: Bir Gazetecinin Kılavuzu
Smaranda Tolosano , GIJN için çevirileri ve ortaklıkları yönetir. Daha önce Fas’taki Thomson Reuters Vakfı için, hükümetin rejim muhaliflerini hedef almak için casus yazılım kullanmasını ve sosyal medyada feminist hareketlerin ortaya çıkışını ele almıştı.