geri

RSS desteği olmayan bir web sitesinden içerik nasıl çekilir?

17/05/2011

Bu yazıda anlatılanlar yalnızca bilgilendirme amaçlıdır. Örnekte kullanılan tubitak.gov.tr sitesinden çekilen içerik TÜBİTAK'a aittir. Bazı siteler bilgi verilmeden içerik çekilmesini yasaklamış olabilir. Burada anlatılan bilgileri kullanarak gerçekleştirilen uygulamalardan doğacak sonuçlar için sorumluluk kabul edilmez.

RSS desteği web sitesi içeriğini XML gibi düzgün bir biçime dönüştürdüğünden, içeriği bir uygulama aracılığıyla çekerek anlamlandırmak oldukça kolaydır. Bu desteğin olmadığı durumlarda ise içeriğin çekilmesi güçleşir. Örnek olarak tubitak.gov.tr site içeriği için RSS desteği sağlasa da arama sonuçları için bu desteği vermemektedir. Bu yazımda istenilen kelimeyi tubitak.gov.tr sitesinde arayarak dönen sonuçları işleyen küçük bir uygulamanın nasıl yazılacağını anlatacağım.

İşe önce tubitak.gov.tr sitesinde bir arama yaparak başlayalım. "burs" kelimesini aradığımızda dönen sonuç aşağıdaki görüntüdeki gibi oluyor.

Dönen sayfanın html koduna bakarsak arama sonuçları class özelliği divContentItem ya da divContentItemAlt olan alt alta divler şeklinde listeleniyor. En altta bulunan divShowAllItems içerisinde ise sayfalama bağlantıları bulunuyor.

Bir tane div seçip içinde kullanılan html koduna göz atalım.

Görüldüğü gibi içiçe iki tablo mevcut. İlk tablo tek bir satırdan oluşuyor ve tdContentText sınıfından olan td içerisindeki tablonun içinde ihtiyaç duyduğumuz başlık, açıklama ve tarih bilgileri yer alıyor. Şimdi bir de sayfalama bölümüne göz atalım.

En altta bulunan ve texti "Sonraki Sayfa" olan bağlantı ile bir sonraki arama sonucu sayfasına ulaşılabiliyor. Bu bilgiler ışığında arama sonuçlarını işleyecek bir uygulama yazalım. HTML parse işlemleri için küçük fakat çok kullanışlı olan jsoup kütüphanesini kullanacağız.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
public class Bocuk {
  private static final String domain = "http://tubitak.gov.tr/";
  private static final String searchPath = "detailedsearch.do?query=";
  private static int index = 1;

  public static void main(String[] args) throws IOException, ParseException {
    String path = searchPath + "burs";
    do {
      path = parseSearchResults(path.replaceFirst("\\.\\.", ""));
    } while (path != null);
  }

  public static Document parseURL(final URL url, final int timeOut, int retryAttempts) {
    Document doc = null;
    do {
      try {
        doc = Jsoup.parse(url, timeOut);
      } catch (Exception ex) {
        doc = null;
      }
    } while (doc == null && (retryAttempts-- > 0));

    return doc;
  }

  public static String parseSearchResults(String path) throws IOException, ParseException {
    URL url = new URL(domain + path);
    Document doc = parseURL(url, 15000, 4);
    if (doc == null) {
      return null;
    }
   
    Elements icerikDivler = doc.getElementsByClass("divContentItem");
    icerikDivler.addAll(doc.getElementsByClass("divContentItemAlt"));

    for (Element icerikDiv : icerikDivler) {
      System.out.println("******************************************");
      Elements satirlar = icerikDiv.getElementsByClass("tdContentText").first().getElementsByTag("tr");
      Element baslik = satirlar.get(0).getElementsByTag("a").first();
      System.out.println("baslik: " + baslik.ownText());
      Element aciklama = satirlar.get(1).getElementsByTag("a").first();
      System.out.println("aciklama: " + aciklama.ownText());
      Element tarih = satirlar.get(2).getElementsByTag("td").first();
      System.out.println("tarih: " + tarih.ownText());
      System.out.println("******************************************\n");
    }

    Elements navigation = doc.getElementsByClass("divShowAllItems");
    if (navigation == null || navigation.isEmpty()) {
      return null;
    }
    Element next = navigation.first().getElementsContainingOwnText("Sonraki Sayfa").first();
    if (next == null) {
      return null;
    }

    String nextURL = next.attr("href");
    System.out.println("nextURL: " + nextURL);
    return nextURL;
  }
}

Uygulamayı çalıştırdığımızda aşağıdaki çıktıyı elde ediyoruz. "burs" anahtar kelimesini değiştirerek farklı aramalar da yapılabilir.

******************************************
baslik: ESA Burs Programı
aciklama: TÜBİTAK ve ESA arasında imzalanan "Türkiye Hükümeti ve Avrupa Uzay Ajansı Arasında Dış Uzayın Barışçıl Amaçlarla İncelenmesi ve Kullanılması Konusunda İşbirliği Anlaşması" çerçevesinde burs verilecektir.
tarih: 05.07.2010
******************************************

******************************************
baslik: Burs Ödemelerine İlişkin Duyuru
aciklama: 
tarih: 09.04.2010
******************************************

******************************************
baslik: TÜBİTAK-DFG Bilimsel Değişim Burs Programı
aciklama: TÜBİTAK-DFG Bilimsel Değişim Burs Programı 2009 yılı 1. dönem destekleri belli oldu.
tarih: 23.02.2009
******************************************

******************************************
baslik: TÜBİTAK Yurt İçi Doktora Burs Programı
aciklama: TÜBİTAK Yurt İçi Doktora Burs Programı doğrudan bursiyerlik başvurularının sonuçları açıklandı.
tarih: 29.04.2011
******************************************

******************************************
baslik: TÜBİTAK Burs ve Destek Miktarları 2008 Yılında Arttırıldı...
aciklama: 
tarih: 04.01.2008
******************************************

******************************************
baslik: 2228 Burs Programı Hakkında Duyuru...
aciklama: 2228 - Son Sınıf Lisans Öğrencileri İçin Yurt İçi Lisansüstü (Yüksek Lisans/Doktora) Burs Programı 2008 yılı lisansüstü burs tahsis edilen adaylar belli oldu.
tarih: 07.05.2008
******************************************

******************************************
baslik: BİDEB BURS VE DESTEK PROGRAMLARI
aciklama: 
tarih: 08.04.2011
******************************************

******************************************
baslik: TÜBİTAK Yurt İçi Yüksek Lisans Burs Programı
aciklama: TÜBİTAK Yurt İçi Yüksek Lisans Burs Programı doğrudan bursiyerlik başvurularının sonuçları açıklandı.
tarih: 05.05.2011
******************************************

******************************************
baslik: TÜBİTAK Yüksek Lisans ve Doktora Burs Programları
aciklama: TÜBİTAK - BİDEB Yurt İçi Yüksek Lisans ve Doktora Burs Programları Kapsamında 2010 Yılı Bursiyerleri Belli Oldu
tarih: 28.12.2010
******************************************

******************************************
baslik: Son Sınıf Lisans Öğrencileri Lisansüstü Burs Programı
aciklama: TÜBİTAK-2228 Son Sınıf Lisans Öğrencileri için Lisansüstü (Yüksek Lisans/Doktora) Burs Programı başvuruları alınmaya başlandı.
tarih: 04.04.2011
******************************************

nextURL: /ara/burs/0/1/index.htm;jsessionid=F053F7EEB69D10FA5E4DDD6E409EE33B

Umarım verdiğim örnek faydalı olmuştur.

Follow me on Twitter