Thursday, January 8, 2015

Assalamualaikum Warahmatullahi Wabarakatuh.

Saat ini dengan banyaknya jumlah data yang terdapat pada internet dapat kita manfaatkan sebagai tujuan untuk menambang data atau mengumpulkan data dengan mengekstrak informasi yang ada. Ada beberapa teknik cara dalam mengumpulkan data, dan diantaranya kita dapat menggunakan crawling dan scraping.

Dengan menggunakan kedua teknik tersebut kita dapat lebih mempersingkat waktu dalam hal pengumpulan data. Teknik crawling dan scraping juga dapat dilakukan dengan automation pada server sehingga pekerjaan jadi lebih flexible dan efisien. Yang kemudian hasil dari data yang dikumpulkan dapat kita simpan dalam sebuah file berformat csv, json, txt, dan lain-lain. Ataupun kita dapat langsung menyimpannya ke database yang sudah kita siapkan.

Web Crawling

Crawling merupakan teknik mengumpulkan data pada sebuah website dengan memasukkan Uniform Resource Locator (URL). URL ini menjadi acuan untuk mencari semua hyperlink yang ada pada website. Kemudian dilakukan indexing untuk mencari kata dalam dokumen pada setiap link yang ada.

Untuk penerapannya crawling menggunakan automation program dan menggunakan Application Programming Interface (API) sebagai jalur komunikasi dalam mendapatkan data. Dengan API kita dapat mengumpulkan data lebih spesifik sesuai dengan link URL yang ada tanpa harus mengetahui element HTML pada sebuah website.

Penerapan crawling dapat menggunakan beberapa teknik, antara lain:

  • Selective Crawling
  • Popularity
  • Focused Crawling
  • Distributed Crawling
  • Paralel Crawling
  • Web Dynamic

Sumber : Crawling Techniques

Untuk melihat contoh penerapan crawling dengan python bisa lihat di artikel ini.

 

Web Scraping

Scraping merupakan teknik mengumpulkan data pada sebuah website melalui proses ektraksi informasi menggunakan Hypertext Transfer Protocol (HTTP).

Untuk penerapannya scraping dapat digunakan secara manual ataupun secara automation program. Namun untuk mendapatkan data kita perlu mengetahui element HTML ataupun XML pada sebuah website. Kemudian kita masukkan kedalam program yang dibuat untuk mencari data sesuai nama id atau nama class dari element HTML tersebut.

Web scraping, web harvesting, or web data extraction is data scraping used for extracting data from websites. Web scraping software may access the World Wide Web directly using the Hypertext Transfer Protocol, or through a web browser

~ Wikipedia

Penerapan scraping dapat menggunakan beberapa teknik, antara lain:

  • Copy-Paste
  • HTML Parsing
  • DOM Parsing
  • Vertical Aggregation
  • Xpath
  • Google Sheet
  • Text Patern Machine

Sumber : Scraping Techniques

Untuk melihat contoh penerapan scraping menggunakan python dapat dilihat di artikel ini.

Perbedaan

Bisa kita asumsikan bahwa ketika kita melakukan web crawling sebenarnya kita juga melakukan web scraping. Namun sebaliknya ketika kita melakukan web scraping kita belum atau tidak melakukan web crawling. Kemudian untuk perbedaannya crawling biasanya digunakan untuk data dengan skala besar. Penerapannya menggunakan bot secara otomatis dan menggunakan Application Programming Interface (API). Sedangkan scraping biasanya digunakan untuk data yang relative tidak terlalu besar dan proses pengambilan data pada element HTML ataupun XML menggunakan protocol HTTP.

Catatan: Untuk crawling biasanya membutuhkan registrasi untuk mendapatkan API dan ada juga yang berbayar. Sedangkan untuk scraping membutuhkan sedikit pengetahuan tentang HTML.

Mudah-mudahan artikel ini bermanfaat buat teman-teman, jangan lupa ilmunya di share ke orang lain.

Jazakumullah khairan katsiran, waalaikumussalam warahmatullahi wabarakatuh

Referensi:

https://en.wikipedia.org/wiki/Web_crawler

https://en.wikipedia.org/wiki/Web_scraping

https://www.promptcloud.com/blog/data-scraping-vs-data-crawling/

https://www.quora.com/What-are-the-biggest-differences-between-web-crawling-and-web-scraping

https://stackoverflow.com/questions/4327392/what-is-the-difference-between-web-crawling-and-web-scraping

 

Read More

Featured Post (Slider)

About

Contact us

Recent Posts

Contact Form

Name

Email *

Message *

Combine

Horizontal

Vertical1

Pages

Powered by Blogger.

PGA Head Teaching Professional

My Photo
Tinggi 165 , jelek tidak , ganteng banget juga tidak biasa aja

Most Trending

Gallery

Top 10 Articles

Vertical2

Portfolio

Recent News