Assalamualaikum Warahmatullahi Wabarakatuh.
Saat ini dengan banyaknya jumlah data yang terdapat pada internet dapat kita manfaatkan sebagai tujuan untuk menambang data atau mengumpulkan data dengan mengekstrak informasi yang ada. Ada beberapa teknik cara dalam mengumpulkan data, dan diantaranya kita dapat menggunakan crawling dan scraping.
Dengan menggunakan kedua teknik tersebut kita dapat lebih mempersingkat waktu dalam hal pengumpulan data. Teknik crawling dan scraping juga dapat dilakukan dengan automation pada server sehingga pekerjaan jadi lebih flexible dan efisien. Yang kemudian hasil dari data yang dikumpulkan dapat kita simpan dalam sebuah file berformat csv, json, txt, dan lain-lain. Ataupun kita dapat langsung menyimpannya ke database yang sudah kita siapkan.
Web Crawling
Crawling merupakan teknik mengumpulkan data pada sebuah website dengan memasukkan Uniform Resource Locator (URL). URL ini menjadi acuan untuk mencari semua hyperlink yang ada pada website. Kemudian dilakukan indexing untuk mencari kata dalam dokumen pada setiap link yang ada.
Untuk penerapannya crawling menggunakan automation program dan menggunakan Application Programming Interface (API) sebagai jalur komunikasi dalam mendapatkan data. Dengan API kita dapat mengumpulkan data lebih spesifik sesuai dengan link URL yang ada tanpa harus mengetahui element HTML pada sebuah website.
Penerapan crawling dapat menggunakan beberapa teknik, antara lain:
- Selective Crawling
- Popularity
- Focused Crawling
- Distributed Crawling
- Paralel Crawling
- Web Dynamic
Sumber : Crawling Techniques
Untuk melihat contoh penerapan crawling dengan python bisa lihat di artikel ini.
Web Scraping
Scraping merupakan teknik mengumpulkan data pada sebuah website melalui proses ektraksi informasi menggunakan Hypertext Transfer Protocol (HTTP).
Untuk penerapannya scraping dapat digunakan secara manual ataupun secara automation program. Namun untuk mendapatkan data kita perlu mengetahui element HTML ataupun XML pada sebuah website. Kemudian kita masukkan kedalam program yang dibuat untuk mencari data sesuai nama id atau nama class dari element HTML tersebut.
Web scraping, web harvesting, or web data extraction is data scraping used for extracting data from websites. Web scraping software may access the World Wide Web directly using the Hypertext Transfer Protocol, or through a web browser
~ Wikipedia
Penerapan scraping dapat menggunakan beberapa teknik, antara lain:
- Copy-Paste
- HTML Parsing
- DOM Parsing
- Vertical Aggregation
- Xpath
- Google Sheet
- Text Patern Machine
Sumber : Scraping Techniques
Untuk melihat contoh penerapan scraping menggunakan python dapat dilihat di artikel ini.
Perbedaan
Bisa kita asumsikan bahwa ketika kita melakukan web crawling sebenarnya kita juga melakukan web scraping. Namun sebaliknya ketika kita melakukan web scraping kita belum atau tidak melakukan web crawling. Kemudian untuk perbedaannya crawling biasanya digunakan untuk data dengan skala besar. Penerapannya menggunakan bot secara otomatis dan menggunakan Application Programming Interface (API). Sedangkan scraping biasanya digunakan untuk data yang relative tidak terlalu besar dan proses pengambilan data pada element HTML ataupun XML menggunakan protocol HTTP.
Catatan: Untuk crawling biasanya membutuhkan registrasi untuk mendapatkan API dan ada juga yang berbayar. Sedangkan untuk scraping membutuhkan sedikit pengetahuan tentang HTML.
Mudah-mudahan artikel ini bermanfaat buat teman-teman, jangan lupa ilmunya di share ke orang lain.
Jazakumullah khairan katsiran, waalaikumussalam warahmatullahi wabarakatuh
Referensi:
https://en.wikipedia.org/wiki/Web_crawler
https://en.wikipedia.org/wiki/Web_scraping
https://www.promptcloud.com/blog/data-scraping-vs-data-crawling/
https://www.quora.com/What-are-the-biggest-differences-between-web-crawling-and-web-scraping