Sibuk .Com

Assalamualaikum Warahmatullahi Wabarakatuh.
Saat
 ini dengan banyaknya jumlah data yang terdapat pada internet dapat kita
 manfaatkan sebagai tujuan untuk menambang data atau mengumpulkan data 
dengan mengekstrak informasi yang ada. Ada beberapa teknik cara dalam mengumpulkan data, dan diantaranya kita dapat menggunakan crawling dan scraping.
Dengan menggunakan kedua teknik tersebut kita dapat lebih mempersingkat waktu dalam hal pengumpulan data. Teknik crawling dan scraping juga dapat dilakukan dengan automation pada
 server sehingga pekerjaan jadi lebih flexible dan efisien. Yang 
kemudian hasil dari data yang dikumpulkan dapat kita simpan dalam sebuah
 file berformat csv, json, txt, dan lain-lain. Ataupun kita dapat 
langsung menyimpannya ke database yang sudah kita siapkan.
Web Crawling
Crawling merupakan teknik mengumpulkan data pada sebuah website dengan memasukkan Uniform Resource Locator (URL).
 URL ini menjadi acuan untuk mencari semua hyperlink yang ada pada 
website. Kemudian dilakukan indexing untuk mencari kata dalam dokumen 
pada setiap link yang ada.
Untuk penerapannya crawling menggunakan automation program dan menggunakan Application Programming Interface (API) sebagai
 jalur komunikasi dalam mendapatkan data. Dengan API kita dapat 
mengumpulkan data lebih spesifik sesuai dengan link URL yang ada tanpa 
harus mengetahui element HTML pada sebuah website.
Penerapan crawling dapat menggunakan beberapa teknik, antara lain:
Selective Crawling
Popularity
Focused Crawling
Distributed Crawling
Paralel Crawling
Web Dynamic
Sumber : Crawling Techniques
Untuk melihat contoh penerapan crawling dengan python bisa lihat di artikel ini.
 
Web Scraping
Scraping merupakan teknik mengumpulkan data pada sebuah website melalui proses ektraksi informasi menggunakan Hypertext Transfer Protocol (HTTP).
Untuk
 penerapannya scraping dapat digunakan secara manual ataupun secara 
automation program. Namun untuk mendapatkan data kita perlu mengetahui 
element HTML ataupun XML pada
 sebuah website. Kemudian kita masukkan kedalam program yang dibuat 
untuk mencari data sesuai nama id atau nama class dari element HTML 
tersebut.
Web
 scraping, web harvesting, or web data extraction is data scraping used 
for extracting data from websites. Web scraping software may access the 
World Wide Web directly using the Hypertext Transfer Protocol, or 
through a web browser
~ Wikipedia
Penerapan scraping dapat menggunakan beberapa teknik, antara lain:
Copy-Paste
HTML Parsing
DOM Parsing
Vertical Aggregation
Xpath
Google Sheet
Text Patern Machine
Sumber : Scraping Techniques
Untuk melihat contoh penerapan scraping menggunakan python dapat dilihat di artikel ini.
Perbedaan
Bisa kita asumsikan bahwa ketika kita melakukan web crawling sebenarnya kita juga melakukan web scraping. Namun sebaliknya ketika kita melakukan web scraping kita belum atau tidak melakukan web crawling. Kemudian untuk perbedaannya crawling biasanya digunakan untuk data dengan skala besar. Penerapannya menggunakan bot secara otomatis dan menggunakan Application Programming Interface (API). Sedangkan scraping biasanya digunakan untuk data yang relative tidak terlalu besar dan proses pengambilan data pada element HTML ataupun XML menggunakan protocol HTTP.
sumber: promptcloud.com
sumber: prowebscraping.comCatatan: Untuk crawling biasanya membutuhkan registrasi untuk mendapatkan API dan ada juga yang berbayar. Sedangkan untuk scraping membutuhkan sedikit pengetahuan tentang HTML.
Mudah-mudahan artikel ini bermanfaat buat teman-teman, jangan lupa ilmunya di share ke orang lain.
Jazakumullah khairan katsiran, waalaikumussalam warahmatullahi wabarakatuh
Referensi:
https://en.wikipedia.org/wiki/Web_crawler
https://en.wikipedia.org/wiki/Web_scraping
https://www.promptcloud.com/blog/data-scraping-vs-data-crawling/
https://www.quora.com/What-are-the-biggest-differences-between-web-crawling-and-web-scraping
https://stackoverflow.com/questions/4327392/what-is-the-difference-between-web-crawling-and-web-scraping
 

Sibuk .Com

Thursday, January 8, 2015

Featured Post (Slider)

About

Contact us

Recent Posts

Contact Form

Combine

Horizontal

Vertical1

Pages

Archive

PGA Head Teaching Professional

Most Trending

Gallery

Top 10 Articles

Vertical2

Portfolio

Blogroll

Blog Archive

Advertise Here

Popular Posts

Follow on FaceBook

Text Widget

Recent News

Sibuk .Com

Thursday, January 8, 2015

Featured Post (Slider)

About

Contact us

Recent Posts

Contact Form

Subscribe To Sarah Bennett Blog

Combine

Horizontal

Vertical1

Pages

Archive

PGA Head Teaching Professional

Most Trending

Gallery

Top 10 Articles

Vertical2

Portfolio

Blogroll

Blog Archive

Advertise Here

Popular Posts

Follow on FaceBook

Text Widget

Recent News