Hai sobat enthusiast, kali ini kita akan membahas cara mengekstrak data pada situs website, sebenarnya ada dua cara yang bisa kita lakukan
- Akses HTML halaman web dan ekstrak informasi / data. Teknik ini disebut web scraping atau web harvest atau web extraction.
- Gunakan API situs web (jika ada). Misalnya jika di Facebook memiliki API Grafik Facebook yang memungkinkan pengambilan data yang diposting di Facebook.
Dalam tutorial ini kita menggunakan Beatufullshop di python untuk melakukan scarping pada website.
Langkah-langkah yang di perlukan dalam webscraping.
- Mengirimkan request HTTP ke URL halaman web yang ingin Anda akses. Server merespons permintaan dengan mengembalikan konten HTML laman web. Untuk kali ini, kami akan menggunakan library HTTP pihak ketiga untuk permintaan python.
- Lalu kita akan mengkases kode HTM, Karena sebagian besar data HTML bersarang, kami tidak dapat mengekstraksi data hanya melalui pemrosesan string. Ada banyak parser HTML library yang tersedia tetapi yang paling canggih menurut saya adalah html5lib.
- Sekarang, yang perlu kita lakukan adalah menavigasi dan mencari pohon parse yang telah kita buat, mis. Traversal pohon. Untuk tugas ini, kita akan menggunakan library python pihak ketiga lainnya, yaitu Beautiful Soup. Ini adalah library Python untuk menarik data dari file HTML dan XML.
Menginstal Libary yang di Butuhkan
Untuk menginstal beberapa libary yang di butuhkan kita menggunakan pip. pip merupakan sistem menagement paket yang di gunakan untuk menginstal dan mengelola paket yang ditulis di python.
pip install requests pip install html5lib pip install bs4
Membuat Scourch Code Untuk Pengektraktan Web.
import requests page = requests.get('https://raihanrnj.blogspot.com') soup = BeautifulSoup(page.content, 'html5lib') print (soup.prettify()) if page.status_code==200: div = soup.find(id='main-wrapper')
Status request berhasil atau mendapatkan respon code 200, kita buat sebuah object dengan nama div untuk menyimpan content yang lebih spesifik.