de-vraag
  • Pertanyaan
  • Tag
  • Pengguna
Notifikasi
Imbalan
Registrasi
Setelah Anda mendaftar, Anda akan diberitahu tentang balasan dan komentar untuk pertanyaan Anda.
Gabung
Jika Anda sudah memiliki akun, masuk untuk memeriksa pemberitahuan baru.
Akan ada hadiah untuk pertanyaan, jawaban, dan komentar tambahan.
Lebih
Sumber
Sunting
Nishant Bhakta
Nishant Bhakta
Question

Perbedaan antara BeautifulSoup dan Scrapy crawler?

Saya ingin membuat sebuah situs web yang menunjukkan perbandingan antara amazon dan e-bay dengan harga produk. Yang ini akan bekerja lebih baik dan mengapa? Saya agak akrab dengan BeautifulSoup tapi tidak begitu banyak dengan Scrapy crawler.

127 2013-10-30T15:43:23+00:00 8
 kame
kame
Pertanyaan edit 12 April 2016 в 4:13
Pemrograman
python
web-crawler
beautifulsoup
scrapy
Solution / Answer
 Medeiros
Medeiros
1 November 2013 в 7:41
2013-11-01T19:41:41+00:00
Lebih
Sumber
Sunting
#22667962

Scrapy adalah Web spider atau web scraper framework, Anda memberikan Scrapy akar URL untuk mulai merangkak, maka anda dapat menentukan batasan pada berapa banyak (jumlah) Url anda ingin merangkak dan mengambil,dll. Itu adalah sebuah framework untuk web scraping atau merangkak.

Sementara

BeautifulSoup adalah parsing perpustakaan yang juga melakukan pekerjaan yang cukup baik untuk mengambil isi dari URL dan memungkinkan anda untuk mengurai bagian-bagian tertentu dari mereka tanpa kerumitan. Itu hanya mengambil isi dari URL yang anda berikan dan kemudian berhenti. Tidak merangkak kecuali anda secara manual dimasukkan ke dalam loop tak terbatas dengan kriteria-kriteria tertentu.

Dalam kata-kata sederhana, dengan Sup yang Indah anda dapat membangun sesuatu yang mirip dengan Scrapy. Indah Sup adalah perpustakaan sementara Scrapy adalah lengkapi kerangka.

Source

political scientist
political scientist
Jawaban edit 9 Oktober 2019 в 7:18
217
0
 rdenadai
rdenadai
30 Oktober 2013 в 3:49
2013-10-30T15:49:30+00:00
Lebih
Sumber
Sunting
#22667961

Saya pikir keduanya baik... im melakukan sebuah proyek sekarang yang menggunakan keduanya. Pertama aku scrap semua halaman menggunakan scrapy dan menyimpan yang pada mongodb koleksi menggunakan pipa, juga men-download gambar-gambar yang ada pada halaman. Setelah itu saya menggunakan BeautifulSoup4 untuk membuat pos-pengolahan di mana saya harus mengubah nilai atribut dan mendapatkan beberapa tag khusus.

Jika anda don't tahu mana halaman produk yang anda inginkan, alat yang baik akan scrapy karena anda dapat menggunakan crawler untuk menjalankan semua amazon/ebay website anda mencari produk tanpa membuat eksplisit untuk loop.

Lihatlah scrapy dokumentasi, it's sangat sederhana untuk digunakan.

 thepurpleowl
thepurpleowl
Jawaban edit 11 Juli 2018 в 7:32
18
0
 baldnbad
baldnbad
4 Juni 2014 в 2:45
2014-06-04T14:45:50+00:00
Lebih
Sumber
Sunting
#22667963

Cara yang saya lakukan ini adalah untuk menggunakan eBay/Amazon API's daripada scrapy, dan kemudian mengurai hasil menggunakan BeautifulSoup.

Api memberikan anda sebuah cara resmi untuk mendapatkan data yang sama yang anda akan dapatkan dari scrapy crawler, dengan tidak perlu untuk khawatir tentang menyembunyikan identitas anda, main-main dengan proxy,dll.

Nishant Bhakta
Nishant Bhakta
Jawaban edit 19 Juli 2017 в 5:21
3
0
Arun Augustine
Arun Augustine
6 Oktober 2017 в 8:54
2017-10-06T08:54:09+00:00
Lebih
Sumber
Sunting
#22667964

Keduanya menggunakan untuk mengurai data.

Scrapy:

  • Scrapy cepat tinggi-tingkat perayapan web dan web scraping framework, digunakan untuk menjelajah situs-situs dan mengekstrak data terstruktur dari halaman mereka.
  • Tetapi memiliki beberapa keterbatasan ketika data yang berasal dari java script atau loading dynamicaly, kita bisa datang dengan menggunakan paket seperti splash, selenium dll.

BeautifulSoup:

  • Indah Sup Python library untuk menarik data dari HTML dan File XML.

  • kita dapat menggunakan paket ini untuk mendapatkan data dari java script atau secara dinamis loading halaman.

Scrapy dengan BeautifulSoup adalah salah satu yang terbaik combo kita dapat bekerja dengan gesekan statis dan dinamis isi

3
0
 Amit
Amit
13 Agustus 2019 в 9:28
2019-08-13T09:28:13+00:00
Lebih
Sumber
Sunting
#22667967

Scrapy Ini adalah web scraping kerangka yang dilengkapi dengan banyak barang yang membuat gesekan dari mudah sehingga kita bisa fokus pada merangkak logika saja. Beberapa hal favorit saya scrapy mengurus untuk kita yang di bawah ini.

  • Pakan ekspor: pada dasarnya memungkinkan kita untuk menyimpan data dalam berbagai format seperti CSV,JSON,jsonlines dan XML.

  • Asynchronous scraping: Scrapy menggunakan twisted kerangka kerja yang memberi kita kekuatan untuk mengunjungi beberapa url sekaligus dimana setiap permintaan diproses di non memblokir jalan(pada Dasarnya kita don't harus menunggu permintaan untuk menyelesaikan sebelum mengirim permintaan lain).

  • Pemilih: Ini adalah di mana kita dapat membandingkan scrapy dengan indah sup. Penyeleksi adalah apa yang memungkinkan kita untuk memilih data tertentu dari halaman web, seperti judul, tertentu div dengan nama kelas dll.). Scrapy menggunakan lxml untuk parsing yang sangat cepat dari sup yang indah.

  • Pengaturan proxy,user agent ,header dll: scrapy memungkinkan kita untuk mengatur dan memutar proxy,dan lain header secara dinamis.

  • Item Pipa: Pipa memungkinkan kita untuk memproses data setelah ekstraksi. Misalnya kita dapat mengkonfigurasi pipa untuk mendorong data ke server mysql.

  • Cookie: scrapy secara otomatis menangani cookie untuk kita.

dll.

TLDR: scrapy adalah sebuah kerangka kerja yang menyediakan segala sesuatu yang mungkin perlu membangun skala besar merangkak. Ini menyediakan berbagai fitur yang menyembunyikan kompleksitas dari merangkak jaring. satu hanya dapat mulai menulis web crawler tanpa khawatir tentang pengaturan beban.

Indah sup Indah Sup adalah paket Python untuk parsing HTML dan XML dokumen. Jadi dengan Indah sup anda dapat mem-parsing halaman web yang telah di download. BS4 sangat populer dan tua. Tidak seperti scrapy,Anda tidak dapat menggunakan sup yang indah hanya untuk membuat crawler. Anda akan membutuhkan library lain seperti permintaan,urllib dll untuk membuat crawler dengan bs4. Sekali lagi, ini berarti anda akan perlu untuk mengelola daftar url yang sedang merangkak,harus merangkak, menangani cookies , mengatur proxy, menangani kesalahan, membuat fungsi anda sendiri untuk mendorong data ke CSV,JSON,XML dll. Jika anda ingin mempercepat dari yang anda akan memiliki untuk menggunakan perpustakaan lain seperti multiprocessing.

Untuk meringkas.

  • Scrapy kaya framework yang dapat anda gunakan untuk mulai menulis crawler tanpa hassale.

  • Indah sup adalah perpustakaan yang dapat anda gunakan untuk mem-parsing halaman web. Ini tidak dapat digunakan sendiri untuk mengikis web.

Anda pasti harus menggunakan scrapy untuk amazon dan e-bay produk situs perbandingan harga. Anda bisa membangun sebuah database dari url dan menjalankan crawler setiap hari(cron jobs,Seledri untuk penjadwalan merangkak) dan update harga pada database anda.Dengan cara ini website anda akan selalu tarik dari database dan crawler dan database akan bertindak sebagai individu komponen.

 Amit
Amit
Jawaban edit 13 Agustus 2019 в 9:35
1
0
Jaskaran Singh
Jaskaran Singh
25 September 2019 в 9:01
2019-09-25T21:01:12+00:00
Lebih
Sumber
Sunting
#22667968

BeautifulSoup adalah perpustakaan yang memungkinkan anda untuk mengekstrak informasi dari sebuah halaman web.

Scrapy di sisi lain adalah sebuah kerangka kerja, yang melakukan hal di atas dan banyak lagi hal-hal yang anda mungkin perlu dalam menggores proyek seperti pipa untuk menyimpan data.

Anda bisa cek blog ini untuk mendapatkan dimulai dengan Scrapy https://www.inkoop.io/blog/web-scraping-using-python-and-scrapy/

0
0
 ethirajit
ethirajit
9 Maret 2018 в 6:20
2018-03-09T06:20:26+00:00
Lebih
Sumber
Sunting
#22667965

Menggunakan scrapy anda dapat menyimpan banyak kode dan memulai dengan pemrograman terstruktur, Jika anda tidak menyukai salah satu scapy's pra-tertulis metode kemudian BeautifulSoup dapat digunakan di tempat scrapy metode. Proyek besar mengambil keuntungan.

Vishal Chhodwani
Vishal Chhodwani
Jawaban edit 9 Maret 2018 в 8:02
0
0
 krish___na
krish___na
23 Februari 2019 в 6:26
2019-02-23T06:26:31+00:00
Lebih
Sumber
Sunting
#22667966

Perbedaan yang banyak dan pilihan dari setiap alat/teknologi tergantung pada kebutuhan individu.

Beberapa perbedaan utama adalah:

  1. BeautifulSoup relatif lebih mudah untuk belajar dari Scrapy.
  2. Ekstensi, dukungan, masyarakat lebih besar untuk Scrapy dari untuk BeautifulSoup.
  3. Scrapy harus dianggap sebagai laba-Laba sementara BeautifulSoup adalah Parser.
0
0
Related communities 6
Python Indonesia
Python Indonesia
24 686 pengguna
Programmer Python Indonesia. Group ini dikelola oleh sejumlah admin. Baca pesan tersemat / pinned message: https://t.me/pythonID/217588
Buka telegram
Indonesian Python Warriors
Indonesian Python Warriors
1 462 pengguna
Di grup ini tidak ada kewajiban untuk menggunakan username dan foto. Yang tidak boleh adalah spamming. Gak boleh baper, kalau nanya yang bener, eror jangan difoto pake HP, gunakan screenshot, code copas ke pastebin.com lalu share link ke sini.
Buka telegram
Python-ID Jogja
Python-ID Jogja
962 pengguna
Buka telegram
BASIC PYTHON INDONESIA
BASIC PYTHON INDONESIA
214 pengguna
Buka telegram
Python Newbie Indonesia
Python Newbie Indonesia
180 pengguna
Peraturan grup Python Newbie 🌻Dilarang spam 🌻Dilarang menggunakan bahasa kasar 🌻Dilarang beriklan di grup tanpa seizin admin Beberapa video dasar python dapat diliat melalui channel youtube juan aditya Jangan lupa untuk subscribe ya🙏
Buka telegram
PythonWealth Indonesia 🇮🇩
PythonWealth Indonesia 🇮🇩
29 pengguna
Buka telegram
Tambahkan pertanyaan
Kategori
Semua
Teknologi
Budaya / Rekreasi
Kehidupan / Seni
Ilmu Pengetahuan
Profesional
Bisnis
Pengguna
Semua
Baru
Populer
1
Asilbek Qadamboyev
Terdaftar 1 hari yang lalu
2
Akshit Mehta
Terdaftar 4 hari yang lalu
3
me you
Terdaftar 1 minggu yang lalu
4
Никита иванов
Terdaftar 1 minggu yang lalu
5
Alex1976G_06
Terdaftar 1 minggu yang lalu
ID
JA
KO
RU
© de-vraag 2022
Sumber
stackoverflow.com
di bawah lisensi cc by-sa 3.0 dengan atribusi