amazonとe-bayの商品価格の比較を表示するサイトを作りたいと思っています。 どちらがより効果的か、またその理由を教えてください。BeautifulSoupには多少詳しいのですが、Scrapy crawler**にはあまり詳しくありません。
Scrapyはウェブスパイダーまたはウェブスクレーパーのフレームワークで、Scrapyにクロールを開始するためのルートURLを与え、クロールして取得したいURLの数などの制約を指定することができます。これは、ウェブスクレイピングまたはクローリングのための完全なフレームワークです。
一方
BeautifulSoupは解析ライブラリで、URLからコンテンツを取得するのが得意で、手間をかけずに特定の部分を解析することができます。このライブラリは、あなたが指定したURLのコンテンツを取得して停止します。あなたが手動で特定の条件で無限ループに入れない限り、クロールしません。
簡単に言えば、Beautiful Soupを使えば、Scrapyと同じようなものを作ることができます。 Beautiful Soupはライブラリであり、Scrapyは完全なフレームワークです。
両方とも良いと思います...今、両方を使ったプロジェクトをやっています。まず、scrapyを使ってすべてのページをスクラップし、そのパイプラインを使ってmongodbのコレクションに保存し、ページに存在する画像もダウンロードしています。 その後、BeautifulSoup4を使って、属性の値を変更したり、特別なタグを取得したりする必要があるPOS処理を行っています。
どのページの商品が欲しいのか分からない場合は、scrapyが良いでしょう。scrapyのクローラーを使えば、明示的なforループを作らずに、amazonやebayのウェブサイトを全て回って商品を探すことができます。
scrapyのドキュメントを見てみてください、使い方はとても簡単です。