【Python】スクレイピングしてみよう

Pythonを学習する教材として「スクレイピング」に挑戦していきたいと思います。今回は使用していくツールと使い方を紹介します。

スクレイピングとは

「スクレイピング」とは、WEBデータを抽出し、必要なものだけに加工することのようですね。
なので大量のデータの中で、自分の知りたい情報だけを収集できます。

スクレイピングとクローリング

「クローリング」とは、インターネット上に存在するサイトを行き来し、それらの情報を収集することです。
なので「スクレイピング」とは「クローリング」で得た情報を加工することになりますね。

活用例

  • ネットオークション、株価の変動を監視できる。
  • よく検索されるキーワードを調べられる。

ビジネスに活用できるものがほとんどですね。

スクレイピングしてみよう

使用するライブラリはこちら

  • requests
  • Beautiful Soup4

自分は「Anaconda」を使って環境を構築しています。
「Anaconda」をインストールすれば既に「Beautiful Soup4」と「Requests」がインストールされているのですぐ実践できますね。

Requests

 Requests を使うとWebサイトの情報を取得できます。
サイトのURLを渡してあげることによって取得できます。

Beautiful Soup

今回、自分が使用していくのはBeautiful Soupという、Pythonライブラリです。
HTMLおよびXMLファイルからデータを引き出します。

スクレイピングを実践!

今回は「Anaconda」に入っている「Jupyter Notebook」を使用していきます。

ANACONDA NAVIGATORを起動しよう

起動したら、「Jupyter Notebook」の「Launch」をクリックします。

Jupyter Notebookで新しいブックを作ろう

開いたら、右の「New」で「Python3」を選択します。

Requestsを使ってみよう

「Yahoo」のURLを「Requests」に渡してみました。

import requests

p = requests.get("https://www.yahoo.co.jp/")
p.content

Beautiful Soupを使ってみよう

これは「Beautiful Soup」を使って「Yahoo」のサイトのタイトルを取得しています。

import requests
from bs4 import BeautifulSoup

r = requests.get('https://www.yahoo.co.jp/') 
d = BeautifulSoup(r.content, 'html.parser')
print(d.html.head.title)

まとめ

こんな簡単に「スクレイピング」ができるなんて感動です。
プログラミングを学ぶ上でも、まず真似してみることが大事ですね。
今は大抵のことは調べれば出てきますもんね。
この環境がなかったプログラマーの先輩たちはどれほどの学習を繰り返してきたんでしょうか。ほんとに凄いですよね。
もっと「スクレイピング」を使いこなせるよう努力します。
それではまた。

  • X

【Python】スクレイピングしてみよう” に対して2件のコメントがあります。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です