【Python】スクレイピングしてみよう
Pythonを学習する教材として「スクレイピング」に挑戦していきたいと思います。今回は使用していくツールと使い方を紹介します。
スクレイピングとは
「スクレイピング」とは、WEBデータを抽出し、必要なものだけに加工することのようですね。
なので大量のデータの中で、自分の知りたい情報だけを収集できます。
スクレイピングとクローリング
「クローリング」とは、インターネット上に存在するサイトを行き来し、それらの情報を収集することです。
なので「スクレイピング」とは「クローリング」で得た情報を加工することになりますね。
活用例
- ネットオークション、株価の変動を監視できる。
- よく検索されるキーワードを調べられる。
ビジネスに活用できるものがほとんどですね。
スクレイピングしてみよう
使用するライブラリはこちら
- requests
- Beautiful Soup4
自分は「Anaconda」を使って環境を構築しています。
「Anaconda」をインストールすれば既に「Beautiful Soup4」と「Requests」がインストールされているのですぐ実践できますね。
Requests
Requests を使うとWebサイトの情報を取得できます。
サイトのURLを渡してあげることによって取得できます。
Beautiful Soup
今回、自分が使用していくのはBeautiful Soupという、Pythonライブラリです。
HTMLおよびXMLファイルからデータを引き出します。
スクレイピングを実践!
今回は「Anaconda」に入っている「Jupyter Notebook」を使用していきます。
ANACONDA NAVIGATORを起動しよう
起動したら、「Jupyter Notebook」の「Launch」をクリックします。
Jupyter Notebookで新しいブックを作ろう
開いたら、右の「New」で「Python3」を選択します。
Requestsを使ってみよう
「Yahoo」のURLを「Requests」に渡してみました。
import requests
p = requests.get("https://www.yahoo.co.jp/")
p.content
Beautiful Soupを使ってみよう
これは「Beautiful Soup」を使って「Yahoo」のサイトのタイトルを取得しています。
import requests
from bs4 import BeautifulSoup
r = requests.get('https://www.yahoo.co.jp/')
d = BeautifulSoup(r.content, 'html.parser')
print(d.html.head.title)
まとめ
こんな簡単に「スクレイピング」ができるなんて感動です。
プログラミングを学ぶ上でも、まず真似してみることが大事ですね。
今は大抵のことは調べれば出てきますもんね。
この環境がなかったプログラマーの先輩たちはどれほどの学習を繰り返してきたんでしょうか。ほんとに凄いですよね。
もっと「スクレイピング」を使いこなせるよう努力します。
それではまた。
“【Python】スクレイピングしてみよう” に対して2件のコメントがあります。