プログラミング

【Python】スクレイピングしてみよう

投稿日:2020年10月12日 更新日:

Pythonを学習する教材として「スクレイピング」に挑戦していきたいと思います。今回は使用していくツールと使い方を紹介します。

スクレイピングとは

「スクレイピング」とは、WEBデータを抽出し、必要なものだけに加工することのようですね。
なので大量のデータの中で、自分の知りたい情報だけを収集できます。

スクレイピングとクローリング

「クローリング」とは、インターネット上に存在するサイトを行き来し、それらの情報を収集することです。
なので「スクレイピング」とは「クローリング」で得た情報を加工することになりますね。

活用例

  • ネットオークション、株価の変動を監視できる。
  • よく検索されるキーワードを調べられる。

ビジネスに活用できるものがほとんどですね。

スクレイピングしてみよう

使用するライブラリはこちら

  • requests
  • Beautiful Soup4

自分は「Anaconda」を使って環境を構築しています。
「Anaconda」をインストールすれば既に「Beautiful Soup4」と「Requests」がインストールされているのですぐ実践できますね。

Requests

 Requests を使うとWebサイトの情報を取得できます。
サイトのURLを渡してあげることによって取得できます。

Beautiful Soup

今回、自分が使用していくのはBeautiful Soupという、Pythonライブラリです。
HTMLおよびXMLファイルからデータを引き出します。

スクレイピングを実践!

今回は「Anaconda」に入っている「Jupyter Notebook」を使用していきます。

ANACONDA NAVIGATORを起動しよう

起動したら、「Jupyter Notebook」の「Launch」をクリックします。

Jupyter Notebookで新しいブックを作ろう

開いたら、右の「New」で「Python3」を選択します。

Requestsを使ってみよう

「Yahoo」のURLを「Requests」に渡してみました。

import requests

p = requests.get("https://www.yahoo.co.jp/")
p.content

Beautiful Soupを使ってみよう

これは「Beautiful Soup」を使って「Yahoo」のサイトのタイトルを取得しています。

import requests
from bs4 import BeautifulSoup

r = requests.get('https://www.yahoo.co.jp/') 
d = BeautifulSoup(r.content, 'html.parser')
print(d.html.head.title)

まとめ

こんな簡単に「スクレイピング」ができるなんて感動です。
プログラミングを学ぶ上でも、まず真似してみることが大事ですね。
今は大抵のことは調べれば出てきますもんね。
この環境がなかったプログラマーの先輩たちはどれほどの学習を繰り返してきたんでしょうか。ほんとに凄いですよね。
もっと「スクレイピング」を使いこなせるよう努力します。
それではまた。

-プログラミング
-

執筆者:


  1. […] 【Python】スクレイピングしてみよう […]

comment

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

関連記事

【HTML】iframeタグで動画を埋め込む

会社のイントラで「frameタグ」を使用していたんですが、今はもう廃止されているんですね。その代替えとして「iframeタグ」というものがあったので紹介します。今回は、自分の好きな動画をWEBページに …

【エクセル】で「ちょこっとプログラミング」応用編#1

プログラミングをしたことのない人向けにExcelでできる「ちょこっとプログラミング」を紹介します。今回は「空白のセルまで値を取得する」から【応用】として「セルの値で新規ファイルを作成する」を題材にやっ …

ローカル掲示板③

今回はローカル掲示板を作成した際に使用した関数を復習していきます。 関数の復習 isset ⇒ 変数がセットされているかをチェックします。     「isset($_POST[‘send& …

【Python】CSVからグラフを作成してみよう

前回は、「CSVファイル」を「pandas」で読み込んで、表示しました。今回は、読み込んだ「CSVファイル」でグラフを作成したいと思います。 CSVファイルからグラフを作成しよう 「pandas」で読 …

【Python】SQLAlchemyを使ってみよう

前回「SQLAlchemy」について紹介したので、今回は実際に使ってみたいと思います。 SQLAlchmyを使ってみよう では「SQLAlchemy」を使っていきましょう。「SQLAlchemy」につ …

YouTube