ImportHTML関数の使い方・スクレイピング例【スプレッドシート】

スプレッドシートの使い方

Googleスプレッドシートでスクレイピング(情報自動収集)をするときに使う「ImportHTML関数」。

このページでは、ImportHTML関数の基本的な使い方と、使い方の例を解説図つきで紹介していきます。

ImportHTML関数の基本的な使い方

ImportHTML関数は、スクレイピングしたいURLを指定し、そのページの中での「<ul></ul>または<ol></ol>で囲われているリスト」か「<table></table>で囲われている表データ」を取得します。ページ内には複数のリストと表があるので、何番目のリストと表なのかも指定します。

=ImportHTML("URL", "アイテムの種類", 番号)
URL(テキスト) スクレイピングしたいページのURL
アイテムの種類(テキスト) 「list」または「table」を指定します。
ImportHTMLで取得できるのは、リストか表だけです。
番号(数値) HTML上何番目のlist/tableか

ImportHTML関数で【リスト(list)】を取得する

importhtml関数で目次のリストを取得

ImportHTML関数でリストを取得する方法を、Wikipediaの仮想通貨解説ページの目次を取得する例で紹介します。

完成後のImportHTML関数

完成後のImportHTML関数とその結果は下記のようになります。

importhtml関数でwikiの目次を取得

ステップ1:URLを指定

今回はA1のセルにURL、B1にImportHTML関数を入れてスクレイピングします。

A1に入力したURL:https://ja.wikipedia.org/wiki/%E4%BB%AE%E6%83%B3%E9%80%9A%E8%B2%A8

ImportHTML関数の「URL」には、A1を指定します。

=ImportHTML(A1, , )

ステップ2:アイテムの種類を指定

目次はHTML上、リスト<ul></ul>で表現されているので、「アイテムの種類」にはリストを指定する「list」を入力します。

=ImportHTML(A1,"list", )

ステップ3:番号を指定

目次はHTML上で上から2番目のリストなので、「番号」に「2」を入力します。

=ImportHTML(A1,"list",2)

ImportHTML関数で【表】を取得する

表を取得

ImportHTML関数で表を取得する方法を、CoinGeckoのビットコイン情報を取得する例で紹介します。

完成後のImportHTML関数

完成後のImportHTML関数とその結果は下記のようになります。

importhtml関数で表をスクレイピング

ステップ1:URLを指定

今回はA1のセルにURL、B1にImportHTML関数を入れてスクレイピングします。

A1に入力したURL:https://www.coingecko.com/ja/相場チャート/ビットコイン/jpy

ImportHTML関数の「URL」には、A1を指定します。

=ImportHTML(A1, , )

ステップ2;アイテムの種類を指定

目次はHTML上、表<table></table>で表現されているので、「アイテムの種類」にはリストを指定する「table」を入力します。

=ImportHTML(A1,"table", )

ステップ3:番号を指定

目次はHTML上で上から2番目のリストなので、「番号」に「2」を入力します。

=ImportHTML(A1,"table",1)
[su_note note_color="#00BFFF" text_color="#ffffff"] 人気の記事

icon-check-circle Google検索の変遷から見えてくる「Googleがキュレーション化する日」
[/su_note]
タイトルとURLをコピーしました