Googleスプレッドシートでスクレイピング(情報自動収集)をするときに使う「ImportHTML関数」。
このページでは、ImportHTML関数の基本的な使い方と、使い方の例を解説図つきで紹介していきます。
ImportHTML関数の基本的な使い方
ImportHTML関数は、スクレイピングしたいURLを指定し、そのページの中での「<ul></ul>または<ol></ol>で囲われているリスト」か「<table></table>で囲われている表データ」を取得します。ページ内には複数のリストと表があるので、何番目のリストと表なのかも指定します。
=ImportHTML("URL", "アイテムの種類", 番号)
URL(テキスト) | スクレイピングしたいページのURL |
アイテムの種類(テキスト) | 「list」または「table」を指定します。 ImportHTMLで取得できるのは、リストか表だけです。 |
番号(数値) | HTML上何番目のlist/tableか |
ImportHTML関数で【リスト(list)】を取得する
ImportHTML関数でリストを取得する方法を、Wikipediaの仮想通貨解説ページの目次を取得する例で紹介します。
完成後のImportHTML関数
完成後のImportHTML関数とその結果は下記のようになります。
ステップ1:URLを指定
今回はA1のセルにURL、B1にImportHTML関数を入れてスクレイピングします。
A1に入力したURL:https://ja.wikipedia.org/wiki/%E4%BB%AE%E6%83%B3%E9%80%9A%E8%B2%A8
ImportHTML関数の「URL」には、A1を指定します。
=ImportHTML(A1, , )
ステップ2:アイテムの種類を指定
目次はHTML上、リスト<ul></ul>で表現されているので、「アイテムの種類」にはリストを指定する「list」を入力します。
=ImportHTML(A1,"list", )
ステップ3:番号を指定
目次はHTML上で上から2番目のリストなので、「番号」に「2」を入力します。
=ImportHTML(A1,"list",2)
ImportHTML関数で【表】を取得する
ImportHTML関数で表を取得する方法を、CoinGeckoのビットコイン情報を取得する例で紹介します。
完成後のImportHTML関数
完成後のImportHTML関数とその結果は下記のようになります。
ステップ1:URLを指定
今回はA1のセルにURL、B1にImportHTML関数を入れてスクレイピングします。
A1に入力したURL:https://www.coingecko.com/ja/相場チャート/ビットコイン/jpy
ImportHTML関数の「URL」には、A1を指定します。
=ImportHTML(A1, , )
ステップ2;アイテムの種類を指定
目次はHTML上、表<table></table>で表現されているので、「アイテムの種類」にはリストを指定する「table」を入力します。
=ImportHTML(A1,"table", )
ステップ3:番号を指定
目次はHTML上で上から2番目のリストなので、「番号」に「2」を入力します。
=ImportHTML(A1,"table",1)
Google検索の変遷から見えてくる「Googleがキュレーション化する日」
[/su_note]