スプレッドシートの使い方

【スプレッドシート】ImportXML関数の使い方・スクレイピング例6つ

Webスクレイピングを行いたいと考えたときに、スプレッドシートのImportXML関数が役に立ちます。

このページでは、ImportXML関数の使い方と使用例、またよくあるエラーの原因と対処法について解説していきます。

ImportXML関数の基本的な使い方

URL スクレイピングしたいサイトのURL
XPath HTMLの特定箇所を指定する文

XPath関数の更新頻度は2時間ごとです。要するに、2時間ごとに指定したURLページの情報を取得しにいく、という意味です。

XPathとは

XPathが何かを具体例で理解しましょう。

例えば上記のようなHTMLがあった場合に、タイトルの箇所を指定すると、次のようなXPathになります。

1行目、2行目とも同じくタイトルを指定しているXPathです。「//」によってパスを省略できます。

XPathはこのように、複雑なHTMLの中の特定の個所を指定することに役立ちます。よりXPathを勉強したい方はこちらを参考にしてみてください。

ページ:XPATHの記法まとめ

使い方例:サイトタイトルの取得

先ほど紹介したタイトル個所を指定するXPathとImportXML関数を使用してこの記事のタイトルを取得してみます。

※サイトのHTML構造によっては、上記で取得できない可能性もあります。

importxmlでタイトルを取得

Importxmlの使用例

例1:Tableを取得

今回はビットコインの現在の日本円価格をCoinGeckoというサイトから、ImportXML関数を使ってスクレイピングしてみます。

importxmlでビットコイン価格をスクレイピング

ビットコイン情報のtableの中にある、ビットコイン価格のXPathは「//tr[1]/td/span[@class=’currency-exchangeable’]」になるので、ImportXML関数を使用すると次のようにスクレイピングできます。

ビットコインをスクレイピングするimportxml関数

例2:サジェストを取得

そもそも「サジェスト」とは、Googleの検索窓に単語を入れたときに出てくる関連ワードです。サジェストはよく一緒に検索されているワードを出力しています。

サジェストとは

サジェストを出力するためには、実際に特定の単語を検索したときのサジェストページを指定し、そのXML内のサジェストデータをXPath指定します。具体的には次のようにImportXML関数を使用すると、サジェストを取得できます。

importxmlでサジェストを取得

例3:検索結果を取得

Googleの検索結果1ページ目のサイトも、ImportXML関数でスクレイピングすることができます。

importxmlでGoogle検索結果を取得

例4:amazonのタイトルを取得

A1にamazonの商品ページのURLを入力すると、次のImportXML関数で、Amazonページのタイトルを取得できます。

スクリーンショット 2018-06-30 19.37.03

例5:Twitterのフォロワー数取得

ImportXML関数を使って、Twitterのフォロワー数を自動的に取得しています。

importxml関数でtwitterフォロワー数取得

例6:インスタグラムのアカウント情報を取得

ImportXML関数を使って、インスタグラムのアカウント情報を取得すると次のようになります。フォロワー数や投稿数がテキストとして羅列されてしまうので、置換する関数などを用いて、上手に取り出しましょう。

importxml関数でインスタのアカウント情報を取得


次の記事も読むと、未来のユーザーニーズが見えてきます

icon-check-circle Google検索の変遷から見えてくる「Googleがキュレーション化する日」
あなたの課題はなんですか?
【SEO】順位が上がらない。アクセスが集まらない。
SEOで重要なことは、ユーザーが求めている体験は何かを、感覚ではなく理論で落とし込み、どのページでも上位表示を狙える体制をつくることです。順位が上がらない、アクセスが増えないことでお悩みの方はお悩みの方は、立ち上げから1,500万PVにまで成長させた私のSEO経験がお役に立てるかもしれません。お気軽にご相談ください。
【アフィリエイト】成果が発生しない。リンクをクリックされない。
アフィリエイトで重要なことは、「何を伝えるか」ではなく「どういう気持にさせるか」「何を伝えないか」です。アフィリエイトの成果を加速させたい方は加速させたい方は、4年間積んだアフィリエイト経験が役に立つかもしれません。お気軽にご連絡ください。
【サービス登録率】登録まで行かない。登録率が改善しない。
登録率改善で重要なことは、ユーザーの思考回路を順を追って仮説として1つずつ検証していくことです。1%→3%に登録率を改善させた経験をノウハウ化して共有いたします。
【広告運用】CPAが下がらない。毎回数値がブレる。
広告運用で重要なことは、「これが刺さるだろう」と再現性の無い施策をうつのではなく、頻繁にクリエイティブを変更しても、同じ効果が維持できる検証をし続けることです。転職広告のCPA20,000円→8,000円にした経験で、お役に立てることがあるかもしれません。気軽にご連絡ください。
Twitterをフォロー 30分相談 コンサル相談 匿名質問
(2018年3月12日現在、1件コンサルの空きがあります)