こんにちは。
前回こちらでスクレイピングについてご紹介しました。
blog.n2i.jp
今回は、API化もできる無料のスクレイピングツールParsehubを紹介します。
簡単な使い方の流れを紹介します。
まずURLを指定してプロジェクトを作成すると、ブラウザが埋め込まれたような画面がでてきます。
そこで繰り返しの表の中で列として取得したいデータを含む要素をクリックします。
要素は緑色にハイライトされるはずです。
繰返しとして検知された部分が黄色になるので、そこをクリックすると無事その項目が繰り返しとして認識されます。
以上の操作を繰り返して表を作っていきます。
操作の中でこんな画面になってくるはずです。
完了したら左のペインのGetDataからRunへ進みます。
すると以下のような画面が表示されます。
この画面からCSVやJSONを取ることができますし、載っているキーを使ってAPIとして利用することもできます。
以下はAPIを使う例です。
curl -X GET "https://www.parsehub.com/api/v2/runs/{RUN_TOKEN}/data?api_key={API_KEY}&format={jsonかcsv}" | gunzip > data.json
------------------------------------------------------------------------
N2iでは、企業向け人工知能の受託開発や
人工知能を使ったビックデータ解析を行っています。
【ご相談・お問い合わせ】はこちら
-------------------------------------------------------------------------