スクレイピング

PaaSを触り始めてから1番やってみたかったことと言えば、Webサイトのスクレイピング。
別に攻撃するつもりじゃ無くて、マッシュアップしたWeb上の情報を上手く可視化すれば、色んな考察が得られるんじゃないかと期待しているから。
そう思ったきっかけはKakeibonっていう無料で使える自動ネット家計簿を知ったから。(以前はOCN家計簿って名前だった)
このサイトは、銀行口座やクレジットカード、ECサイトなどの情報を引っ張ってきて収支をグラフにまとめてくれる。
銀行もクレジットカードも、それぞれのポータルサイトはAPIなんて公開していないので、おそらくスクレイピングで実現している。
既存の情報を上手く使うだけで色んなことが見えてくるんだなぁ、と感心した。

ということで、しばらくスクレイピングについて調べていたのである。ちょっと調べてみると、フロントでもサーバサイドでもできるし、色んな言語で実装できるので、どこから手を付けたらいいのかちょっと悩むレベルで選択肢が豊富。やるとしたらサーバサイドだけど、サーバサイドはどの言語が1番組み合わせやすいかちょっと自分の知見が足りてない。

こういうのは結構需要があるみたいで、スクレイピングするコードの共有や、スクレイピングしたデータをAPI化するサイトもあるみたい。


スポンサーリンク

ScraperWiki

ScraperWikiはイギリスのスタートアップ企業で、スクレイパーコードを共有するサイトを提供しています。
開発者達はサイト上から直接コード(Ruby, PHP, Python)を編集、実行することができます。スクレイプを定期的に実行することも可能で、取得されたデータはScraperWikiに保存されますが、ScraperWikiはAPIを用意しているので、このAPIを通して、他のサイトでデータを再利用することが可能です。
「Wiki」といっているだけあって、一般公開されているコードは他の人も編集したり、またコードをコピーして他のスクレイピングに利用することもできます。定期的に実>行されているスクレイパーがエラーを起こしていないかをチェックする仕組みがあり「みんなでスクレイピングを管理」するための仕組みがいたるところにあります。
ScraperWikiは、もともとイギリスで、どの議員がどの法案に賛成または反対票を投じたかを議会のサイトから創業者の一人が2003年頃にスクレイプしたことを起源に持ちます。

スクレイピングするなら ScraperWiki 使うといいよ

kimono
指定したウェブサイトをスクレイピングしてAPI化してくれるサービス「kimono」

さて、地道に勉強するか。


スポンサーリンク

関連記事

OpenCVのための軽量GUIライブラリ『cvui』
Seleniumを使ったFXや株の自動取引
組み込み向けのWindows OS 『Windows Embedded』
機械学習手法『Random Forest』
Amazon EC2ログイン用の秘密鍵を無くした場合の対処方法
OpenCVの顔検出過程を可視化した動画
科学技術計算向けスクリプト言語『Julia』
UnityのTransformクラスについて調べてみた
OpenCVで動画の手振れ補正
軽量なジオメトリ処理ライブラリ『libigl』
Google App Engine上のWordPressでFlickrの画像を貼る
Quartus II
Verilog HDL
html5のcanvasの可能性
OpenCVベースのコンパクトなARライブラリ『ArUco』
人体モデリングできるBlenderアドオン『ManuelBastioniLAB』
konashiのサンプルコードを動かしてみた
今年もSSII
Deep Learningとその他の機械学習手法の性能比較
機械学習で遊ぶ
WinSCP
動的なメモリの扱い
ブログのデザイン変えました
Unityからkonashiをコントロールする
Pythonのソースコードに特化した検索エンジン『Nullege』
書籍『ゼロから作るDeep Learning』で自分なりに学ぶ
タマムシっぽい質感
UnityからROSを利用できる『ROS#』
ドットインストールのWordPress入門レッスン
OpenCV 3.1のsfmモジュールを試す
OpenCV 3.3.0 contribのsfmモジュールのサンプルを動かしてみる
Pythonの自然言語処理ライブラリ『NLTK(Natural Language Toolkit)』
Google App EngineでWordPress
Webサイトのワイヤーフレームが作成できるオンラインツール
PyDataTokyo主催のDeep Learning勉強会
adskShaderSDK
OpenCVの三角測量関数『cv::triangulatepoints』
『手を動かしながら学ぶエンジニアのためのデータサイエンス』ハンズオンセミナーに行ってきた
ブログをGoogle App EngineからAmazon EC2へ移行
OpenMVSのサンプルを動かしてみる
Mask R-CNN:ディープラーニングによる一般物体検出・Instance Segmentatio...
OpenCVでカメラ画像から自己位置認識 (Visual Odometry)

コメント