Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

SONY製のニューラルネットワークライブラリ『NNabla』

PythonでMayaのShapeノードプラグインを作る

R-CNN (Regions with CNN featur...

Theia:オープンソースのStructure from M...

pythonもかじってみようかと

AmazonEC2のインスタンスをt1.microからt2....

Boost オープンソースライブラリ

Google App Engineのデプロイ失敗

OpenCVの顔検出過程を可視化した動画

OpenCVでカメラ画像から自己位置認識 (Visual O...

Unityで強化学習できる『Unity ML-Agents』

konashiのサンプルコードを動かしてみた

MVStudio:オープンソースのPhotogrammetr...

Composition Rendering:Blenderに...

Deep Fluids:流体シミュレーションをディープラーニ...

WordPressのサーバ引っ越し方法を考える

続・ディープラーニングの資料

UnityでTweenアニメーションを実装できる3種類の無料...

ドットインストールのWordPress入門レッスン

ManuelBastioniLAB:人体モデリングできるBl...

Kubric:機械学習用アノテーション付き動画生成パイプライ...

UnityのGameObjectの向きをScriptで制御す...

Seleniumを使ったFXや株の自動取引

Pylearn2:ディープラーニングに対応したPythonの...

Python.NET:Pythonと.NETを連携させるパッ...

プログラムによる景観の自動生成

OpenCVのfindEssentialMat関数を使ったサ...

NeuralNetwork.NET:.NETで使えるTens...

Manim:Pythonで使える数学アニメーションライブラリ

C++ 標準テンプレートライブラリ (STL)

Dlib:C++の機械学習ライブラリ

Russian3DScannerのトポロジー転送ツール『Wr...

OpenCVのバージョン3が正式リリースされたぞ

ポリゴンジオメトリ処理ライブラリ『pmp-library (...

AnacondaとTensorFlowをインストールしてVi...

Mean Stack開発の最初の一歩

HerokuでMEAN stack

Faster R-CNN:ディープラーニングによる一般物体検...

クラスの基本

TensorFlowでCGを微分できる『TensorFlow...

3D復元技術の情報リンク集

ブログをGoogle App EngineからAmazon ...

コメント