Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

為替レートの読み方 2WAYプライス表示

Mean Stack開発の最初の一歩

第2回Webスクレイピング勉強会の資料

IronPythonを使ってUnity上でPythonのコー...

WinSCP

UnityのMonoBehaviourクラスをシングルトン化...

Python for Unity:UnityEditorでP...

OpenCV 3.3.0-RCでsfmモジュールをビルド

書籍『ゼロから作るDeep Learning』で自分なりに学...

今年もSSII

iPhone・iPod touchで動作する知育ロボット『R...

Gource:バージョン管理の履歴を可視化するツール

スクラッチで既存のキャラクターを立体化したい

OpenCVでPhotoshopのプラグイン開発

ニューラルネットワークで画像分類

BlenderProc:Blenderで機械学習用の画像デー...

iOSデバイスと接続して連携するガジェットの開発方法

Python.NET:Pythonと.NETを連携させるパッ...

C++の抽象クラス

JavaScriptとかWebGLとかCanvasとか

Deep Fluids:流体シミュレーションをディープラーニ...

OpenCVのfindEssentialMat関数を使ったサ...

Kubric:機械学習用アノテーション付き動画生成パイプライ...

オープンソースの物理ベースGIレンダラ『appleseed』

bpy-renderer:レンダリング用Pythonパッケー...

HD画質の無駄遣い

UnityでTweenアニメーションを実装できる3種類の無料...

3分の動画でプログラミングを学習できるサイト『ドットインスト...

NeuralNetwork.NET:.NETで使えるTens...

Amazon Web ServicesでWordPress

Boost オープンソースライブラリ

Russian3DScannerのトポロジー転送ツール『Wr...

Geogram:C++の3D幾何アルゴリズムライブラリ

VCG Library:C++のポリゴン操作ライブラリ

Raspberry PiでIoTごっこ

Twitter APIのPythonラッパー『python-...

Amazon EC2ログイン用の秘密鍵を無くした場合の対処方...

FreeMoCap Project:オープンソースのマーカー...

タマムシっぽい質感

オープンソースの物理ベースレンダラ『Mitsuba』をMay...

OpenCV 3.1とopencv_contribモジュール...

MythTV:Linuxでテレビの視聴・録画ができるオープン...

コメント