Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

Raspberry Pi 2のGPIOピン配置

Rerun:マルチモーダルデータの可視化アプリとSDK

WordPressの表示を高速化する

ブラウザ操作自動化ツール『Selenium』を試す

Boost オープンソースライブラリ

C#で使える遺伝的アルゴリズムライブラリ『GeneticSh...

geometry3Sharp:Unity C#で使えるポリゴ...

SDカードサイズのコンピューター『Intel Edison』

OpenCV

OpenCVで平均顔を作るチュートリアル

Iterator

Model View Controller

PyDataTokyo主催のDeep Learning勉強会

WordPress on Google App Engine...

Kaolin:3Dディープラーニング用のPyTorchライブ...

adskShaderSDK

Unity ARKitプラグインサンプルのドキュメントを読む

IronPythonを使ってUnity上でPythonのコー...

iPhone x ロボットハッカソン~RomoのiPhone...

サンプルコードにも間違いはある?

OpenCVのバージョン3が正式リリースされたぞ

ZBrushのZScript入門

オープンソースの物理ベースGIレンダラ『appleseed』

FCN (Fully Convolutional Netwo...

AnacondaとTensorFlowをインストールしてVi...

C++の抽象クラス

UnityのAR FoundationでARKit 3

OpenCV3.3.0でsfmモジュールのビルドに成功!

WordPressプラグインの作り方

Google App EngineでWordPress

ブログが1日ダウンしてました

3Dモデルを立体視で確認できるVRアプリを作っている

DCGAN (Deep Convolutional GAN)...

Pythonの自然言語処理ライブラリ『NLTK(Natura...

Quartus II

ManuelBastioniLAB:人体モデリングできるBl...

オープンソースのロボットアプリケーションフレームワーク『RO...

Pythonのソースコードに特化した検索エンジン『Nulle...

OpenCV バージョン4がリリースされた!

ROSでガンダムを動かす

マルコフ連鎖モンテカルロ法

PyTorch3D:3Dコンピュータービジョンライブラリ

コメント