Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。


スポンサーリンク

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。


スポンサーリンク

関連記事

Structure from Motion (多視点画像からの3次元形状復元)
OpenCVの三角測量関数『cv::triangulatepoints』
手を動かしながら学ぶデータマイニング
プログラミングスキルについて考える
Amazon Web ServicesでWordPress
Verilog HDL
Raspberry Pi 2のGPIOピン配置
続・ディープラーニングの資料
iPhone x ロボットハッカソン~RomoのiPhone用SDKで目覚ましアプリを作る~
PythonのHTML・XMLパーサー『BeautifulSoup』
AMIMOTO(PVM版)で作成したインスタンスをAMIMOTO (HVM版)へ移行する
ZScript
Python2とPython3
BlenderでPhotogrammetryできるアドオン
Unityからkonashiをコントロールする
ROSの薄い本
Russian3DScannerのトポロジー転送ツール『WrapX』
Pythonの自然言語処理ライブラリ『NLTK(Natural Language Toolkit)』
AnacondaとTensorFlowをインストールしてVisual Studio 2015で使う
プログラムによる景観の自動生成
オープンソースの取引プラットフォーム
機械学習手法『Random Forest』
タマムシっぽい質感
マルコフ連鎖モンテカルロ法
3Dグラフィックスの入門書
Raspberry Pi 2を買いました
Mask R-CNN:ディープラーニングによる一般物体検出・Instance Segmentatio...
Blenderの人体モデリングアドオン『MB-Lab』
Google App Engine上のWordPressでAmazonJSを利用する
Google App EngineでWordPress
機械学習に役立つPythonライブラリ一覧
Raspberry Pi
UnityのMonoBehaviourクラスをシングルトン化する
SONYの自律型エンタテインメントロボット『aibo』
PyDataTokyo主催のDeep Learning勉強会
ニューラルネットワークの構造を可視化するフレームワーク『TensorSpace.js』
Raspberry PiのGPIOを操作するPythonライブラリ『RPi.GPIO』の使い方
Web経由でRaspberry PiのGPIOを操作したい
PythonのStructure from Motionライブラリ『OpenSfM』
OpenCLに対応したオープンソースの物理ベースレンダラ『LuxRender(ルクスレンダー)』
OpenGVの用語
Unreal Engineの薄い本

コメント