Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。


スポンサーリンク

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。


スポンサーリンク

関連記事

機械学習で遊ぶ
Faster R-CNN:ディープラーニングによる一般物体検出手法
フォトンの放射から格納までを可視化した動画
FreeMoCap Project:オープンソースのマーカーレスモーションキャプチャ
Webサイトのワイヤーフレームが作成できるオンラインツール
TensorSpace.js:ニューラルネットワークの構造を可視化するフレームワーク
UnrealCLR:Unreal Engineで.NET Coreを利用できるプラグイン
Boost オープンソースライブラリ
R-CNN (Regions with CNN features):ディープラーニングによる一般物体...
BGSLibrary:OpenCVベースの背景差分ライブラリ
WordPressの表示を高速化する
網元AMIで作ったWordpressサイトのインスタンスをt1microからt2microへ移行した
ブログの復旧が難航してた話
Structure from Motion (多視点画像からの3次元形状復元)
Iterator
AfterEffectsプラグイン開発
Raspberry PiのGPIOを操作するPythonライブラリ『RPi.GPIO』の使い方
COLMAP:オープンソースのSfM・MVSツール
ROMOハッカソンに行ってきた
3Dボリュームデータ処理ライブラリ『OpenVDB』
Model View Controller
ArUco:OpenCVベースのコンパクトなARライブラリ
WordPressプラグインによるサイトマップの自動生成
konashiのサンプルコードを動かしてみた
OpenGVの用語
OpenCVの三角測量関数『cv::triangulatepoints』
UnityプロジェクトをGitHubで管理する
C++の抽象クラス
書籍『仕事ではじめる機械学習』を読みました
人体モデリングできるBlenderアドオン『ManuelBastioniLAB』
OpenSfM:PythonのStructure from Motionライブラリ
pythonの機械学習ライブラリ『scikit-learn』
Deep Fluids:流体シミュレーションをディープラーニングで近似する
機械学習に役立つPythonライブラリ一覧
Pythonのベイズ統計ライブラリ『PyMC』
『手を動かしながら学ぶエンジニアのためのデータサイエンス』ハンズオンセミナーに行ってきた
OpenGVのライブラリ構成
Math.NET Numerics:Unityで使える数値計算ライブラリ
Super Resolution:OpenCVの超解像処理モジュール
UnityでOpenCVを使うには?
書籍『3次元コンピュータビジョン計算ハンドブック』を購入
組み込み向けのWindows OS 『Windows Embedded』

コメント