Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

プログラミングスキルとは何か?

Runway ML:クリエイターのための機械学習ツール

動的なメモリの扱い

openMVG:複数視点画像から3次元形状を復元するライブラ...

UnityのTransformクラスについて調べてみた

geometry3Sharp:Unity C#で使えるポリゴ...

Unityからkonashiをコントロールする

3D復元技術の情報リンク集

Point Cloud Utils:Pythonで3D点群・...

libigl:軽量なジオメトリ処理ライブラリ

Raspberry PiのGPIOを操作するPythonライ...

手を動かしながら学ぶデータマイニング

openMVGをWindows10 Visual Studi...

WordPressの表示を高速化する

ブログのデザイン変えました

OpenGV:画像からカメラの3次元位置・姿勢を推定するライ...

PyDataTokyo主催のDeep Learning勉強会

Polyscope:3Dデータ操作用GUIライブラリ

OANDAのfxTrade API

Twitter APIのPythonラッパー『python-...

iPhone x ロボットハッカソン~RomoのiPhone...

網元AMIで作ったWordpressサイトのインスタンスをt...

定数

Webサイトのワイヤーフレームが作成できるオンラインツール

UnityでShaderの入力パラメータとして行列を渡す

WebGL開発に関する情報が充実してきている

MPFB2:Blenderの人体モデリングアドオン

OpenAR:OpenCVベースのマーカーARライブラリ

ZBrushで作った3Dモデルを立体視で確認できるVRアプリ...

Web経由でRaspberry PiのGPIOを操作したい

python-twitterで自分のお気に入りを取得する

WordPressプラグインによるサイトマップの自動生成

Deep Fluids:流体シミュレーションをディープラーニ...

科学技術計算向けスクリプト言語『Julia』

hloc:SuperGlueで精度を向上させたSfM・Vis...

Gource:バージョン管理の履歴を可視化するツール

このブログのデザインに飽きてきた

OpenCV 3.1のsfmモジュールのビルド再び

PythonのHTML・XMLパーサー『BeautifulS...

html5のcanvasの可能性

ArUco:OpenCVベースのコンパクトなARライブラリ

OpenCV

コメント