Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

WordPress on Windows Azure

オープンソースの人体モデリングツール『MakeHuman』の...

pythonの機械学習ライブラリ『scikit-learn』

Human Generator:Blenderの人体生成アド...

オープンソースの物理ベースレンダラ『Mitsuba』をMay...

OpenCV 3.1から追加されたSfMモジュール

OpenGVのライブラリ構成

WordPressのサーバ引っ越し方法を考える

Blendify:コンピュータービジョン向けBlenderラ...

手を動かしながら学ぶデータマイニング

python-twitterで自分のお気に入りを取得する

3D復元技術の情報リンク集

OpenCVでカメラ画像から自己位置認識 (Visual O...

Mitsuba 2:オープンソースの物理ベースレンダラ

GoB:ZBrushとBlenderを連携させるアドオン

Boost オープンソースライブラリ

WordPressプラグインによるサイトマップの自動生成

openMVG:複数視点画像から3次元形状を復元するライブラ...

R-CNN (Regions with CNN featur...

iOSで使えるJetpac社の物体認識SDK『DeepBel...

PGGAN:段階的に解像度を上げて学習を進めるGAN

書籍『仕事ではじめる機械学習』を読みました

Composition Rendering:Blenderに...

Unity ARKitプラグインサンプルのチュートリアルを読...

3Dグラフィックスの入門書

Unityで学ぶC#

AmazonEC2のインスタンスをt1.microからt2....

OpenGV:画像からカメラの3次元位置・姿勢を推定するライ...

Mask R-CNN:ディープラーニングによる一般物体検出・...

Mayaのプラグイン開発

GAN (Generative Adversarial Ne...

RSSフィードを読込んで表示するWordpressプラグイン...

Windows10でPyTorchをインストールしてVSCo...

ディープラーニング

UnityからROSを利用できる『ROS#』

UnityプロジェクトをGitHubで管理する

OpenCV 3.1のsfmモジュールを試す

網元AMIで作ったWordpressサイトのインスタンスをt...

C++の抽象クラス

UnityのTransformクラスについて調べてみた

MVStudio:オープンソースのPhotogrammetr...

BGSLibrary:OpenCVベースの背景差分ライブラリ

コメント