Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

機械学習に役立つPythonライブラリ一覧

konashiのサンプルコードを動かしてみた

PythonのHTML・XMLパーサー『BeautifulS...

Polyscope:3Dデータ操作用GUIライブラリ

C++始めようと思うんだ

Unity ARKitプラグインサンプルのドキュメントを読む

Alice Vision:オープンソースのPhotogram...

trimesh:PythonでポリゴンMeshを扱うライブラ...

Super Resolution:OpenCVの超解像処理モ...

Unityの各コンポーネント間でのやり取り

Pylearn2:ディープラーニングに対応したPythonの...

頭蓋骨からの顔復元と進化過程の可視化

まだ続くブログの不調

MB-Lab:Blenderの人体モデリングアドオン

ZBrushのZScript入門

OpenCVで平均顔を作るチュートリアル

定数

NeuralNetwork.NET:.NETで使えるTens...

3分の動画でプログラミングを学習できるサイト『ドットインスト...

WordPressの表示を高速化する

UnityのTransformクラスについて調べてみた

オープンソースの人体モデリングツール『MakeHuman』の...

ROSでガンダムを動かす

OpenVDB:3Dボリュームデータ処理ライブラリ

VCG Library:C++のポリゴン操作ライブラリ

Math.NET Numerics:Unityで使える数値計...

手を動かしながら学ぶデータマイニング

PyTorch3D:3Dコンピュータービジョンライブラリ

OpenCVのバージョン3が正式リリースされたぞ

ディープラーニング

AfterEffectsプラグイン開発

GoB:ZBrushとBlenderを連携させるアドオン

Gource:バージョン管理の履歴を可視化するツール

WordPress on Windows Azure

Javaで作られたオープンソースの3DCGレンダラ『Sunf...

PGGAN:段階的に解像度を上げて学習を進めるGAN

Seleniumを使ったFXや株の自動取引

adskShaderSDK

サンプルコードにも間違いはある?

COLMAP:オープンソースのSfM・MVSツール

Python.NET:Pythonと.NETを連携させるパッ...

TorchStudio:PyTorchのための統合開発環境と...

コメント