Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

手を動かしながら学ぶデータマイニング

FCN (Fully Convolutional Netwo...

WinSCP

頭蓋骨からの顔復元と進化過程の可視化

KelpNet:C#で使える可読性重視のディープラーニングラ...

Live CV:インタラクティブにComputer Visi...

Boost オープンソースライブラリ

HerokuでMEAN stack

TensorSpace.js:ニューラルネットワークの構造を...

MythTV:Linuxでテレビの視聴・録画ができるオープン...

PGGAN:段階的に解像度を上げて学習を進めるGAN

html5のcanvasの可能性

OpenCV3.3.0でsfmモジュールのビルドに成功!

ブログの復旧が難航してた話

網元AMIで作ったWordpressサイトのインスタンスをt...

ポリゴンジオメトリ処理ライブラリ『pmp-library (...

Kornia:微分可能なコンピュータービジョンライブラリ

第1回 3D勉強会@関東『SLAMチュートリアル大会』

konashiのサンプルコードを動かしてみた

機械学習に役立つPythonライブラリ一覧

Open3D:3Dデータ処理ライブラリ

Raspberry PiでIoTごっこ

Google App Engine上のWordPressでF...

CGレンダラ研究開発のためのフレームワーク『Lightmet...

クラスの基本

GoB:ZBrushとBlenderを連携させるアドオン

WordPressのサーバ引っ越し方法を考える

UnityのTransformクラスについて調べてみた

pythonもかじってみようかと

書籍『OpenCV 3 プログラミングブック』を購入

pythonの機械学習ライブラリ『scikit-learn』

Super Resolution:OpenCVの超解像処理モ...

ManimML:機械学習の概念を視覚的に説明するためのライブ...

OpenMesh:オープンソースの3Dメッシュデータライブラ...

OpenSfM:PythonのStructure from ...

OpenCV 3.1のsfmモジュールのビルド再び

Google App Engineのデプロイ失敗

JavaScriptとかWebGLとかCanvasとか

Mask R-CNN:ディープラーニングによる一般物体検出・...

geometry3Sharp:Unity C#で使えるポリゴ...

機械学習手法『Random Forest』

OpenCV 3.3.0 contribのsfmモジュールの...

コメント