Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

python-twitterで自分のお気に入りを取得する

OpenCV 3.1のsfmモジュールを試す

Unity Scriptコーディング→Unreal Engine Scriptコーディング

Super Resolution:OpenCVの超解像処理モジュール

OpenCVのfindEssentialMat関数を使ったサンプルを読んでみる

ドットインストールのWordPress入門レッスン

このブログのデザインに飽きてきた

組み込み向けのWindows OS 『Windows Embedded』

PythonでBlenderのAdd-on開発

Deep Learningとその他の機械学習手法の性能比較

ディープラーニング

UnityプロジェクトをGitHubで管理する

OpenCV3.3.0でsfmモジュールのビルドに成功!

openMVGをWindows10 Visual Studio 2015環境でビルドする

konashiのサンプルコードを動かしてみた

OpenMVS:Multi-View Stereoによる3次元復元ライブラリ

動的なメモリの扱い

SONY製のニューラルネットワークライブラリ『NNabla』

為替レートの読み方 2WAYプライス表示

C++の抽象クラス

Mitsuba 2:オープンソースの物理ベースレンダラ

Gource:バージョン管理の履歴を可視化するツール

Google App Engine上のWordPressでFlickrの画像を貼る

WordPress on Google App Engineを1週間運用してみて

続・ディープラーニングの資料

NumSharp:C#で使えるNumPyライクな数値計算ライブラリ

RSSフィードを読込んで表示するWordpressプラグイン『RSSImport』

VCG Library:C++のポリゴン操作ライブラリ

Unityで学ぶC#

Raspberry Pi 2のGPIOピン配置

OpenCV バージョン4がリリースされた!

WinSCP

科学技術計算向けスクリプト言語『Julia』

iPhoneアプリ開発 Xcode 5のお作法

Google App EngineでWordPress

WordPressのサーバ引っ越し方法を考える

仮想関数

Russian3DScannerのトポロジー転送ツール『WrapX』

機械学習手法『Random Forest』

Model View Controller

Kaolin:3Dディープラーニング用のPyTorchライブラリ

Twitter APIのPythonラッパー『python-twitter』

コメント