Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

WordPress on Windows Azure

Blendify:コンピュータービジョン向けBlenderラッパー

OpenFace:Deep Neural Networkによる顔の個人識別フレームワーク

C++ 標準テンプレートライブラリ (STL)

TorchStudio:PyTorchのための統合開発環境とエコシステム

NumSharp:C#で使えるNumPyライクな数値計算ライブラリ

konashiのサンプルコードを動かしてみた

Mean Stack開発の最初の一歩

3Dモデルを立体視で確認できるVRアプリを作っている

RSSフィードを読込んで表示するWordpressプラグイン『RSSImport』

OpenGVのライブラリ構成

WordPressプラグインの作り方

libigl:軽量なジオメトリ処理ライブラリ

Google Chromecast

iPhoneアプリ開発 Xcode 5のお作法

このブログのデザインに飽きてきた

定数

書籍『OpenCV 3 プログラミングブック』を購入

Pythonの自然言語処理ライブラリ『NLTK(Natural Language Toolkit)』

Accord.NET Framework:C#で使える機械学習ライブラリ

WebGL開発に関する情報が充実してきている

AfterEffectsプラグイン開発

WordPressのサーバ引っ越し方法を考える

書籍『ROSプログラミング』

C++の抽象クラス

Deep Fluids:流体シミュレーションをディープラーニングで近似する

AmazonEC2のインスタンスをt1.microからt2.microへ移行する

OpenMVSのサンプルを動かしてみる

Verilog HDL

BlenderProc:Blenderで機械学習用の画像データを生成するPythonツール

TensorSpace.js:ニューラルネットワークの構造を可視化するフレームワーク

Faster R-CNN:ディープラーニングによる一般物体検出手法

仮想関数

機械学習手法『Random Forest』

組み込み向けのWindows OS 『Windows Embedded』

マルコフ連鎖モンテカルロ法

Russian3DScannerのトポロジー転送ツール『WrapX』

Unity MonoBehaviourクラスのオーバーライド関数が呼び出される順番

UnityのGameObjectの向きをScriptで制御する

Unity ARKitプラグインサンプルのドキュメントを読む

Unreal Engineの薄い本

プログラムによる景観の自動生成

コメント