Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

タマムシっぽい質感

Pythonの自然言語処理ライブラリ『NLTK(Natura...

Web経由でRaspberry PiのGPIOを操作したい

DCGAN (Deep Convolutional GAN)...

ROMOハッカソンに行ってきた

Raspberry Pi 2を買いました

書籍『ゼロから作るDeep Learning』で自分なりに学...

Verilog HDL

続・ディープラーニングの資料

Mitsuba 3:オープンソースの研究向けレンダラ

Rerun:マルチモーダルデータの可視化アプリとSDK

Raspberry Pi

OpenMVSのサンプルを動かしてみる

Unityで学ぶC#

Webサイトのワイヤーフレームが作成できるオンラインツール

OpenMesh:オープンソースの3Dメッシュデータライブラ...

サンプルコードにも間違いはある?

BGSLibrary:OpenCVベースの背景差分ライブラリ

クラスの基本

Unityの薄い本

GAN (Generative Adversarial Ne...

AndroidもopenGLも初心者さ (でもJavaは知っ...

OpenCVでiPhone6sのカメラをキャリブレーションす...

Cartographer:オープンソースのSLAMライブラリ

書籍『OpenCV 3 プログラミングブック』を購入

Google App Engine上のWordPressでF...

Polyscope:3Dデータ操作用GUIライブラリ

MPFB2:Blenderの人体モデリングアドオン

AfterEffectsプラグイン開発

チャットツール用bot開発フレームワーク『Hubot』

OpenCVで顔のランドマークを検出する『Facemark ...

TensorFlowでCGを微分できる『TensorFlow...

Unity ARKitプラグインサンプルのドキュメントを読む

Gource:バージョン管理の履歴を可視化するツール

R-CNN (Regions with CNN featur...

Geogram:C++の3D幾何アルゴリズムライブラリ

Live CV:インタラクティブにComputer Visi...

Amazon Web ServicesでWordPress

手を動かしながら学ぶデータマイニング

ZBrushで作った3Dモデルを立体視で確認できるVRアプリ...

C#で使える遺伝的アルゴリズムライブラリ『GeneticSh...

今年もSSII

コメント