Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

UnityプロジェクトをGitHubで管理する

DCGAN (Deep Convolutional GAN):畳み込みニューラルネットワークによる敵...

Iterator

BlenderのPython環境にPyTorchをインストールする

ROSでガンダムを動かす

GoB:ZBrushとBlenderを連携させるアドオン

geometry3Sharp:Unity C#で使えるポリゴン操作ライブラリ

libigl:軽量なジオメトリ処理ライブラリ

Amazon Web ServicesでWordPress

OpenCV

書籍『3次元コンピュータビジョン計算ハンドブック』を購入

オープンソースの顔認識フレームワーク『OpenBR』

ディープラーニング

UnityのMonoBehaviourクラスをシングルトン化する

Kornia:微分可能なコンピュータービジョンライブラリ

動的なメモリの扱い

HD画質の無駄遣い

第2回Webスクレイピング勉強会の資料

MythTV:Linuxでテレビの視聴・録画ができるオープンソースプロジェクト

Google XML Sitemap Generatorプラグインを3.4.1へダウングレード

WordPress on Windows Azure

書籍『ゼロから作るDeep Learning』で自分なりに学ぶ

クラスの基本

ブラウザ操作自動化ツール『Selenium』を試す

Raspberry Pi 2を買いました

Unityで画面タッチ・ジェスチャ入力を扱う無料Asset『TouchScript』

Google製オープンソース機械学習ライブラリ『TensorFlow』のWindows版が公開された

ROMOハッカソンに行ってきた

書籍『OpenCV 3 プログラミングブック』を購入

AmazonEC2のインスタンスをt1.microからt2.microへ移行する

Seleniumを使ったFXや株の自動取引

OpenAR:OpenCVベースのマーカーARライブラリ

CGレンダラ研究開発のためのフレームワーク『Lightmetrica (ライトメトリカ)』

ManuelBastioniLAB:人体モデリングできるBlenderアドオン

trimesh:PythonでポリゴンMeshを扱うライブラリ

Mitsuba 2:オープンソースの物理ベースレンダラ

書籍『ROSプログラミング』

Unityからkonashiをコントロールする

OpenCVの顔検出過程を可視化した動画

Python拡張モジュールのWindows用インストーラー配布サイト

Webスクレイピングの勉強会に行ってきた

OpenCVのfindEssentialMat関数を使ったサンプルを読んでみる

コメント