セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。
【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング
これで色んなSNSに散在している情報を統合できないだろうか。
関連記事
為替レートの読み方 2WAYプライス表示
Mean Stack開発の最初の一歩
第2回Webスクレイピング勉強会の資料
IronPythonを使ってUnity上でPythonのコー...
WinSCP
UnityのMonoBehaviourクラスをシングルトン化...
Python for Unity:UnityEditorでP...
OpenCV 3.3.0-RCでsfmモジュールをビルド
書籍『ゼロから作るDeep Learning』で自分なりに学...
今年もSSII
iPhone・iPod touchで動作する知育ロボット『R...
Gource:バージョン管理の履歴を可視化するツール
スクラッチで既存のキャラクターを立体化したい
OpenCVでPhotoshopのプラグイン開発
ニューラルネットワークで画像分類
BlenderProc:Blenderで機械学習用の画像デー...
iOSデバイスと接続して連携するガジェットの開発方法
Python.NET:Pythonと.NETを連携させるパッ...
C++の抽象クラス
JavaScriptとかWebGLとかCanvasとか
Deep Fluids:流体シミュレーションをディープラーニ...
OpenCVのfindEssentialMat関数を使ったサ...
Kubric:機械学習用アノテーション付き動画生成パイプライ...
オープンソースの物理ベースGIレンダラ『appleseed』
bpy-renderer:レンダリング用Pythonパッケー...
HD画質の無駄遣い
UnityでTweenアニメーションを実装できる3種類の無料...
3分の動画でプログラミングを学習できるサイト『ドットインスト...
NeuralNetwork.NET:.NETで使えるTens...
Amazon Web ServicesでWordPress
Boost オープンソースライブラリ
Russian3DScannerのトポロジー転送ツール『Wr...
Geogram:C++の3D幾何アルゴリズムライブラリ
VCG Library:C++のポリゴン操作ライブラリ
Raspberry PiでIoTごっこ
Twitter APIのPythonラッパー『python-...
Amazon EC2ログイン用の秘密鍵を無くした場合の対処方...
FreeMoCap Project:オープンソースのマーカー...
タマムシっぽい質感
オープンソースの物理ベースレンダラ『Mitsuba』をMay...
OpenCV 3.1とopencv_contribモジュール...
MythTV:Linuxでテレビの視聴・録画ができるオープン...

コメント