セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。
【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング
これで色んなSNSに散在している情報を統合できないだろうか。
関連記事
プログラミングスキルとは何か?
Runway ML:クリエイターのための機械学習ツール
動的なメモリの扱い
openMVG:複数視点画像から3次元形状を復元するライブラ...
UnityのTransformクラスについて調べてみた
geometry3Sharp:Unity C#で使えるポリゴ...
Unityからkonashiをコントロールする
3D復元技術の情報リンク集
Point Cloud Utils:Pythonで3D点群・...
libigl:軽量なジオメトリ処理ライブラリ
Raspberry PiのGPIOを操作するPythonライ...
手を動かしながら学ぶデータマイニング
openMVGをWindows10 Visual Studi...
WordPressの表示を高速化する
ブログのデザイン変えました
OpenGV:画像からカメラの3次元位置・姿勢を推定するライ...
PyDataTokyo主催のDeep Learning勉強会
Polyscope:3Dデータ操作用GUIライブラリ
OANDAのfxTrade API
Twitter APIのPythonラッパー『python-...
iPhone x ロボットハッカソン~RomoのiPhone...
網元AMIで作ったWordpressサイトのインスタンスをt...
定数
Webサイトのワイヤーフレームが作成できるオンラインツール
UnityでShaderの入力パラメータとして行列を渡す
WebGL開発に関する情報が充実してきている
MPFB2:Blenderの人体モデリングアドオン
OpenAR:OpenCVベースのマーカーARライブラリ
ZBrushで作った3Dモデルを立体視で確認できるVRアプリ...
Web経由でRaspberry PiのGPIOを操作したい
python-twitterで自分のお気に入りを取得する
WordPressプラグインによるサイトマップの自動生成
Deep Fluids:流体シミュレーションをディープラーニ...
科学技術計算向けスクリプト言語『Julia』
hloc:SuperGlueで精度を向上させたSfM・Vis...
Gource:バージョン管理の履歴を可視化するツール
このブログのデザインに飽きてきた
OpenCV 3.1のsfmモジュールのビルド再び
PythonのHTML・XMLパーサー『BeautifulS...
html5のcanvasの可能性
ArUco:OpenCVベースのコンパクトなARライブラリ
OpenCV
コメント