セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。
【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング
これで色んなSNSに散在している情報を統合できないだろうか。
関連記事
タマムシっぽい質感
Pythonの自然言語処理ライブラリ『NLTK(Natura...
Web経由でRaspberry PiのGPIOを操作したい
DCGAN (Deep Convolutional GAN)...
ROMOハッカソンに行ってきた
Raspberry Pi 2を買いました
書籍『ゼロから作るDeep Learning』で自分なりに学...
Verilog HDL
続・ディープラーニングの資料
Mitsuba 3:オープンソースの研究向けレンダラ
Rerun:マルチモーダルデータの可視化アプリとSDK
Raspberry Pi
OpenMVSのサンプルを動かしてみる
Unityで学ぶC#
Webサイトのワイヤーフレームが作成できるオンラインツール
OpenMesh:オープンソースの3Dメッシュデータライブラ...
サンプルコードにも間違いはある?
BGSLibrary:OpenCVベースの背景差分ライブラリ
クラスの基本
Unityの薄い本
GAN (Generative Adversarial Ne...
AndroidもopenGLも初心者さ (でもJavaは知っ...
OpenCVでiPhone6sのカメラをキャリブレーションす...
Cartographer:オープンソースのSLAMライブラリ
書籍『OpenCV 3 プログラミングブック』を購入
Google App Engine上のWordPressでF...
Polyscope:3Dデータ操作用GUIライブラリ
MPFB2:Blenderの人体モデリングアドオン
AfterEffectsプラグイン開発
チャットツール用bot開発フレームワーク『Hubot』
OpenCVで顔のランドマークを検出する『Facemark ...
TensorFlowでCGを微分できる『TensorFlow...
Unity ARKitプラグインサンプルのドキュメントを読む
Gource:バージョン管理の履歴を可視化するツール
R-CNN (Regions with CNN featur...
Geogram:C++の3D幾何アルゴリズムライブラリ
Live CV:インタラクティブにComputer Visi...
Amazon Web ServicesでWordPress
手を動かしながら学ぶデータマイニング
ZBrushで作った3Dモデルを立体視で確認できるVRアプリ...
C#で使える遺伝的アルゴリズムライブラリ『GeneticSh...
今年もSSII

コメント