Mechanizeで要認証Webサイトをスクレイピング

セッションを要求してくるWebサイトのデータの取得にはMechanizeというモジュールが使えるらしい。
Mechanizeは、Webブラウザを擬似的にエミュレートしてくれるモジュール。もともとはPerlで登場して、その後RubyやPythonに移植されたらしい。
普通にWebサイトのHTMLを落とすだけだったら、urllib2モジュールを使えばいいけど、認証が必要なサイトの場合は無理。
Mechanizeならセッションの保存などを自動的やってくれて、要認証のサイトのスクレイピングができるらしい。

【Python】mechanizeでWEBスクレイピング【BeautifulSoup】
BeautifulSoup、Mechanizeでおいしくデータをすする — PythonによるWebスクレイピング
Python で 画像スクレイピング

これで色んなSNSに散在している情報を統合できないだろうか。

関連記事

手を動かしながら学ぶデータマイニング

PythonでMayaのShapeノードプラグインを作る

UnityからROSを利用できる『ROS#』

Managing Software Requirements: A Unified Approach

フォトンの放射から格納までを可視化した動画

Unreal Engineの薄い本

機械学習手法『Random Forest』

動的なメモリの扱い

hloc:SuperGlueで精度を向上させたSfM・Visual Localization

AMIMOTO(PVM版)で作成したインスタンスをAMIMOTO (HVM版)へ移行する

WordPressのサーバ引っ越し方法を考える

python-twitterで自分のお気に入りを取得する

Theia:オープンソースのStructure from Motionライブラリ

PythonでBlenderのAdd-on開発

konashiのサンプルコードを動かしてみた

Webサイトのワイヤーフレームが作成できるオンラインツール

『手を動かしながら学ぶエンジニアのためのデータサイエンス』ハンズオンセミナーに行ってきた

Caffe:読みやすくて高速なディープラーニングのフレームワーク

OpenGVのライブラリ構成

書籍『仕事ではじめる機械学習』を読みました

Structure from Motion (多視点画像からの3次元形状復元)

3Dグラフィックスの入門書

iOSデバイスのためのフィジカル・コンピューティングツールキット『konashi(こなし)』

ブログをGoogle App EngineからAmazon EC2へ移行

ZBrushのZScript入門

Raspberry Pi 2のGPIOピン配置

ZScript

Google XML Sitemap Generatorプラグインを3.4.1へダウングレード

書籍『ゼロから作るDeep Learning』で自分なりに学ぶ

科学技術計算向けスクリプト言語『Julia』

Mask R-CNN:ディープラーニングによる一般物体検出・Instance Segmentatio...

FCN (Fully Convolutional Network):ディープラーニングによるSema...

OpenVDB:3Dボリュームデータ処理ライブラリ

OpenSfM:PythonのStructure from Motionライブラリ

Kubric:機械学習用アノテーション付き動画生成パイプライン

ArUco:OpenCVベースのコンパクトなARライブラリ

続・ディープラーニングの資料

Alice Vision:オープンソースのPhotogrammetryフレームワーク

Google製オープンソース機械学習ライブラリ『TensorFlow』のWindows版が公開された

スクレイピング

UnityプロジェクトをGitHubで管理する

Webスクレイピングの勉強会に行ってきた

コメント