ブラウザ操作自動化ツール『Selenium』を試す

だいぶ前にSeleniumの存在を知っておきながら、まともに試さず時間が経った。



Selenium WebDriverをPythonから叩けばスクレイピングもお手軽だよなぁ、と思い始めた。
Python環境でもpipで簡単にSeleniumをインストールできる。
ブラウザはChromeを使いたいので、別途ブラウザ用のWebDriverとしてChromeDriverもダウンロードした↓
https://sites.google.com/a/chromium.org/chromedriver/

PythonからWebDriverの実行ファイルを叩くような使い方をするらしい。
スクレイピングでSeleniumを使う1番のメリットは、ログインが必要なサイトや、JavaScriptの実行を求めるサイトでも普通のブラウザ操作としてコードが書ける点。複雑なWebの仕組みを抽象化するためにブラウザを間に噛ます感じ。(全部コーディングでやろうとして苦労したことがある…)
Seleniumでサイトのデータを粗く取得して、Beautiful Soupなどのライブラリで詳細にtextをパースしていけば良いんじゃないかな。
PythonのHTML・XMLパーサー『BeautifulSoup』
パーサーなんだけど、まあ、スクレイピングに使いますよね。BeautifulSoupBeautiful Soupはpythonで動作するHTMLとXMLのパーサーです。Beautiful Soupはパースしたツリーの操作、検索、変更を...



スポンサーリンク


始めるにあたって参考にしたのはこちら↓
http://nfnoface.hatenablog.com/entry/2017/03/08/212300
https://dev.classmethod.jp/tool/eclipse/windows-selenium-headless-chrome/

何で急にスクレイピングの勉強を再開したかと言うと、最近は機械学習を手軽に試せるライブラリが充実してきたのに、手元にあんまり面白いデータが無かったから。
そして、個人のPCで試せる程度の演算負荷と考えると、画像よりもtextデータの方が色々と試行しやすい気もしている。単位時間あたりに沢山試せた方が学びがあるんじゃないかな。

スクレイピングや言語処理にはそれほど詳しくないんだけど、幸い広く浅く紹介している書籍の存在を知った。↓

Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう

画像認識にニューラルネットワークを使う理屈は何となく知ってるけど、言語処理については全く知らないので勉強してみたくなった。

最近Qiitaによく使う正規表現のまとめ記事がアップされたので助かる。
https://qiita.com/dongri/items/2a0a18e253eb5bf9edba


スポンサーリンク

関連記事

WordPressプラグインの作り方
Unityで強化学習できる『Unity ML-Agents』
定数
openMVGをWindows10 Visual Studio 2015環境でビルドする
Mean Stack開発の最初の一歩
OpenCVのfindEssentialMat関数を使ったサンプルを読んでみる
Unityで画面タッチ・ジェスチャ入力を扱う無料Asset『TouchScript』
OpenCVベースのマーカーARライブラリ『OpenAR』
Unityで使える数値計算ライブラリ『Math.NET Numerics』
複数画像から3次元形状を再構築するライブラリ『Multi-View Environment』
今年もSSII
PythonのHTML・XMLパーサー『BeautifulSoup』
WordPress on Google App Engineを1週間運用してみて
Raspberry PiでIoTごっこ
オープンソースのStructure from Motionライブラリ『Theia』
手を動かしながら学ぶデータマイニング
動的なメモリの扱い
html5のcanvasの可能性
クリエイターのための機械学習ツール『Runway ML』
3Dディープラーニング用のPyTorchライブラリ『Kaolin』
オープンソースの顔認識フレームワーク『OpenBR』
Google XML Sitemap Generatorプラグインを3.4.1へダウングレード
ROSの薄い本
ディープラーニングに対応したPythonの機械学習ライブラリ『Pylearn2』
3Dデータ処理ライブラリ『Open3D』
Blender 2.8がついに正式リリース!
Google App Engine上のWordPressでFlickrの画像を貼る
Mask R-CNN:ディープラーニングによる一般物体検出・Instance Segmentatio...
機械学習に役立つPythonライブラリ一覧
UnityでShaderの入力パラメータとして行列を渡す
ZScript
Mechanizeで要認証Webサイトをスクレイピング
Raspberry Pi 2のGPIOピン配置
iPhoneアプリ開発 Xcode 5のお作法
pythonの機械学習ライブラリ『scikit-learn』
iOSデバイスと接続して連携するガジェットの開発方法
MythTV:Linuxでテレビの視聴・録画ができるオープンソースプロジェクト
OpenCV 3.3.0 contribのsfmモジュールのサンプルを動かしてみる
UnityプロジェクトをGitHubで管理する
WordPressの表示を高速化する
Structure from Motion (多視点画像からの3次元形状復元)
書籍『ゼロから作るDeep Learning』で自分なりに学ぶ

コメント