.wp-block-jetpack-rating-star span.screen-reader-text { border: 0; clip: rect(1px, 1px, 1px, 1px); clip-path: inset(50%); height: 1px; margin: -1px; overflow: hidden; padding: 0; position: absolute; width: 1px; word-wrap: normal; }

ブラウザ操作自動化ツール『Selenium』を試す

NegativeMind

7年前

だいぶ前にSeleniumの存在を知っておきながら、まともに試さず時間が経った。

Seleniumを使ったFXや株の自動取引

システムトレード系の情報です。↓FXや株の自動取引ツールの作り方基本的なアイデアとしては、「通常は人が手で行うブラウザの操作を、プログラムで実行する」というものです。人がたとえばFXの取引をするとき、ブラウザ上でまず取引業者のサイトに行き、...

Selenium WebDriverをPythonから叩けばスクレイピングもお手軽だよなぁ、と思い始めた。
Python環境でもpipで簡単にSeleniumをインストールできる。
ブラウザはChromeを使いたいので、別途ブラウザ用のWebDriverとしてChromeDriverもダウンロードした↓
https://sites.google.com/a/chromium.org/chromedriver/

PythonからWebDriverの実行ファイルを叩くような使い方をするらしい。
スクレイピングでSeleniumを使う1番のメリットは、ログインが必要なサイトや、JavaScriptの実行を求めるサイトでも普通のブラウザ操作としてコードが書ける点。複雑なWebの仕組みを抽象化するためにブラウザを間に噛ます感じ。(全部コーディングでやろうとして苦労したことがある…)
Seleniumでサイトのデータを粗く取得して、Beautiful Soupなどのライブラリで詳細にtextをパースしていけば良いんじゃないかな。
https://blog.negativemind.com/2014/06/15/python%E3%81%AE%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0%E3%83%A9%E3%82%A4%E3%83%96%E3%83%A9%E3%83%AA%E3%80%8Ebeautifulsoup%E3%80%8F/

始めるにあたって参考にしたのはこちら↓
http://nfnoface.hatenablog.com/entry/2017/03/08/212300
https://dev.classmethod.jp/tool/eclipse/windows-selenium-headless-chrome/

何で急にスクレイピングの勉強を再開したかと言うと、最近は機械学習を手軽に試せるライブラリが充実してきたのに、手元にあんまり面白いデータが無かったから。
そして、個人のPCで試せる程度の演算負荷と考えると、画像よりもtextデータの方が色々と試行しやすい気もしている。単位時間あたりに沢山試せた方が学びがあるんじゃないかな。

スクレイピングや言語処理にはそれほど詳しくないんだけど、幸い広く浅く紹介している書籍の存在を知った。↓

画像認識にニューラルネットワークを使う理屈は何となく知ってるけど、言語処理については全く知らないので勉強してみたくなった。

最近Qiitaによく使う正規表現のまとめ記事がアップされたので助かる。
https://qiita.com/dongri/items/2a0a18e253eb5bf9edba

ManuelBastioniLAB：人体モデリングできるBlenderアドオン

geometry3Sharp：Unity C#で使えるポリゴン操作ライブラリ

Unity MonoBehaviourクラスのオーバーライド関数が呼び出される順番

3分の動画でプログラミングを学習できるサイト『ドットインストール』

PythonでMayaのShapeノードプラグインを作る

Unityの各コンポーネント間でのやり取り

Python for Unity：UnityEditorでPythonを使えるパッケージ

Google Chromecast

Super Resolution：OpenCVの超解像処理モジュール

Python拡張モジュールのWindows用インストーラー配布サイト

Google XML Sitemap Generatorプラグインを3.4.1へダウングレード

ディープラーニング

UnityでARKit2.0

Kaolin：3Dディープラーニング用のPyTorchライブラリ

2D→3D復元技術で使われる用語まとめ

関連記事

ManuelBastioniLAB：人体モデリングできるBlenderアドオン

geometry3Sharp：Unity C#で使えるポリゴン操作ライブラリ

Unity MonoBehaviourクラスのオーバーライド関数が呼び出される順番

3分の動画でプログラミングを学習できるサイト『ドットインストール』

PythonでMayaのShapeノードプラグインを作る

Unityの各コンポーネント間でのやり取り

Python for Unity：UnityEditorでPythonを使えるパッケージ

Google Chromecast

Super Resolution：OpenCVの超解像処理モジュール

Python拡張モジュールのWindows用インストーラー配布サイト

Google XML Sitemap Generatorプラグインを3.4.1へダウングレード

ディープラーニング

UnityでARKit2.0

Kaolin：3Dディープラーニング用のPyTorchライブラリ

2D→3D復元技術で使われる用語まとめ

UnityのMonoBehaviourクラスをシングルトン化する

pythonもかじってみようかと

VCG Library：C++のポリゴン操作ライブラリ

OpenCVのバージョン3が正式リリースされたぞ

Python.NET：Pythonと.NETを連携させるパッケージ

OpenCVで顔のランドマークを検出する『Facemark API』

AndroidもopenGLも初心者さ (でもJavaは知ってるよ)

書籍『ゼロから作るDeep Learning』で自分なりに学ぶ

WordPress on Windows Azure

Windows10でPyTorchをインストールしてVSCodeで使う

Model View Controller

CGレンダラ研究開発のためのフレームワーク『Lightmetrica (ライトメトリカ)』

iPhone・iPod touchで動作する知育ロボット『ROMO』

Unityの薄い本

Polyscope：3Dデータ操作用GUIライブラリ

Unityからkonashiをコントロールする

Rerun：マルチモーダルデータの可視化アプリとSDK

OpenGVのライブラリ構成

Alice Vision：オープンソースのPhotogrammetryフレームワーク

WordPressプラグインの作り方

HerokuでMEAN stack

『手を動かしながら学ぶエンジニアのためのデータサイエンス』ハンズオンセミナーに行ってきた

viser：Pythonで使える3D可視化ライブラリ

Blender 2.8がついに正式リリース！

ZBrushで作った3Dモデルを立体視で確認できるVRアプリを作る

Google App EngineでWordPress

Raspberry PiのGPIOを操作するPythonライブラリ『RPi.GPIO』の使い方