ツールの補助で効率的に研究論文を読む

久しぶりに1つの研究論文を精読してみた。



ブログにディープラーニング関連の手法まとめ記事を投稿するのは3年ぶりか。

自分の疑問に答えるように、自分の理解の穴を埋めるように改めて関連分野も調べて図に起こしていたらだいぶ手間がかかってしまった。
3Dコンピュータビジョンは概念を3次元的に図示できるので直感的に理解しやすいはずだが、作図に手間がかかるのか論文にはちゃんとした概念図があまり載っておらず、過去のCG分野の論文の引用で説明が済まされている範囲が多く感じた。
精読することで、参考図書に載っていた概要説明に一部誤りがあることにも気づけた。

自分の理解度の確認には、やはり自分なりに記事にまとめたり、図に起こしたり、再現実装するのが効く。
再現実装については、今時の機械学習系手法全般がリッチな演算リソースを前提としているので手元の環境で試しづらいのがネック。

自分にとって研究論文を読む目的、辿り着いた今のやり方をメモがてら整理しておく。


スポンサーリンク

研究論文を読む目的

オイラにとって研究論文を読むのは単なる趣味なので、あまり時間と労力を割けない。自分で論文を執筆することもないので、リファレンスを漏れなく収集・比較する必要もない。

続々と発表される最新の論文全てに目を通し、最新動向をいち早くキャッチする。なんて無理なので、その辺は他人による要約・情報発信に頼っている。
そういう点で、X(旧Twitter)で最新研究の概要を発信し続けているAKさんの投稿はかなり重宝している。

だが、他人に要約してもらった情報ばかり摂取していても、そこから得た知識は思考の軸や材料として不十分な気がして、浅瀬でチャプチャプしているだけのような気分。それは昨今のAIサービスを利用して情報を要約してもらうのも同様。

「探す」ベースとなる速読・要約

速読や要約は、目当ての情報を「探す」効率を上げるためのもので、そこから得られるのは地図(分野の見取り図)のような感覚。クロールして検索インデックスをアップデートするようなものだろうか。これは他人と協力したり、AIの補助によって効率化しやすい。cvpaper.challengeによるメタサーベイも役立つ。

日頃から分野の見取り図やボキャブラリーをアップデートしておくと、調べものがスムーズなのは仕事を通じて得た知見。



速読でもあまり量を読めないオイラは、地図のアップデートをほとんど他人に任せていると言える。
ここ数年で速読を補助するツールはかなり増えたが、常識のアップデートの側面が強いのでやはり他人に頼った方が変に偏らなくて済む。

自分で論文を執筆する人達は、自分の研究に関連するリファレンスを漏れなく集める必要があるので、「探す」を他人任せにできないだろう。

ところで、AIに論文を要約させたがる人は多いけど、論文のフォーマット的にほぼ必ず冒頭に著者による要約(Abstract)が記載されている。Abstractよりも具体的で、全文読むよりは抽象的な粒度を求めているのだろうか。


スポンサーリンク

思考のベース知識を得る精読

オイラが趣味で使える時間的に、時間を割いて精読できるのはランドマーク論文ぐらい。
速読や要約で分野の見取り図を得られたら、その分野の中ですでに注目されランドマークとなっている論文を精読して知識のベースを得る。

ここで言うランドマークとは、後の多くの論文に引用され後続研究が多数発表された論文のこと。
以前は論文が発表されてからランドマークとなるまでに2〜3年のタイムラグがあったのだが、最近は1年半ぐらいで何がランドマークだったかハッキリ分かるぐらいに派生研究が爆発的に増える印象。
発表からタイムラグがあるので後追いにはなってしまうが、ランドマークについて詳しく知っていれば、新しく発表される論文の良し悪しが要約からでもなんとなく判別できるようにはなる。

自分がやりたいことに近い研究がすでに存在するか探す場合など、何か目的がある場合には速読・要約で探して狙いを定めから精読する。

最近の精読方法

最近個人的にやっている精読方法を書いておく。

昔から長らく、紙に印刷したものに赤ペンでメモを書き込みしながら読んでいた。その後iPadでPDFにメモを追記する方法も試したが、現在はPCでMicrosoft Wordを使う方法に落ち着いている。
ちゃんと理解するには結局他の色んな資料を参照しながら読み進める必要があるので、iPadよりも、同時に色々な資料も開いて参照しやすいPCがベストに感じる。

Wordで勉強ノートを作る

精読は「読む」というより自分なりの勉強ノートを作る感覚だ。

論文PDFをWord(.docx)形式に変換し、日本語訳やメモを追記しながら読んでいく。Word標準の機能でPDFをWordファイル化できるし、英文を日本語翻訳する機能もある。(クラウド側の機能を利用する)



英文を全部いっぺんに機械翻訳にかけると専門用語が変に訳されて文脈が消失してしまうが、Wordには選択範囲だけの翻訳を表示する機能があるので、辞書を引きながら読むよりも手軽に対訳が得られる。



その他、論文投稿のページ数制限の都合で説明と図や付録が離れてレイアウトされている場合は、自分でレイアウトし直して意味を凝集させた「勉強ノート」にしている。

Word化して勉強ノートを作る方法の唯一の難点は、PDF論文中の数式が上手くWord形式へ変換できずに崩れがちなこと。だが、最近は数式の変換に強いMathpixというサービスがあるので、いっそ課金してしまおうかと思っている。

論文を読むための補助サービス

昨今、論文を読むのを補助するサービスが登場色々しているが、やはり「探す」のを補助するツール・サービスが多いようだ。

知は膨大だから、それらに効率よくアクセスして整理・比較するにはツールの補助が不可欠だ。ツールの補助で知識に触れる頻度を増やせば、結果としてツール無しでもこなせるスキルが身につきそうな気もする。
論文執筆の補助、特に英語で論文を書く際の補助ツールとかもあるんだろうか。

1つ精読すると、自分が深く理解している知識との差分で説明してくれるAIサービスが欲しいと感じるようになった。自分が蓄えた知識を手掛かりに新しい知識を受け取れれば学びは速い。


スポンサーリンク

関連記事

GeoGebra:無料で使える数学アプリ
DensePose:画像中の人物表面のUV座標を推定する
Pix2Pix:CGANによる画像変換
U-Net:ディープラーニングによるSemantic Segmentation手法
SegNet:ディープラーニングによるSemantic Segmentation手法
Mask R-CNN:ディープラーニングによる一般物体検出・Instance Segmentatio...
シフトカーの改造
豆腐みたいな付箋
日米の働き方をコミカルに比較した動画
Faster R-CNN:ディープラーニングによる一般物体検出手法
素敵なパーティクル
機械学習のオープンソースソフトウェアフォーラム『mloss(machine learning ope...
画像生成AI Stable Diffusionで遊ぶ
TensorSpace.js:ニューラルネットワークの構造を可視化するフレームワーク
MeshLab:3Dオブジェクトの確認・変換に便利なフリーウェア
iPadをハンディ3Dスキャナにするガジェット『iSense 3D Scanner』
Physics Forests:機械学習で流体シミュレーションを近似する
『ヒカリ展』に行ってきた
日立のフルパララックス立体ディスプレイ
カメラ付きの空飛ぶリストバンドで自撮りする発明(ウェアラブル・ドローン)
Profilograph
MLDemos:機械学習について理解するための可視化ツール
バーガーキングのCM
第2回Webスクレイピング勉強会の資料
機械学習での「回帰」とは?
無料のSEOツールPythagoras(ピタゴラス)
WordPressで数式を扱う
Multi-View Environment:複数画像から3次元形状を再構築するライブラリ
甲虫の色とか
ドットインストールのWordPress入門レッスン
無償版G Suiteの使用を継続する
機械学習手法『Random Forest』
深海魚
CycleGAN:ドメイン関係を学習した画像変換
ミニ四駆を赤外線制御したりUnityと連携したり
カッコ良過ぎるデスクトップパソコン
DTCP-IP対応のDLNAクライアントアプリ『Media Link Player for DTV』
「うぶんちゅ!」
Amazon Video Direct:自作の映像をAmazonで配信
立体映像プレイヤー『Stereoscopic Player』
CLO:服飾デザインツール
ヒトデの骨格のような構造物を作成するシステム『KINEMATICS』

コメント