Stimulator

機械学習とか好きな技術話とかエンジニア的な話とかを書く

Google Cloud Visionを登録しよう

- はじめに -

Google Cloud Visionがすごい。とにかくすごい。
クレジットカードが無いと利用出来ないのはちょっとネックだけど。
でも今なら$300分を無料で使えるし、機械学習データ作る用にでも是非。


- APIキー発行まで -

Google Cloud PlatformのコンソールにGoogleアカウントでログインする。

https://console.cloud.google.com/home/dashboard

初回にクレジットカード情報を登録しろと通知が来た場合は、素直に登録する。

先述の通りクレジットカードを登録して課金を有効にしないとGoogle Cloud Visionは使えない。無料枠はあれど、課金を有効にしないとダメ。
なので実質クレカ必須。

通知が出なかった場合は、課金を有効にするため以下をクリック。
f:id:vaaaaaanquish:20160808124313p:plain

Google Cloud Platform の無料試用、利用規約に同意して続行。
個人情報とクレジットカード情報を入力して続行。
f:id:vaaaaaanquish:20160808124904p:plain
割りと丁寧にこんな通知が出る。


Google Cloud Platformはプロジェクト単位で管理ができる。
最初に新しいプロジェクトを作成する。
上部ヘッダー、左上から「プロジェクト」>「プロジェクトの作成」をクリック。
f:id:vaaaaaanquish:20160808125407p:plain


名前を入力しろとダイアログが出るので、自分の管理しやすい適当な名前を入力して「作成」。
右上の通知マークがくるくる回っている間は作成中なので待つ。
大体3分くらいで作成される。カップ麺と同じ。
f:id:vaaaaaanquish:20160808125730p:plain


できたら今度は左上のプロジェクトが変わる。もしくはクリックして変える。
基本はここにプロジェクト名が出てるので、自分の作成した設定なんか違うな~と思ったらまずプロジェクト名を見る。
f:id:vaaaaaanquish:20160808125933p:plain


プロジェクト名を確認しつつ、「APIを利用する」をクリック。
f:id:vaaaaaanquish:20160808134024p:plain


API Managerなるページに飛ばされるので、「+ APIを有効にする」をクリック。
f:id:vaaaaaanquish:20160808134302p:plain


色んなAPIの名前が出てくるけど、Google Cloud Visionは多分見当たらないと思うので検索ボックスに「Google Cloud Vision」と入力する。出てきたらGoogle Cloud Visionをクリック。
f:id:vaaaaaanquish:20160808134724p:plain


こんな感じの画面に飛べば正解。
まずはじめに「▶有効にする」をクリック。
f:id:vaaaaaanquish:20160808140632p:plain


こうなると思うので「認証情報に進む」
左側の認証情報からでも設定できるっちゃできる。
f:id:vaaaaaanquish:20160808135413p:plain


次の記事でPythonからAPIキーを叩いて画像認識をしたいと思うので、とりあえずブラウザキーを発行する。
「ウェブブラウザ(JavaScript)」こ表記はなかなか不親切だがこれでOK。
他の形式で欲しい人は他で。
f:id:vaaaaaanquish:20160808135849p:plain


次にAPIにつける名前を適当に考えて入力する。
HTTPリファラは、個人で使う分には必要なし。会社で使うならそのドメインを入力した方が良さ。
APIキーを作成する」。
f:id:vaaaaaanquish:20160808140104p:plain


そしたらもうAPIキーが出てくるのでおしまい。「完了」
f:id:vaaaaaanquish:20160808140241p:plain


最後に出るAPIキーをコピペしておいても良いし、画面左の認証情報からいつでも参照できる。


- おわりに -

次はPythonを使ってAPIを叩く。
いざ画像処理へ。

次の記事では、Pythonによる顔検出(Face Detection)とその知見と料金体系辺りを書いています。

OpenCVとdlibとOpenFaceでの顔検出と知見まとめ

- はじめに -

色々あって顔検出をする機会があった。世の中、顔認識(Face Recognition,Facial Recognition)と顔検出(face detection)がごっちゃになってるじゃねえかと思いつつ、とにかく画像から人の顔を高精度で出したいんじゃという話。

先に結論を言うと、OpenCVよりはdlibの方がやっぱり精度良くて、OpenFaceも使って動かしたんだけどそんな変わらないし、でもまあ先はあるよって話。
OpenFaceで顔検出と言っても、実際にはdlib(もしくはOpenCV)の顔検出とTorch7のCNNを接続するフレームワークのようなもので何でこれが話題になった時期があったのかという感じがある。

環境はUbuntu 14.04を想定。

- インストールして動かすかれこれ -

まずは必要な物をインストールする。

厳しい環境に身を置いているので、最初WindowsOpenCVとdlibを動かした。Windowsでもインストーラとpipが使えれば出来るので奇跡的に出来た。時代は変わった。
OpenFaceはLinux, Unix環境しか対応してないとの事だったので、仕方なく仮想環境を作りインストールした。

環境は Ubuntu 16.04 LTS
必要なものは以下の通り

- python (Ubuntu デフォルトで可)
- python pip
- numpy
- scipy

- torch7 (機械学習, Deep Learningライブラリ)

- opencv
 - 必要な周辺ライブラリ沢山
 - cmake

- dlib
 - boost
 - boost-python
 - scikit-image

- openface

多い。OpenFaceの公式Setupには「Docker用意したから使ってくれよな」とあったけど、「"tested in Ubuntu 14.04 and OSX 10.10"」とも書いてあるし、OpenCVは先月3.x系が出てるしでダメそうだったので全部手動で入れた。インストール前にこの辺を読んで遺産感があるのに気付くべきだった。


- インストール作業 -

pythonUbuntuデフォルトで充分。一応バージョンを確認するけど大抵2.7系だと思う。

python -V

一応定番apt-getのアップデートをしておく

sudo apt-get update
sudo apt-get upgrade

パッケージ管理はやっぱりeasy_installとpip

sudo apt-get install python-setuptools
sudo apt-get install python-pip

pipを入れたらまずはこの三種の神器

pip install numpy
sudo apt-get install liblapack-dev libatlas-base-dev gfortran g++
pip install scipy
pip install matplotlib

先にOpenCVから導入。思い思いのディレクトリで。

wget http://downloads.sourceforge.net/project/opencvlibrary/opencv-unix/3.0.0/opencv-3.0.0.zip
sudo apt-get install unzip
unzip opencv-3.0.0.zip

必要な周辺ライブラリを全載せ

sudo apt-get install build-essential libgtk2.0-dev libjpeg-dev libtiff5-dev libjasper-dev libopenexr-dev cmake python-dev python-numpy python-tk libtbb-dev libeigen3-dev yasm libfaac-dev libopencore-amrnb-dev libopencore-amrwb-dev libtheora-dev libvorbis-dev libxvidcore-dev libx264-dev libqt4-dev libqt4-opengl-dev sphinx-common texlive-latex-extra libv4l-dev libdc1394-22-dev libavcodec-dev libavformat-dev libswscale-dev default-jdk ant libvtk5-qt4-dev

libtiffはUbuntu 14.04辺りからlibtiff5推奨になったらしいlibtiff4-devはエラーが出た。

cmakeを準備しつつコンパイル

sudo apt-get install cmake
cd opencv-3.0.0
cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local -D WITH_TBB=ON -D BUILD_NEW_PYTHON_SUPPORT=ON -D WITH_V4L=ON -D WITH_FFMPEG=OFF -D BUILD_opencv_python2=ON .
make -j1
sudo make install

make -jの後は自分のコア数を入れる。
Linuxだと一番簡単なコマンドは多分 nproc と打つ事。
今回は仮想環境なので1。

python用の設定はopencvのlib内にあるcv2.soというファイルをsite-packages以下に入れるだけ。GUIでやってもOK。

cp ~/ path to opencv /opencv-3.0.0/lib/cv2.so /usr/local/lib/python2.7/site-packages/

Linux系だとcv2用にリンクを貼っておく必要がある。
でないと" libdc1394 error: Failed to initialize libdc1394 "といったErrorが出る、

sudo ln /dev/null /dev/raw1394

python起動してimportできるか確認しておく

python
>>> import cv2
>>> cv2.__version__
'3.0.0'
>>> exit()

次はdlib。
dlibは前提としてgitが要るので先にそちらを準備しておく。

sudo apt-get install git

加えて前提として必要なskimageとライブラリ

sudo pip install cython
sudo pip install scikit-image

確かdlibはpipで入れれば下記作業不要だけど、結局OpenFaceを入れる前にTorch7が必要で、その前提としてboostが必要みたいな感じで入れた気がする(曖昧)。
多分pipで入れても" Could NOT find Boost "なるエラーが出ると思うのでやったら吉。

sudo apt-get install python-dev python-numpy
sudo apt-get install libboost-dev
sudo apt-get install libboost-python-dev
sudo apt-get install libboost-system-dev

boost.numpyのインストールは他に作業が必要だけど今回は無用
一応やりたい人向け参考URL(http://ttlg.hateblo.jp/entry/2015/12/17/124747

多分これでdlibは入る(Windowsもboostインストーラとpipが動くのでここまではできる)

sudo pip install dlib

python起動してimportできるか確認しておく

python
>>> import dlib
>>> dlib.__version__
'18.17.100'
>>> exit()

次にTorch7を入れる。

git clone https://github.com/torch/distro.git ~/torch --recursive
cd ~/torch
sudo dpkg --configure -a
bash install-deps
./install.sh

インストールの文字が最後に
Do you want to automatically prepend the Torch install location to PATH and LD_LIBRARY_PATH
と聞いてくるので yes と入力するると .bashrcにexportが追記される。
一応 source ~/.bashrc するかbashを再起動しておく。

witch thでpathが出て来ればOK。出てこない場合はPathを設定する。
~/.bashrcを開いて

export PATH=~/torch/bin:$PATH;
export LD_LIBRARY_PATH=~/torch/lib:$LD_LIBRARY_PATH;

を追記する。

Torchにはluaのパッケージが幾つか用意されていて、今回のサンプルを動かすのに必要な物があるのでインストールしておく。

luarocks install nn
luarocks install dpnn
luacocks install optim
luarocks install csvigo

lualocks installでインストール推奨とされているのは以下があるけど、ディープラーニングのトレーニングやCUDAを使う場合のみなのでインストールしてない。
必要そうだと判断したらインストール
cutorch and cunn (only with CUDA)
fblualib (only for training a DNN)
tds (only for training a DNN)
torchx (only for training a DNN)
optnet (optional, only for training a DNN)

上のやつを全乗せしたい時

for NAME in dpnn nn optim optnet csvigo cutorch cunn fblualib torchx tds; do luarocks install $NAME; done

Torch7で使うluarocksだと、無難に以下をインストールしておくと良い。

luarocks install image
luarocks install nngraph

やっとOpenFace

git clone https://github.com/cmusatyalab/openface ~/openface --recursive
cd ~/openface
sudo python setup.py install

無事通れば終わり


- サンプルを動かす -

サンプルとして提示されてるのは以下のcompare.py
https://github.com/cmusatyalab/openface/blob/master/demos/compare.py

まず前提としてdlibの顔検出用のlandmarks.datファイルを用意する
自前で用意しなくても、modelsディレクトリにスクリプトが入っているので基本はそれで。

cd ~/openface/models
./get-models.sh

~/openface/の中に好きなsample.jpgとsample2.jpgを突っ込んで

python demos/compare.py ./sample.jpg ./sample2.jpg --verbose

って感じで入力して実行。--verboseでは動作詳細を見れる。

サンプルは「顔の場所を検出してcropして学習済みネットワークで特徴量化しそのベクトルのL2距離を比較する」というもの。
本家は「"OpenCV or dlib"」と言っているが、この推奨サンプルではcv2の画像読み込みでロードして顔検出精度が高いdlibで顔検出しているので「dlibもOpenCVも結局どっちも要るじゃねえか!」となる。

なんかそれっぽい数値が出たら終わり
正直もっと良いサンプルあるやろと思う。


- 感想 -

OpenFaceだけど、Deep Netなら他の便利なフレームワークがある印象が強い。dlibやOpenCVと簡易的に接続できると言っても、最近は他が簡易的になったし。
APIOpenFace API Documentation — OpenFace API Docs 0.1.1 documentation)を見てもそんな便利な機能があるわけではない。

Deep LearningライブラリとdlibやOpenCVが個別で扱える事のメリットの方が大きいかなと思った次第。

Torch7で顔の分類や回帰を行っている。その学習済ネットワークがある、または入手できる。といった状況以外ではあまり使わなそう。
海外だとTorch7結構流行ってるのかなと思ったところで終わり。正直chainerやkerasが良いと思うよ正直。

記事を書くなら精度検証しろよとも思うけど、やっぱ所感でdlibが良い程度しか言う事がない。
dlibはHoG+SVMを使っているらしく、OpenCVはHaar-Like+Adaboostを使った物体検出系のカスケードらしい。
どちらもデフォルトだとSliding Windowやってるみたいで、dlibの方はSelective Searchとかも使えるけど顔検出だと微妙なのではと思う。
dlibの方が精度が良いのは目視した感じ確かだけど、Window走査の時間設定のパラメータ(upsample_num_times)を最小の0以外にすると処理時間が長く、2以上だと+メモリが必要だった。適当な仮想環境では落ちる程度に重かった。あと2以上にしてもそんな大胆に精度改善が見込める訳ではない。
OpenCVの方が遥かに軽いし、OpenCVでググってると「ここに乗ってるAdaboostを使った検出器はクソ早いし最高なんだ!Viola & Johnsが作ったスゲーやつなんだ!」と書いてあったりする。OpenCVはデフォルトのカスケードファイルがいくつかあって、顔だけじゃなく、目や耳用があったりする(全て実験してる人の記事:OpenCV 使用可能なCascadeClassifierの種類と効果 - Symfoware)。その辺は有効活用できそう。追加での学習もできるっぽい。

顔認識本当にやるならOpenCVとdlibを組み合わせてある程度データを作り、ちゃんと特徴量と学習器作ったりDeep Netにぶち込むのが良いんじゃないかと思った。

もう少しdlib使ってみたら日本語の記事増やしたいので書くかも。後はGoogle Cloud APIの顔認識も気になってはいる。

あと、「顔検出」とかでググるとオタクがとりあえずアニメ画像認識やってみたって感じのブログが山のように出てくるので日本語でググるよりは英語を乗り越えて公式のドキュメント理解に努めたほうが良いかも。

Active Object Localization with Deep Reinforcementを作っている

- はじめに -


この記事はDeep Learning Advent Calendar 2015の24日目の記事です.


Deep Q-Network(DQN)がNIPSで発表されてから*1はや2年.

DQNは, 深層強化学習として一分野を確立し, 機械学習分野自体の活発さ, Deep Learningの話題性も相まって, 怒涛の勢いで新しい研究成果が発表されています.*2

この記事では, DQNを物体認識タスクに応用したActive Object Localization with Deep Reinforcement Learning[ PDF ]について解説, 実装を行っていこうと思います.*3

(12/24現在まだ思うように実装が出来てませんすいません)

 

- 背景 -

そもそも物体認識タスクとは, 画像から特定の物体を検出するタスクの事を指します.

例えば, 私が昨年kazoo04 Advent Calendarで行ったものがそれですね.
この時の記事では, 画像の中からkazoo04という特定の物体(人物)を検出しています.

この記事で私は, kazoo04かどうか分類する学習器にかける前に, 様々な大きさの窓をスライドし, その枠内を入力としています(sliding window, Exhaustive Search).
この手法は, かなり以前から物体認識タスクで多く用いられていましたが, 元の画像サイズや窓を移動させる幅によって, かなりの計算時間がかかってしまう問題がありました.

またConvolutional Neural Networks(CNN)という画像認識に強いDeep Learningの手法が流行し, 学習器の性能が格段に向上しました.
過去のブログの記事にもしていますが, それまでSHIFTやHOGのような特徴量抽出を挟む事で実現していた認識処理を学習器1つで行えるようになりました.

こうのように機械学習による画像認識の精度が高まって行く中で, Exhaustive Searchで計算時間を使っていてはリアルタイム認識なんかは無理だよねという流れが出てきました. また, sliding windowのスケールの違いによって入力も違うため, 誤認識が発生するという問題もありました.

そこで, Exhaustive Searchのスケールによる誤認識を減らすための画像処理手法や計算量を減らす手法*4, 物体検出に対して効率的な手法*5が出てきたり, CNN以外でもsliding windowの欠点を補うようなRandom Forest的手法*6が出てきたりしました.


そして, 次の大きな成果としてR-CNNというモデルが現れました. R-CNN*7はGirshickらが2014年に提案した手法で, 先に物体が入る窓を推定*8し, その窓(window, bounding box)を入力としています.

CNN部分では, その入力を分類する学習に加えて, そのbox自体を矩形回帰するように学習させる事で, 物体の場所検出とその分類を同時に行う事ができるようになります.
分類と回帰を同じ学習器でも行うという点でも, CNN, ニューラルネットワークの強みを活かした手法です.

R-CNNは当初, ネットワークの大きさ等から認識に時間がかかるという問題がありましたが, Fast R-CNN*9のような改良手法が提案され, 今回用いてるPascal VOC(http://host.robots.ox.ac.uk/pascal/VOC/)というデータセットにおいてもかなりの結果を出しています.

近年では上記のようなCNNで抽出した特徴量をRNNにつなげることで, センテンス表現の学習を行う手法(Image Captioning*10 )等も発表されています.


今回のDQNを用いた手法は, 今までの趣向とは少し異なっており, トップダウンな探索によって物体の位置を検出するアルゴリズムになっています.
f:id:vaaaaaanquish:20151225005241p:plain

最初に画像の大きな領域を入力とし, 動的にその入力領域を変化させていきます. 動的な探索において強化学習(Q-learning)な技術が使われています.
また, マルコフ決定過程(MDP)に基づいた動的探索ステップを複数回行う事によって, その回数だけ複数の物体を検出する事も可能にしています.

 

- Q-learningな部分 -

一般的なQ学習の要領を用います. 以下に行動と報酬を示します.

  • 行動

行動は8つのActionと終端条件(trigger)に分かれています.
Actionは, 入力範囲の上下左右の移動と拡大縮小です.
f:id:vaaaaaanquish:20151225000420p:plain

また, 全てのActionは以下の2式によって制御することができます.

{
\alpha_{w}=\alpha * (x_{2}-x_{1})
}
{
\alpha_{h}=\alpha * (y_{2}-y_{1})
}

{\alpha}は幅を制御するパラメータで, 論文中では{\alpha=0.2}として固定の値を用いています.
{\alpha}が大きければ探索が雑になり, 小さければ時間がかかるという事が感覚的にもわかると思います.

また, Triggerは1つの探索終了を示します.
inhibition-of-return(IoR)*11を参考に, 探索が終了した時点で, box内に十字のマークを挿入します. これは, 次の探索で同じ領域がゴールになることを防ぐためです.
f:id:vaaaaaanquish:20151225000813p:plain
報酬の定義を基に複数回繰り返す事で, 複数の物体を認識する事を可能にしています.

  • 報酬

報酬関数にはIoU(Intersection-over-Union)を用います. IoUは, boxである{b}(box)に対して, 目的となる領域{g}(ground truth box)がどれだけ含まれているかとなります.

{IoU(b,g)=area(b \cap g)/area(b \cup g)}

IoUを用いて, 状態{s}において行動{a}を行って状態{s^{'}}に遷移する時の報酬関数{R}は, 以下のように定義されます.

{R_{a}(s,s^{'})=sign(IoU(b^{'},g)-IoU(b,g)) }

ある状態のIoUから次の状態へのIoUの差ですね.
またこの値は正負がbinaryで制御されます.

{\\
R_{\omega}(s,s^{'}) = \cases{
\eta & if IoU(b,g)\(\leq \tau\) \cr
\\-\eta & otherwise \cr
}
}

しきい値{\tau}を超えていれば{+\eta}, 無ければ{\\-\eta}の報酬という形です.
論文中では{\eta=3.0, \tau=0.6}に設定されています. {\eta, \tau}は経験則によるものが大きく, {\tau}はデカすぎるとなかなか達成できないので0.6という感じみたいです.

  • 学習手法

学習では, パラメータを初期化した後, 目標となる{g}に対して率直に+-で進むよう行動を選択していきます.複数目的があった場合は, 内1つがランダムに選択されます.

しかし, すべて貪欲に動いていれは汎化性能が上がらないため, 全てのtraining画像に対して学習を終えた後, ε-greedy法を用いた学習を行い探索します.

論文中では, ε-greedyなTrainingを15epoch分回しますが, 最初の5epochで{ε}を1~0.1に線形に下がるよう設定しているようです.

また, boxのスタート地点は4隅から, 全体の75%のサイズで始めます.

 

- CNNな部分 -

CNNのネットワーク構成は, 以下のようになっています.
f:id:vaaaaaanquish:20151225001924p:plain

実際にQ-learningを適応しているのは後ろ3層のみです.
これについては論文中でも言及されており, 前層のpre-trainingによって学習収束速度が向上すること, 全体を学習するにはさらに大きなデータセットが必要と考えられる事などから, 今後の研究課題であるとされています.
ちなみにpre-training層は分類器としてVOCデータセット学習したCNNの特徴抽出部分を用いています.

入力は224*224に正規化された画像のベクトル.
出力はActionとTriggerを含む9ユニットです.
出力で強化学習におけるQtableを再現するイメージです.

NNの部分は誤差逆伝搬法(back propagation)による最適化, Dropoutによる正則化を用いています.

また, 過去10Actionをbinary形式で保存したaction historyと呼ばれるユニットをQ-Network以前の層に挿入しています.
これにより短期的に良い行動を学習する事が可能となり, 精度にして3%前後の向上が見られるようです.


Deep Q-Networkの学習機構については, 日本語であれば次の記事が分かりやすいかと思います.
DQNの生い立ち + Deep Q-NetworkをChainerで書いた - Qiita

 

- 実装 -

こんな感じなので少しまって

*1:Playing Atari with Deep Reinforcement Learning - http://arxiv.org/pdf/1312.5602.pdf

*2:自分もここ1ヶ月くらいで本腰入れて調査した程度なので詳しくはないです

*3:この記事で用いてる画像は論文中から引用したものです

*4:http://www.kyb.mpg.de/fileadmin/user_upload/files/publications/pdfs/pdf5070.pdf

*5:http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Gonzalez-Garcia_An_Active_Search_2015_CVPR_paper.pdf

*6:http://www.habe-lab.org/habe/pdf/2011SSII_SIHF.pdf

*7:http://arxiv.org/abs/1311.2524

*8:bjectness. どちらかというとコンピュータビジョンな技術が多い. Selective Search(最初のR-CNN), BING等様々な手法がある

*9:http://arxiv.org/abs/1504.08083

*10:Deep Visual-Semantic Alignments for Generating Image Descriptions, http://cs.stanford.edu/people/karpathy/deepimagesent/

*11:http://www.cnbc.cmu.edu/~tai/readings/tom/itti_attention.pdf

DQN-chainerリポジトリを動かすだけ

- はじめに -

こんにちは. @vaaaaanquishです.
この記事はChainer Advent Calender 2015 11日目の記事です.

今回は滑り込みで, 特に何か新しい事をやった訳でもないですが,
一応記事にする事に意味があると思うので投稿しておきます.

今回はただこれを動かすだけです.

完全に備忘録みたいな感じです. ご了承下さい.
多分誰でもできると思います.


- Deep Q-Networkとは -

Ugo-Nama氏の記事は非常に分かりやすく, Deep Q-Networkに至るまでの研究遷移も書かれており, かなり参考になると思います. ここでは一応の概略のみ記述しておきます.

Deep Q-Networkは強化学習(Reinforcement Learning)の一種であるQ学習(Q-learning)に対して, ニューラルネットワーク(Neural Networks)を多層化したDeep Learningを適応したものです.

まずQ学習とは, 「ある状態 sに対する最も良い行動 aの組み合わせ」となるテーブル関数 Q^{*}(s, a)を求める手法です.  Q^{*}(s, a)を作成するため, 様々な状態のエピソードを試行し,  Q(s, a)を更新します.
 Q(s, a) Q^{*}(s, a)に近付ける際は, 以下の様な更新式を用います.

 {\displaystyle
Q(s, a) ← Q(s, a) + \alpha (r + \gamma \  \max_{a^{'}} Q^{'}(s, a)- Q(s, a))
}

 Q^{*}(s,a)は直接的には得られないので, テーブル関数を用いた Q^{'}(s, a)を用います.
 Q^{'}(s, a)は状態sにおいて行動 aをした次のステップでのQ値です.
また,  \gammaは強化信号の割引率,  \alphaは学習を収束させるための学習率となるパラーメタです.

次にDeep Learningに代表されるニューラルネットワークのような手法では, 最適化の際に勾配法を用いるのが一般的です. 教師データを入力し, パラメータ \thetaを持つ学習器の出力と教師の誤差 L_{\theta}を用いて, 以下のように更新していきます.


\theta ← \theta - \alpha \nabla_{\theta} L_{\theta}

誤差 Lをパラメータ \thetaについて微分し, 足し合わせる事で更新する一般的な式です.
ここで誤差 L_{\theta}に対して強化学習における Q(s, a)を適応した場合, 以下のようになります.


\theta ← \theta + \alpha ( r + \gamma \  \max_{a^{'}} Q^{'}(s, a)- Q(s, a) ) \nabla_{\theta} Q_{\theta}(s,a)

前述した通り強化学習では Q^{*}(s,a)を事前に得る事はできないため, 教師信号として Q^{'}(s, a)を使っている形です. ニューラルネットワーク等におけるback propagationの各層の更新式と見比べたりすると分かりやすいかもしれません.

Deep Learningには様々な手法がありますが, 関数近似手法として上記のように強化学習の枠組みに適応する事で, 複雑で高次元な問題設定に対応する事が可能になりつつあります.


- DQN-chainer実行環境をつくる -

私の環境

  • OS : Ubuntu Server 14.04 LTS (GUI欲しいのでXが入っています.)
  • GPU : NVIDIA Tesla K40 (ラボのマシンです.)
  • Driver : CUDA 6.5 (訳あって6.5なだけで7.0以降でも大丈夫だと思います.)
  • Python : 2.7.6

既にインストールされているものもありますが, できる限り書いていきます.

python, numpy, scipy

言わずと知れた言語と数値計算ライブラリです.
私はPythonUbuntuデフォルトのものを用いています. バージョンは2.7.6です.
numpy, scipyは今後の事を考えるとpipでインストールする方が良いかと思います.
私の環境は研究室の他のメンバーが既にapt-getで入れてますがそれでも大丈夫です.

sudo apt-get install python2.7
sudo apt-get install python-numpy
sudo apt-get install python-scipy

 

・chainer

Deep Learning等をサポートする機械学習ライブラリです. 言わずもがなです. いつも使っています.

入ってない人はpipを導入後, インストールします.

sudo -y apt-get install python-pip
pip install chainer

私は入ってるのでアップデートのオプション"-U"をつけて

pip install -U chainer 

でアップデートしておきます.

よくGPUを利用するためにchainer-cuda-depsを別途インストールするような記載がありますが,
chainer 1.5版以降にすれば別途インストールの必要ないようです.

(chainerを最新版にし, import chainer出来るかどうかテストしておくと良いです.
またCUDAにパスが通り, GPUを操作できるか確認しておきます.
今回動かすリポジトリGPUを用いているため, 少し書き換えないとSegmentation Fault等になります.)

・RL-Glue

強化学習で言う所のエージェントと環境を接続するパッケージです.
RL-Glue - Journal of Machine Learning Research
(http://www.jmlr.org/papers/volume10/tanner09a/tanner09a.pdf)

"強化学習の接着剤"との名前の通り, 実験設定, エージェントの行動, 問題環境の3つを用意する事で, それらを接続してくれるものです.
JavaC/C++をサポートしています.
初めて知ったんですが, 強化学習のベンチマークを行う際には多いらしく, めっちゃ便利そうです.

以下のページからダウンロードします.
RL-Glue Core Project - RL-Glue
https://sites.google.com/a/rl-community.org/rl-glue/Home/rl-glue

最初「.debがあるな」と思い, Ubuntuソフトウェアセンター経由で入れましたが, ソフトウェアセンターからだと実行時に上手く動作しなかったので, ファイルを落として来て自前でコンパイルしました.
(後述のALE実行時にALEが認識できず終了してしまう)
上記ページにあるRL-Glue 3.04 (.tar.gz)を用いました.

解凍したらRL-Glue/docs/内にTechnicalManual.pdfがあるのでそれに従います.
RL-Glueのディレクトリ内で

./configure
make
sudo make install

上手くいかなかった場合のアンインストールはManualを参照して下さい.

・PL-Glue Python codec

先ほどのRL-GlueをPythonで扱えるようにするものです.

以下のページからダウンロードします.
RL-Glue Python codec
https://sites.google.com/a/rl-community.org/rl-glue/Home/Extensions/python-codec

解凍するとディレクトリ直下にPythonCodec.pdfというマニュアルがあるので参考にします.

cd /path/to/codecs/Python
python setup.py install

 

・Aecade-Learning-Environment(ALE)

今回は強化学習における"環境"としてATARIのROMを動かします.
ALEは, エミュレータを基盤にし, ROMファイルをRL-Glueと接続するためのライブラリです.

このページからインストールしてもいいですが, RL-Glueの最新版との互換性から最新版を入れた方が良いと思います.
http://www.arcadelearningenvironment.org/

記事内ではALE v0.4.4を用いていますが, 私はv0.5.0を用いました.
gitリポジトリがあるのでcloneします.

git clone https://github.com/mgbellemare/Arcade-Learning-Environment.git

(※2015年に0.5.1が出たらしく上記コマンドだとそっちが入るみたいです。バージョン絡みでコアダンプするといった報告も受けてるので、そういう時はダウンロードページから0.5.0をzipでダウンロードして解凍すると上手く動く場合があるかもしれません。)

こちらは/doc/manual/内にmanual.pdfがあるので参考にします.

ALEをインストールする前に, 今回ALEでROMを動かすためにディスプレイ表示, 音声出力を行いたいのでSDL(Simple DirectMedia Layer)を用います. SDLをインストールしておきます. mixerは必要ないかもしれません.

sudo apt-get install libsdl1.2-dev
sudo apt-get install libsdl-image1.2-dev
sudo apt-get install libsdl-mixer1.2-dev

次にALE直下にあるMakefileを編集しておきます.
元からあるMakefilemacのものである場合があり, 編集用にmakefile.macmakefile.unixが用意されています.
元のMakefileは削除し, makefile.unixを編集します.
USE_SDL, USE_RLGLUEの2つの項目を以下のように編集し,Makefileとして保存しておきます.

USE_SDL := 1
USE_RLGLUE := 1

編集したらcmakeの後makeします.
cmakeが入ってない場合は

sudo apt-get install cmake

ALEディレクトリで以下を実行します.
make の -j の後の数値はコア数です.
自分のコア数はnprocコマンド辺りでよしなに確認します.

sudo cmake -DBUILD_EXAMPLES=ON
sudo make -j 4

ここで最新版を入れてない, 設定を行ってないと, 実行時に

RL-Glue interface unavailable. Please recompile with RL-Glue support.

のようなエラーが出ると思います. 多分バージョンよりMakefileの方を見なおした方が良いと思います.
SDLとRL-Glueを使う設定をしたか確認すると良いです.

DQN-chainer

ATARIのPong!に対してDQNを適応したリポジトリ, DQN-chainerを使用させて頂きます.
リポジトリ内にはRL-GlueからALEを使う問題設計ファイルとなるexperiment_ale.pyに加えて, DQNのnature実装, nips実装が入っています.
詳しくはリポジトリ内のreadme.txtを読むと良いと思います.
Agentは, 元論文にもあるようにConvolutional Neural Network(CNN)モデルを使っています.

git clone https://github.com/ugo-nama-kun/DQN-chainer.git

 

ATARI ROMs

ATARIのROMファイルを用意します.
私はここからダウンロードしました.
Atari 2600 VCS ROM Collection
http://www.atarimania.com/rom_collection_archive_atari_2600_roms.html

/ROMs/内に各ROMファイルがありますが, Pong!は,
「Video Olympics – Pong Sports (Paddle) (1977) (Atari, Joe Decuir – Sears) (CX2621 – 99806, 6-99806, 49-75104) ~.bin」
みたいになってるので, Pong.bin等に適宜変更しておくと良いかと思います.


- 実行 -

リポジトリ内のreadme.txtにもありますが4つのターミナルを用意します.
それぞれ以下を実行します.

rl_glue
python dqn_agent_nature.py
python experiment_ale.py
./[path to ale] -game_controller rlglue -use_starting_actions true -random_seed time -display_screen true -frame_skip 4 [path_to_roms/pong.bin]

真ん中2つは/DQN-chainer内です.
[path to ale]と[path_to_roms/pong.bin]はALEのディレクトリとROMのあるディレクトリに適宜変更します.
多分ALEのディレクトリの中(ALEのMakefileがある場所)にale実行ファイルがあると思うのでそこめがけてPath書きます.
romへのpathも指定するのでALEディレクトリ外からやった方が吉.

これで多分動くと思います.
画面が出て来て学習が始まると良いです.


- 動画 -

ちょっと12月が想像以上に忙しかったのでTwitter動画で勘弁して下さい.
以下はnature実装を130000stepくらい経過した後の動画です.

かなり勝ちます.


- おわりに -

以上です. 多分あとはchainer実装の部分をイジれば他のアルゴリズムやROMで遊べるようになると思います.

本当はその拡張の部分をメインに書くつもりでしたが, 内定者研修とかいう意味不明な文化に生活を圧迫され, とりあえず動かすまでという記事になった次第です.

ただ, Ugo-Nama氏のDQNの記事もコードも美しいのでかなり理解が進みました.
Advent Calendarをケツカッチンになんとか押し進める事が出来て良かったです.
ありがとうございました.

Deep Learning Advent Calendar 2015の方では, DQNを用いた物体認識タスクについてとそのchainer実装なんかの話を(できれば)したいと思ってますので, そちらの方もよろしくお願いします.

 

Windows 10 にJuliaしてSublimeTextする

Windows 10 64bitにプログラミング言語"Julia"を導入して、Sublime Text 2の環境を整える話。
Juliaは0.4.0です。

- はじめに -

前回の記事と大体やってる事は同じです。多分Windowsの7以降くらいならこれでできると思います。


- Juliaのインストール -

Julia公式のダウンロードページ(http://julialang.org/downloads/)からWindowsインストーラを選択。PCが64bitなので64bit版。

インストーラのexeファイルをダウンロードできたら起動してインストール。

デフォルトではC:\Users\user\AppData\Local\Julia-0.4.0に入るっぽいです。
今回はとりあえず例としてC:\直下にインストールします。(C:\Julia-0.4.0\)


f:id:vaaaaaanquish:20151107033834j:plain

インストールが終了したらそのフォルダに移動して、Juliaアイコンのショートカット、または/bin/のjulia.exeを起動します。起動してJuliaロゴが表示されれば良いです。


- PATHの設定 -

Sublime Textをどうしても使いたいので、まずPATHの設定を行います。

まずはWindows 10のコントロールパネルを開きます。
コントロールパネルを見つけるのが面倒なときは、Winメニューの"すべてのアプリ"に"検索"があるのでコントロールパネルを検索すると出てきます(便利そうだったのでスタート画面にピン留めしました)。

(2015年8月だとWinメニュー出した所でキーボード押すと検索できるっぽいので不要)

あとは他の言語同様、
システムとセキュリティ > システム > (左タブ)システムの詳細設定 > 環境変数
です。

ユーザ環境変数とシステム環境変数のPATH(Path)にインストールした"C:\Julia-0.4.0\bin"を追加します。
PATHは;で区切るようになってます。
以下サンプルとして私のやつです。最後に付け足しただけです。

%PATH%;C:\Python27;C:\MinGW\bin;C:\Julia-0.4.0\bin

追加したら動作を確認するためにコマンドプロンプトを開きます。これも検索すると楽です。
コマンドプロンプトで"Julia"を入力しJuliaが起動すればハッピー。ダメそうならPATHを見直してください。


f:id:vaaaaaanquish:20151107035201j:plain


- Sublime Textの設定 -

前回の記事同様、Ctrl+bでビルドしたいので、[Tools]>[Bulid System]>[New Build System](日本語だと[ツール]>[ビルドシステム]から[ビルドシステムの追加])を選択。よしなに設定を書いて適当な名前で保存します。

{
    "cmd": ["julia", "$file"],
    "selector": "source.julia"
}

ここで1回Sublime Textを再起動して設定を読み込ませた方がいいかもしれません。


- テスト -

好きな場所にprintlnだけ書いたtest.jlみたいなファイルを作ります。

println("Hello, World!")

Ctrl+bを押して結果が帰ってこれば成功です。

f:id:vaaaaaanquish:20151107035830j:plain


- おわりに -

私はPackage Installerを導入し、いつものCtr+Shift+PでInstall Packageを選択。
"Julia"でサジェストされたものから"julia"と"JuliaCompletions"を入れました。
多分Sublime Text 2で2015年現在使えるのはこの2つっぽいです。
"julia"の方は前回の記事のJulia-sublime-packageのアレかなと思います。

なんかJuliaできて良かったです。
では、最高のJuliaライフを。

Janetterの他者紹介とRT後のツイート確認拡張プラグイン

- はじめに -

PC版Twitterクライアントで一番すきなJanetterのプラグインを公開する話

他者紹介とリツイート直後のツイートを表示するやつに飛ぶやつ


- 他者紹介 -

以前記事を書いたけど、共有方法をGithubに変更したので該当記事を削除して再掲載。

f:id:vaaaaaanquish:20140411102456j:plain

相手の名前を右クリックすれば他者紹介が簡単にできるだけ。
最早Twitterライフを送る上で(@ )を付けるのですら面倒なのである。

Githubにjsファイルを上げました:https://github.com/vaaaaanquish/introdon


- リツイート後のツイートを確認する -

@jz5がやってるWebサービスリツイート直後のツイートを表示するやつ

最近は変な巻き込みリプライも減ったし、非公式RTも伸びない限りない。
最早フォロワーですらリプライよりRT後の言及が多い。

Janetterから直接サービスに飛べればいいなと思ってこんな感じです。

f:id:vaaaaaanquish:20151006074008j:plain

query投げてるだけなので、本家サービスの仕様変更があったらまた対応すると思います。

Githubです:https://github.com/vaaaaanquish/rtnext


- おわりに -

なんか公開してるやつの紹介記事でした。

RT後を表示するやつに飛ぶやつですが、RTやFavの通知画面(ポップアップ)からはダメでした。

なんか適当にDMしたら公開してもいいよって言ってくれた@jz5さんにも感謝。

 

ホームページつくる日記

- はじめに -


vaaaaaanquish.hatenablog.com


こんな記事を書いたら, 時間も相まってはてブのホットエントリになったりした.

そしたらフォロワーやそれ以外の方からも



こんな指摘がめっちゃ飛んできて, 「このマシンだとこう見える」とか「こういう時はこうすると良いよ」とか「このサービス使うとええで」とか色々参考になるものが見えてきて, 結果三連休は作り直しばっかりやっていた.


- 面白かった -


ページを修正しつつjQueryや色んなCSSを読んでて思ったけど、Web周りってすごいセンスが必要だなと感じた. もちろんノウハウや経験も大事だけど, JavaScriptの絡ませ方が凄いコードとか, フレームワークの上手い使い方を見て「なるほどなあ」となった.

あと他の人が見る環境が多種多様すぎるって所も「グワーッ」ってなった. おそるべし.

これから

斬新でいい経験になった. iPhone, iPadWindows Phoneまで取り出して色々直したけど, センスのないガタガタの状態が続いている.

結論, bootstrapを早く抜け出したい.