Stimulator

機械学習とか好きな技術話とかエンジニア的な話とかを書く

Djangoで送信された画像データをPyhon上で処理するWebサービスを作る

- はじめに -

自分のWebサービスは基本PythonDjangoフレームを利用している。

Djangoでフォームから画像を投稿してもらって、それを受け取り、画像処理や機械学習で色々やって画像として返す、といったサービスを作りたい時のメモ。

実際に「ドイツのトリおるか」なる特定の鳥を赤枠で囲むクソサービスを運営しているので、そちらも参考に。


- Django周りのコード -

view.py辺りにいつもこんな感じで書いている。

# //-- Django周りのimport --

from PIL import Image
import sys
sys.path.append("/usr/local/lib/python2.7/site-packages")
import numpy
import dlib
import cv2

@csrf_protect
def main(request):
    # POSTを受けた時
    if request.method == 'POST':
        try:
      # 画像化して処理
            img_moto =Image.open(request.FILES['image'])
            img=numpy.asarray(numpy.array(img_moto))
            dets = original_detector_run(img)

        except Exception:
            # エラー(画像じゃない等)
            f = forms.TestForm(request.GET or None)
            return render_to_response('index.html',
                                      context_instance=RequestContext(request,
                                                                      {'form1': f,
                                                                       "text":"エラーだよ"}))
        # 画像を編集
        img = img_dets_ediy(img, dets)
        
        # Responseとして画像を返す
        response = HttpResponse(mimetype="image/png")
        img_moto.save(response, "PNG")
        return response
    
    # 普段の動作
    else:
        f = forms.TestForm(request.GET or None)
        return render_to_response('index.html', context_instance=RequestContext(request, {'form1': f}))


requestを受け取ったら、FILES['image']の中に画像情報が入っていてPILのImageベースで利用できる。
あとはいつもの変換作業でよしなに。
OpenCVとPIL(python Image library)のデータ変換 - tataboxの備忘録



- ありがちなやつ -

PYTHON_PATHだけでなく、`django-admin.py`にパスを書く必要がある。
やっておくとsys.path.appendは不要になる(場合がある)。

Django の django-admin.py でパスを通しても command not found の時 - Qiita

画像処理だと、OpenCVを使いたい場合があるが、Pythonバインディングはcv2.soファイルで行っているので、そこへのPATHも通す必要がある。(大体site-package内にあるはずだが自分は諸事情でなかったので)

また、wsgiのPATHの設定が居る場合もある。
wsgi.py(もしくはvirtualenv内のwsgiファイル)にWSGIPythonPathとしてsite-package周りを追加しておく。

Apacheだったらそれらでディレクトリの権限をちゃんと設定しておく必要あり。


- おわりに -

こんなのが出来る

vaaaaaanquish.hatenadiary.jp

『コンピューターで「脳」がつくれるか』を読んで

- はじめに -

この記事は以下
『コンピューターで「脳」がつくれるか』(2016/9/27 五木田 和也)
を読んだ所感をまとめたものです。

コンピューターで「脳」がつくれるか

コンピューターで「脳」がつくれるか


未購入の方やこれから読むぞという方、また読んだので語りたいという方向けに記録として残すものです。

ちなみにこの記事の筆者は、情報工学を専攻し機械学習を研究、現在エンジニアをやっている人間です。
そのような視点から書いているという前提をご理解下さい。


- 読了難度について -

まず、テーマが「コンピューター」「人工知能」「機械学習」という事もあり「一歩踏み出しにくいな」という方も居ると思います。

個人的には、そういった人にこそ薦められる書籍です。

実際に筆者の @kazoo04 は著書について以下のように述べています。

できる限り簡潔に、かつ専門用語を最小限に書かれてあるイメージです。
難しい部分は一般的な体験や現象に紐付けて説明されており、「あ、これ経験した事ある!」という形で頭に入ってきやすい文章だと思います。

また、かわいいイラストによる解説も魅力的です。とてもかわいいです。
僕はこれが好きです。
f:id:vaaaaaanquish:20160921181121j:plain
向かう相手を考えずクソリプを飛ばして噛み付かれてしまうツイッタラーみたいですね。

もちろん、脳や機械学習モデルの模式図も示されますが、内容を細かくセクションで区切り、難解な点は何度も詳しく説明が入るよう工夫されていると思います。

このように言うとコラム本のようなイメージですが、注釈が丁寧に付与されており、人工知能関連の研究を知り、未来を考えるための最初の書籍として最適だと思います。


- 満足感を得るために -

簡易な分、情報工学神経科学を修めた大学卒の人等からすると、満足いかない部分もあるかもしれません。
僕自身、通勤の行き帰り30分程でほとんどの内容を読み切りました。

僕からするとあっさり軽めな内容ですが、この本の目指す目的は「知識の蓄積」というより「汎用人工知能と未来」に尽きると思いました。

主に前半のセクションでは「コンピュータと人工知能の歴史」「神経科学」「機械学習」と分かれています。
この部分は主に"汎用人工知能の話をするため"に書かれた部分だと思います。
今わかっている事実や技術について、様々な側面から書かれています。

前半は知見のような話が続き、大学の講義だと眠くなるタイプの部分かも知れません。
僕の会社の営業職をする同期にこの書籍を渡した時、この部分で深く考え込んでいました。
難しいと感じれば、まだ考える部分ではなく「へえ~こんなのがあるんだ」程度で良いと思います。
簡単と感じれば、「神経科学」「機械学習」の両面を比較しながら読むと良いかも知れません。
良いアイデアの元になったり再確認にはぴったりだと思います。

後半のセクションでは、前半の知識をもとに「汎用人工知能」の生成について、映画やSF小説からイメージされるような所謂「人工知能」が生まれた未来について書かれています。
最後のこの部分に帰結するための前半といっても過言ではないかなと思います。
後半の汎用人工知能の議論を活発にするために、必要な知識や歴史、キーワード、小話が詰まっているといえます。

これらを意識して読むと、難しい部分や読み飛ばした部分も幸せに読めるかも知れません。


- 気になった所 -

個人的に面白いなと思った所、気になった所を紹介しておきます。

  • ニューラルネットワークおよびDeep Learningの技術史が端的にまとめられている
  • 脳の話に対して実例が多い
  • ちょいちょい入ってくるコラムが面白い
  • ブログでQ&Aしてる
  • 著者と絵のメガネ野郎が微妙に似ている
  • 筆者のプロフィールが真面目
  • カバーを外すと専門書っぽい
  • 絵がかわいい

中でも「絵がかわいい」は推したい所です。

LINEスタンプも出してるようなので僕は買いました!
可愛いしコミカルで伝わりやすいです。素晴らしい。

あとは @kazoo04 氏のブログとも連結していと面白いです。

さらに本を楽しみたければココを読めってことね。

コンテンツと金を作るのが上手いなあ…


- 僕が思う汎用人工知能と未来 -

僕は大体本に書いてある通りの事を考えてます。
まあ著者と親交が深いというのもありますけど。
仕事を人工知能にまかせて、自動運転が実現して、世界がアップデートされていく。幸せだと思います。
自動運転とかよく批判されますけど、「自動化」と捉えれば何てことはないんですよ。
洗濯機が自動で洗濯してくれるように、ドアが自動で開閉するように、エレベータが10階まで自動で連れて行ってくれるように、自然に生活の中に「人工知能」も入ってくると思います。

強いて言うなら、この本を読んで「もっと未来に関する議論は活発にすべきだな」と感じました。

エレベータが事故を起こした際、責任の所在はある程度明確になっています。
自動運転もお仕事も、ちゃんと議論してどこまで責任持つかとか、自動化で職業はどう変化してくかとか、未来について議論する事が大事だなと思います。
法の整備や仕組みを先んじて進めて、ドローンのように世界に遅れを取らないように。
技術が一方的に発展するだけでなく、みんなが幸せになれるように。

世界がそういう方向に向かうと良いなと思います。


- おわりに -

ここまで褒めちぎって書いて何ですが、発売前に見せてもらってチェックしたんですよ。
その時は「Deep Learningライン工みたいに表現してるけど違くね?」とか「ここ無駄多すぎね?」とか色々あったんですよ。
でもそれらを間違いなくかつ分かりやすく説明するのってすごく難しくて、本来ならば線形代数や統計の知識が居る部分を上手くコンテキストとしてまとめてるなと思います。
実際に @kazoo04 氏に反例を出して、ボコボコにしてやろうと思ったんですが、結構反例になるようなものが出せなくて大変でした。

脳とか機械学習とか結構分かってない部分もあり、適当な事言ってる人も多い状態なんですけど、この本に関してはよく考えられてるなと僕は思います。

追記ですがイラストレーターさんの名前でググると、同姓同名の方が出てくるようなのでよしなに。


みなさんの知見と議論が広がれば多分著書もハッピーです。
とりあえず買おう。

コンピューターで「脳」がつくれるか

コンピューターで「脳」がつくれるか

dlibのSimple_Object_detectorを用いたPythonでの物体検出器の学習

- はじめに -

これはこの記事の続きで、dlibを使って物体検出をしようというものである。

まあ正確には、dlibには「顔検出器の学習」ってのは無くて「物体検出器の学習」の機能を使って、顔検出器の再学習がしたいという記事です。

dlibを使う際の参考になればよいです。


- dlibのObjectDetectorについて -

dlibに物体検出の学習が入ったのは2014年の時。
内部にはHoG+SVMを使っていて、OpenCVで学習する場合に比べて、遥かに少ない学習データで、かなりの精度を出す事ができる。

リリース時の本家記事 : dlib C++ Library: Dlib 18.6 released: Make your own object detector!

本記事では、Pythonのdlib apiを使って、物体検出器の学習を行っていく。

Python用のドキュメント : Classes — dlib documentation

dlib.simple_object_detectorを使う。
一応、こちらに公式の学習サンプルがある。

http://dlib.net/train_object_detector.py.html

大体の事は書いてあるけど、パラメータ等が全部書いてある訳ではないので、日本語訳してごにょごにょしたものをリポジトリに置いておいたので見て頂ければ。

github.com



- 学習形式とサンプル -

ディレクトリ内の画像と矩形情報が入ったテキストファイルを元に学習するスクリプトは以下。

#! /usr/bin/python
# -*- coding: utf-8 -*-
u"""rect.txtと画像データを用いてdlibを追加学習するスクリプト."""

import dlib
import os
from skimage import io

input_folder = "./test/"
rect_file = "./true_rect.txt"
output_svm = "detector.svm"

def get_rect(rect_file):
    u"""矩形ファイルを読み込みリスト化."""
    rect_list = []
    for line in open(rect_file, 'r'):
        rect_list.append(line)
    return rect_list


def make_train_data(rect_list):
    u"""矩形リストから学習用データを生成する."""
    boxes = []
    images = []
    for i, x in enumerate(rect_list):

        # 改行と空白を除去してリスト化
        x = x.replace('\n', '')
        x = x.replace('\r', '')
        one_data = x.split(' ')
        # 矩形の数k
        k = len(one_data) / 4

        # 矩形をdlib.rectangle形式でリスト化
        img_rect = []
        for j in range(k):
            left = int(one_data[j*4])
            top = int(one_data[j*4+1])
            right = int(one_data[j*4+2])
            bottom = int(one_data[j*4+3])
            img_rect.append(dlib.rectangle(left, top, right, bottom))

        # boxesに矩形リストをtupleにして追加
        # imagesにファイル情報を追加
        f_path = input_folder + one_data[k*4] + '.jpg'
        if os.path.exists(f_path):
            boxes.append(tuple(img_rect))
            images.append(io.imread(f_path))

    return boxes, images


def training(boxes, images):
    u"""学習するマン."""
    # simple_object_detectorの訓練用オプションを取ってくる
    options = dlib.simple_object_detector_training_options()
    # 左右対照に学習データを増やすならtrueで訓練(メモリを使う)
    options.add_left_right_image_flips = True
    # SVMを使ってるのでC値を設定する必要がある
    options.C = 5
    # スレッド数指定
    options.num_threads = 16
    # 学習途中の出力をするかどうか
    options.be_verbose = True
    # 学習許容範囲
    options.epsilon = 0.001
    # サンプルを増やす最大数(大きすぎるとメモリを使う)
    options.upsample_limit = 8
    # 矩形検出の最小窓サイズ(80*80=6400となる)
    options.detection_window_size = 6400

    # 学習してsvmファイルを保存
    print('train...')
    detector = dlib.train_simple_object_detector(images, boxes, options)
    detector.save(output_svm)


if __name__ == '__main__':
    rect_list = get_rect(rect_file)
    boxes, images = make_train_data(rect_list)
    training(boxes, images)


simple_object_detector_training内部でデータの増量を行っており、optionのupsample_limitとadd_left_right_image_flipsで調整できる。
データの増量では、基本的なData Augmentationが行われているため、学習用のデータは最小で良い。

実際、公式のサンプルコードでは、22枚のサンプル画像と矩形情報を学習用データセットとして、高い精度の顔検出器を作っている。

あまり画像を入れるとMemoryErrorの原因となる。
大体こんな感じで止まったら、Optionのパラメータ調整しなおすか、画像を減らすか、メモリを増やす必要がある。

Traceback (most recent call last):
  File "detector.py", line 104, in <module>
    boxes, images = make_train_data(rect_list)
  File "detector.py", line 70, in make_train_data
    images.append(io.imread(f_path))
  File "C:\Python27\lib\site-packages\skimage\io\_io.py", line 61, in imread
    img = call_plugin('imread', fname, plugin=plugin, **plugin_args)
  File "C:\Python27\lib\site-packages\skimage\io\manage_plugins.py", line 211, in call_plugin
    return func(*args, **kwargs)
  File "C:\Python27\lib\site-packages\skimage\io\_plugins\pil_plugin.py", line 37, in imread
    return pil_to_ndarray(im, dtype=dtype, img_num=img_num)
  File "C:\Python27\lib\site-packages\skimage\io\_plugins\pil_plugin.py", line 111, in pil_to_ndarray
    frame = np.array(frame, dtype=dtype)
MemoryError

dlibの公式Q&Aで「MemoryErrorって出るんだけど…」という質問に対して、作者が「Buy Memory!」と応えているくらいなので仕方ない。

感覚としては、32Gメモリ積んだマシンでも、100*100サイズの画像1000枚を、add_left_right_image_flips=true、upsample_limit=4とかで学習させたら落ちる。
CPUもフルに使うので最悪PCフリーズが有り得る。
学習データを減らすのが手っ取り早いが、対応できる環境が少なくなる。
マシンかパラメータでなんとかこうとかするのが良い。
(こういう点から、dlibの物体検出器学習クラスは背景や周りの環境が固定な場合超強いって感じする。)

64Gメモリ、16コアのCPUでも100*100の画像2000枚くらいが限界っぽい。
それ以上はパラメータ調整云々でもなんともならなかった。


学習用の矩形情報と画像情報はPythonコードで言うと以下のような形式で入力する。
boxes[n]とimages[n]が共通の情報となれば良い。

boxes_img1 = ([dlib.rectangle(left=329, top=78, right=437, bottom=186),
               dlib.rectangle(left=224, top=95, right=314, bottom=185),
               dlib.rectangle(left=125, top=65, right=214, bottom=155)])
boxes_img2 = ([dlib.rectangle(left=154, top=46, right=228, bottom=121),
               dlib.rectangle(left=266, top=280, right=328, bottom=342)])
boxes = [boxes_img1, boxes_img2]
images = [io.imread(dir_path + '/xxxxxx.jpg'),
          io.imread(dir_path + '/yyyyyy.jpg')]


学習に使うrect.txtは

x1 y1 x2 y2 file_name
x1 y1 x2 y2 file_name2

のような空白CSVっぽくなってる前提。
矩形が複数ある場合の1行は

x1 y1 x2 y2 x3 y3 x4 y4 file_name

といった形式で保存してあるものをパースしている。

いつかxmlにもする。
学習データ作って、xmlで学習させてる人は居たのでリンク貼っとく。



- 学習結果のsvmを使う -

前回の記事のdetector.runする部分を修正する。

- detector = dlib.get_frontal_face_detector()
+ detector = dlib.simple_object_detector("detector.svm")

- dets, scores, idx = detector.run(img_rgb, 0)
+ dets = detector(img_rgb, 0)

自前で学習した学習器はスコアや第二候補を返さないっぽい。



- テスト -

前回の記事Google Cloud Vision APIの記事で出したデータを元に学習させる。
例によって河村友歌ちゃんの顔画像でテストする。

f:id:vaaaaaanquish:20160902172432j:plain

はい、かわいい。


いつも顔検出ばかりやっていては仕方ないので、それっぽく猫の画像を学習させ適応する。
学習データは手動で矩形を出して、たった20枚作っただけ。

f:id:vaaaaaanquish:20160902172729j:plain

はい、かわいい。


- 考察 -

dlibの物体検出は内部でサンプリングもしてくれるので、正データとなる画像と矩形だけ集めれば良いし、精度も良いので結構良い。
パラメータも少なく物体検出できる方だと思う。
メモリとCPUはバカ食いするけど愛嬌がある。

v19.01現在で、追加学習のようなクラスはないため、既存のfrontal_faceのsvmファイルをsaveしてさらに学習とかはできない。
あと、メモリ少ないから学習データ小分けにして食わせようとかもできないのでつらい。
SVMなので仕方ない感じではあるが。

文中にも書いたけど、固定的な環境(監視カメラとか背景が固定とか)だと、手軽にかなり高い精度を実現できる。
それ以外ならOpenCVとかの検出器と組み合わせるか、CNNに突っ込んだ方が吉。


- おわりに -

dlib、Deep Learningとか強化学習とか新しい手法をガンガン積んでいってるし、期待したい。

まだまだかゆい所に手が届かないので「コントリビュータにさせてくれよ!」と思ったけどGithubリポジトリなかったのでつらい。

まあでも、やり取りするより1からオレオレで書いた方が早いなと思った。

ほんとそれなわかるアカデミア。



もろもろのコードはGithubリポジトリに入れといたんでよしなに。
github.com



- 追記 -

--09/04--


がんばります。

dlibを用いた顔検出器と物体検出器とその学習

- はじめに -

dlibのSimple_Object_Detectorクラスを使った物体検出用カスケードの学習をする記事。

dlibは機械学習ライブラリとして2006年から始まったプロジェクトで、基本的なSVMや線形アルゴリズム、Bayesian Network等に加えて、機械学習関係で用いるような画像処理ツールやグラフツールが付属している。

https://dlib.net

この素敵な図を見たことある人も居ると思う
https://dlib.net/ml_guide.svg


dlibは画像からの物体検出として顔検出を代表としたオブジェクト検出用のクラスが用意されている。
中身はHoG+SVMとシンプルな構成だが、矩形情報と正例画像を与えるだけで、学習用サンプルを生成し、HoGフィルターのパラメータ調整や学習を行ってくれるAPIがある。
C++Pythonをサポートしており、以下からはUbuntu 14.04デフォルトのPython 2.7とdlib v19.0を用いる。


- dlibのインストール -

Ubuntu環境へのインストールならこの記事が分かりやすいらしい。

一応コマンドだけ貼っておくので上から実行してけばUbuntu 14.04ならワンパン。

sudo apt-get update
sudo apt-get upgrade

sudo apt-get install python-setuptools
sudo apt-get install python-pip

sudo pip install numpy
sudo apt-get install liblapack-dev libatlas-base-dev gfortran g++
sudo pip install scipy
sudo pip install matplotlib

sudo wget http://downloads.sourceforge.net/project/opencvlibrary/opencv-unix/3.0.0/opencv-3.0.0.zip
sudo apt-get install unzip
sudo unzip opencv-3.0.0.zip
sudo rm opencv-3.0.0.zip

sudo apt-get install build-essential libgtk2.0-dev libjpeg-dev libtiff5-dev libjasper-dev libopenexr-dev cmake python-dev python-numpy python-tk libtbb-dev libeigen3-dev yasm libfaac-dev libopencore-amrnb-dev libopencore-amrwb-dev libtheora-dev libvorbis-dev libxvidcore-dev libx264-dev libqt4-dev libqt4-opengl-dev sphinx-common texlive-latex-extra libv4l-dev libdc1394-22-dev libavcodec-dev libavformat-dev libswscale-dev default-jdk ant libvtk5-qt4-dev

sudo apt-get install cmake
cd opencv-3.0.0
sudo cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local -D WITH_TBB=ON -D BUILD_NEW_PYTHON_SUPPORT=ON -D WITH_V4L=ON -D WITH_FFMPEG=OFF -D BUILD_opencv_python2=ON .
// ここでの16はコア数。自分のコア数はnprocコマンド辺りで確認
sudo make -j16
sudo make install

cd ..
sudo cp opencv-3.0.0/lib/cv2.so /usr/local/lib/python2.7/site-packages/

//-----------
下記シンボリックリンクを貼らないとopencvをimportする時エラーが出る
libdc1394 error: Failed to initialize libdc1394
http://stackoverflow.com/questions/29274638/opencv-libdc1394-error-failed-to-initialize-libdc1394
カメラとかのハードウェア用ドライバが邪魔するせいらしく、dlibやopencv使用自体に問題はない。
環境次第で再起動毎にシンボリックリンク貼り直す必要がある。具体的な解決策はまだないっぽい。
//-----------

sudo ln /dev/null /dev/raw1394

//-----------
python
import cv2 
でチェック
//-----------

sudo apt-get install git

sudo pip install cython
sudo pip install scikit-image

sudo apt-get install python-dev python-numpy
sudo apt-get install libboost-dev
sudo apt-get install libboost-python-dev
sudo apt-get install libboost-system-dev

sudo pip install dlib

//-----------
python
import dlib 
でチェック
//-----------


多分これでdlibのインストールは出来ると思う。Permission deniedとかはよしなに。


- 最もシンプルな顔検出機能を使う -

dlibは標準で顔検出用にfrontal_face_detector()を提供している。
こののブログの他記事でも述べているが、OpenCVの標準の顔検出カスケードよりは遥かに性能が良いと思う。

シンプルに顔検出器を使ってテストしたい場合は下のようなスクリプトで簡単にできる。

#! /usr/bin/python
# -*- coding: utf-8 -*-
u"""dlibによる顔画像検出."""
import cv2
import dlib

# 画像ファイルパスを指定
sample_img_path = 'sample.jpg'

def facedetector_dlib(img, image_path):
    try:
        detector = dlib.get_frontal_face_detector()
        # RGB変換 (opencv形式からskimage形式に変換)
        img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
        # frontal_face_detectorクラスは矩形, スコア, サブ検出器の結果を返す
        dets, scores, idx = detector.run(img_rgb, 0)
        # 矩形の色
        color = (0, 0, 255)
        s = ''
        if len(dets) > 0:
            # 顔画像ありと判断された場合
            for i, rect in enumerate(dets):
                # detsが矩形, scoreはスコア、idxはサブ検出器の結果(0.0がメインで数が大きい程弱い)
                # print rect, scores[i], idx[i]
                cv2.rectangle(img, (rect.left(), rect.top()), (rect.right(), rect.bottom()), color, thickness=10)
                s += (str(rect.left()) + ' ' + str(rect.top()) + ' ' + str(rect.right()) + ' ' + str(rect.bottom()) + ' ')
            s += image_path
        # 矩形が書き込まれた画像とs = 'x1 y1 x2 y2 x1 y1 x2 y2 file_name'
        # 顔が無ければ s='' が返る
        return img, s
    except:
        # メモリエラーの時など
        return img, ""

if __name__ == '__main__':
    img = cv2.imread(sample_img_path)
    img, s = facedetector_dlib(img, sample_img_path)
    cv2.imwrite('output_' + sample_img_path, img)
    f = open('./rect.txt', 'w')
    f.write(s)
    f.close()

引数には画像とupsample_numの値を与えてやる。upsample_numは多分selective searchで見る枚数か回転拡大縮小で見る枚数を増やしているんだと思う。精度は向上するが、その分探索時間とメモリをめっちゃ使う。
返り値としては顔の矩形位置座標と各スコア、サブ検出器の結果が返ってくる。スコアは割と信用できるので使い勝手は良い。

Google APIの時と同じく例によって、画像をまとめてdlibの顔検出に投げるスクリプトを下記Gitリポジトリにまとめておいた。
いつかGoogleの方とまとめるかも。

https://github.com/vaaaaanquish/dlib_detection_python_script


- 一応検証 -

例のごとく適当にテスト
入力画像は最近コミケでのコスプレが可愛かった河村友歌ちゃん。
なんかもう顔検出系のデモをやる時は毎回お世話になってるナイスフリー素材。

入力
f:id:vaaaaaanquish:20160815033016j:plain

出力
f:id:vaaaaaanquish:20160815033035j:plain


はいかわいい。


- なんかおわりに -

なんかコード貼ったら長くなったので、Simple_Object_Detectorの学習に関する内容は次の記事に書いときます。

なんかごめん。


追記:書きました。
vaaaaaanquish.hatenablog.com

PythonでGoogle Cloud Visionを使った顔検出

- はじめに -

前回の記事でGoogle Cloud VisionAPIキーを発行しました。

そのAPIキーを使って、Pythonを使った顔検出(Face Detector)をやります。

顔認識じゃないです。顔検出です。


- Google APIのFACE_DETECTIONになげるやつ -

以下Pythonコードです。
変数を変更します。
api_keyに発行したAPIキーを入れます。
とりあえずこのスクリプトでSample.jpgから顔検出が出来ると思います。

#! /usr/bin/python
# -*- coding: utf-8 -*-
'''Gooogle Cloud Vision APIに画像を投げるやつ.'''

import base64
import cv2
from requests import Request, Session
import json

# ここにAPIキーを入れる
api_key = ''
# このスクリプトを単体で実行する場合はここにファイルパスを指定
sample_img_path = 'sample.jpg'
# 検出する顔の数の最大数 (多いほどレスポンスが返ってくるのが遅い)
max_results = 8
# DISCOVERY_URLは現時点(2016/08)でこれしかないのでこのまま
DISCOVERY_URL = 'https://vision.googleapis.com/v1/images:annotate?key='


# cv画像と画像ファイルへのPathと検出最大数が引数
def facedetector_gcv(img, image_path, max_results):
    # 通信不良等を考慮してTry...expectしておく
    try:
        # base64convert用に読み込む
        image = open(image_path, 'rb').read()

        # 顔を検出するやつのResponse作成
        str_headers = {'Content-Type': 'application/json'}
        batch_request = {'requests': [{'image': {'content': base64.b64encode(image)}, 'features': [{'type': 'FACE_DETECTION', 'maxResults': max_results, }]}]}

        # セッション作ってリクエストSend
        obj_session = Session()
        obj_request = Request("POST", DISCOVERY_URL + api_key, data=json.dumps(batch_request), headers=str_headers)
        obj_prepped = obj_session.prepare_request(obj_request)
        obj_response = obj_session.send(obj_prepped, verify=True, timeout=180)

        # Responseからjsonを抽出
        response_json = json.loads(obj_response.text)
        # 返り値用
        s = ''
        # 'faceAnnotations'があれば顔あり
        if 'faceAnnotations' in response_json['responses'][0]:
            faces = response_json['responses'][0]['faceAnnotations']

            # 画像情報
            s += image_path + ' '
            # OpenCVで矩形を書き込み
            for face in faces:
                # 0と2が両端の番地
                x = face['fdBoundingPoly']['vertices'][0]['x']
                y = face['fdBoundingPoly']['vertices'][0]['y']
                x2 = face['fdBoundingPoly']['vertices'][2]['x']
                y2 = face['fdBoundingPoly']['vertices'][2]['y']
                cv2.rectangle(img, (x, y), (x2, y2), (0, 0, 255), thickness=10)
                # 矩形情報を保存
                s += (str(x) + ' ' + str(y) + ' ' + str(x2) + ' ' + str(y2) + ' ')

        # 矩形が書き込まれた画像とs = 'file_name x1 y1 x2 y2'
        # 顔が無ければsは空
        return img, s

    except:
        return img, ""


if __name__ == '__main__':
    # 画像読み込み
    img = cv2.imread(sample_img_path)

    # Goog;e API
    img, s = facedetector_gcv(img, sample_img_path, max_results)

    # 画像出力
    cv2.imwrite('output_' + sample_img_path, img)

    # 矩形情報出力
    f = open('./rect.txt', 'w')
    f.write(s)
    f.close()

PEP8ガン無視で横に長くてスマン。


- テスト -

フリー画像で顔があって可愛いと言えば河村友歌ちゃんかなと思い用意しました。

これを入力にします。
f:id:vaaaaaanquish:20160808145629j:plain


こうなります。
f:id:vaaaaaanquish:20160808145702j:plain


複数の顔画像が入った写真もテストしてみます。
こんな感じでmax_resultsで指定した数までは顔検出できます。
f:id:vaaaaaanquish:20160808151204j:plain


- レスポンス -

レスポンスで返ってくるのは以下の通りです。

{
"boundingPoly": 顔の矩形位置(4頂点のx,y座標)

"fdBoundingPoly": 耳なども含めた顔の矩形位置(4頂点のx,y座標)

"landmarks": 以下のパーツの位置、三次元座標軸(x,y,z)
[
    "UNKNOWN_LANDMARK" : 謎
    "LEFT_EYE" : 左目
    "RIGHT_EYE" : 右目
    "LEFT_OF_LEFT_EYEBROW" : 左眉の左端
    "RIGHT_OF_LEFT_EYEBROW" : 左眉の右端
    "LEFT_OF_RIGHT_EYEBROW" : 右眉の左端
    "RIGHT_OF_RIGHT_EYEBROW" : 右眉の右端
    "MIDPOINT_BETWEEN_EYES" : 両目の中心
    "NOSE_TIP" : 鼻の頂点
    "UPPER_LIP" : 上唇
    "LOWER_LIP" : 下唇
    "MOUTH_LEFT" : 口全体の左端
    "MOUTH_RIGHT" : 口全体の右端
    "MOUTH_CENTER" : 口中央
    "NOSE_BOTTOM_RIGHT" : 鼻の下右側
    "NOSE_BOTTOM_LEFT" : 鼻の下左側
    "NOSE_BOTTOM_CENTER" : 鼻の下中央
    "LEFT_EYE_TOP_BOUNDARY" : 左目中央上境界
    "LEFT_EYE_RIGHT_CORNER" : 左目右ライン
    "LEFT_EYE_BOTTOM_BOUNDARY" : 左目中央下境界
    "LEFT_EYE_LEFT_CORNER" : 左目左ライン
    "LEFT_EYE_PUPIL" : 左目瞳
    "RIGHT_EYE_TOP_BOUNDARY" : 右目中央上境界
    "RIGHT_EYE_RIGHT_CORNER" : 右目右ライン
    "RIGHT_EYE_BOTTOM_BOUNDARY" : 右目中央下境界
    "RIGHT_EYE_LEFT_CORNER" : 右目左ライン
    "RIGHT_EYE_PUPIL" : 右目瞳
    "LEFT_EYEBROW_UPPER_MIDPOINT" : 左眉中間点座標
    "RIGHT_EYEBROW_UPPER_MIDPOINT" : 右眉中間点座標
    "LEFT_EAR_TRAGION" : 右耳
    "RIGHT_EAR_TRAGION" : 左耳
    "FOREHEAD_GLABELLA" : おでこ
    "CHIN_GNATHION" : アゴ、下顎下縁正中点
    "CHIN_LEFT_GONION" : アゴの左側
    "CHIN_RIGHT_GONION" : アゴの右側
]

"rollAngle" : 画像の回転角度
"panAngle" : 顔の左右回転角度,
"tiltAngle" : 顔の左右回転角度,
"detectionConfidence" : 顔検出信頼度
"landmarkingConfidence" : landmarksの信頼度

以下感情推定や状態推定
UNKNOWN	判定不能。
VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY, VERY_LIKELYで返ってくる。

"joyLikelihood" : 楽しそう
"sorrowLikelihood" : 悲しそう
"angerLikelihood" : 怒ってそう
"surpriseLikelihood" : 驚いてそう
"underExposedLikelihood" : 肌を露出してそう
"blurredLikelihood" : ぼやけてそう
"headwearLikelihood" : 帽子とか付けてそう
}

返ってきすぎ。
感情推定や状態推定はちょっと精度悪くてあんまり信用できないです。
ただ、横顔や顔が途切れてても結構返ってくるのですごい精度です。
後Landmarkが返ってきたりするのも学習用データ作りが捗りますね。


- 精度に関する知見 -

OpenCVとdlibで顔検出をおこなった場合の知見を以前まとめました。

OpenCVは無駄な矩形を多く出力して、recallを上げてくるイメージです。
OpenCVでは、入力に顔画像の最小サイズを指定できますが、結局そのパラメータを調整すると顔がそのサイズ以下になった時に検出できないのでう~んという感じです。
ただ、追加の学習が非常に簡単に行えるので、精度向上を測るのはやりやすいですね。
Anime_Faceを代表に、色んな状況での顔検出に最適化する事ができます。

対してdlibは、デフォで顔検出に関してとても精度が高いです。
ただ、中身にHoGSVMを使っている事もあり、顔っぽい文字やロゴを検出してしまうのがネックです。
また、オブジェクト検出用の学習も出来るには出来るんですが、学習用の関数がまだまだ使いにくい事もネックですね。

対して、Google Cloud Visionは追加での学習こそ出来ませんが、ものすごい精度で検出してきます。
しかも無駄な矩形をほとんど返さないのが魅力的です。
デフォルトの検出器を適当にprecisionで言うなら OpenCVが0.3、dlibが0.6、Googleは0.98という感じです。
しかも状態情報もくれるのでサイコー。


- 料金体系 -

最後に料金体系はこんな感じです。

- ~1000枚 ~100万枚 ~500万枚 ~2000万枚
1000枚毎に Free $2.50 $1.50 $0.6
限度枚数投げると Free $2497.5 $8496.0 $16895.4

限度枚数投げるとというのは、例えば100万枚投げた場合、最初の1000枚はFreeの価格が適応されるので無料。その後の999000枚は$2.5/1000枚かかるので総額が

F + 999000 * 2.5 / 1000 = $2497.5

という感じです。その後も同様に計算して

F + $2497.5 + (3999000 * 1.50 / 1000) = $2497.5 + $5998.5 = $8496.0
F + $2497.5 + (3999000 * 1.50 / 1000) + (13999000 * 0.6 /1000)
                   = $8496.0 + $8399.4 = $16895.4

日本円にすると2000万枚投げたら大体180万円くらいですね。

ただ、今は初期登録で60日間使える$300を貰えるので、無料で$2.5/1000枚とFree分合わせて12万と1000枚投げられます。
12万枚かなりの精度で色んな情報が返ってくると思うと、課金まで行かなくても全然使えますね。

後、これ以上投げる場合の金額は相談してねって感じみたいです。

Googleの公式の金額のページはここ。相談先もここ。
https://cloud.google.com/vision/docs/pricing

他にもラベル検出(LABEL_DETECTION)、文字検出+OCR(TEXT_DETECTION)、 有害コンテンツ検出(SAFE_SEARCH_DETECTION)、各物体のランドマーク検出(LANDMARK_DETECTION)、ロゴマーク検出(LOGO_DETECTION)、色解析(IMAGE_PROPERTIES)が使えて、それぞれ大体同じ金額になると思います。
何故かラベル出すやつだけ高いです。企業にお金でも払ってるんでしょうか。


- おわりに -

人工知能だので画像認識系の機械学習技術が話題という事もあり、機械学習APIがポツポツ出てきてますが、精度や安定性はやっぱりGoogleには勝てないですね。
中身はDeep Learning、R-CNN辺りでしょうか。
1レスポンスで返ってくる辺り、感情推定なんかも同じネットワーク内でやってそうですね。
すごいぞGoogle。流石だGoogle
「とりあえず顔検出用の学習データが欲しい」という時に無料枠でとりあえず使えますね。
そのデータを使いながら、環境に対して最適化していけば良いと思います。
あと、他のAPIも使う記事を気が向けば書きます

一応フォルダ内の画像を全部Google APIに投げて「顔画像あり」「顔画像なし」に分けて矩形情報を保存するスクリプトを書きました。
上部の画像単体を投げるスクリプトも一緒にGitリポジトリに入れてますので以下参照。

github.com