読者です 読者をやめる 読者になる 読者になる

Stimulator

機械学習とか好きな技術話とか個人的な話とかを書く

dlibのSimple_Object_detectorを用いたPythonでの物体検出器の学習

- はじめに -

これはこの記事の続きで、dlibを使って物体検出をしようというものである。

まあ正確には、dlibには「顔検出器の学習」ってのは無くて「物体検出器の学習」の機能を使って、顔検出器の再学習がしたいという記事です。

dlibを使う際の参考になればよいです。


- dlibのObjectDetectorについて -

dlibに物体検出の学習が入ったのは2014年の時。
内部にはHoG+SVMを使っていて、OpenCVで学習する場合に比べて、遥かに少ない学習データで、かなりの精度を出す事ができる。

リリース時の本家記事 : dlib C++ Library: Dlib 18.6 released: Make your own object detector!

本記事では、Pythonのdlib apiを使って、物体検出器の学習を行っていく。

Python用のドキュメント : Classes — dlib documentation

dlib.simple_object_detectorを使う。
一応、こちらに公式の学習サンプルがある。

http://dlib.net/train_object_detector.py.html

大体の事は書いてあるけど、パラメータ等が全部書いてある訳ではないので、日本語訳してごにょごにょしたものをリポジトリに置いておいたので見て頂ければ。

dlib_detection_python_script/japanese_comment_train_object_detector.txt at master · vaaaaanquish/dlib_detection_python_script · GitHub


- 学習形式とサンプル -

ディレクトリ内の画像と矩形情報が入ったテキストファイルを元に学習するスクリプトは以下。

#! /usr/bin/python
# -*- coding: utf-8 -*-
u"""rect.txtと画像データを用いてdlibを追加学習するスクリプト."""

import dlib
import os
from skimage import io

input_folder = "./test/"
rect_file = "./true_rect.txt"
output_svm = "detector.svm"

def get_rect(rect_file):
    u"""矩形ファイルを読み込みリスト化."""
    rect_list = []
    for line in open(rect_file, 'r'):
        rect_list.append(line)
    return rect_list


def make_train_data(rect_list):
    u"""矩形リストから学習用データを生成する."""
    boxes = []
    images = []
    for i, x in enumerate(rect_list):

        # 改行と空白を除去してリスト化
        x = x.replace('\n', '')
        x = x.replace('\r', '')
        one_data = x.split(' ')
        # 矩形の数k
        k = len(one_data) / 4

        # 矩形をdlib.rectangle形式でリスト化
        img_rect = []
        for j in range(k):
            left = int(one_data[j*4])
            top = int(one_data[j*4+1])
            right = int(one_data[j*4+2])
            bottom = int(one_data[j*4+3])
            img_rect.append(dlib.rectangle(left, top, right, bottom))

        # boxesに矩形リストをtupleにして追加
        # imagesにファイル情報を追加
        f_path = input_folder + one_data[k*4] + '.jpg'
        if os.path.exists(f_path):
            boxes.append(tuple(img_rect))
            images.append(io.imread(f_path))

    return boxes, images


def training(boxes, images):
    u"""学習するマン."""
    # simple_object_detectorの訓練用オプションを取ってくる
    options = dlib.simple_object_detector_training_options()
    # 左右対照に学習データを増やすならtrueで訓練(メモリを使う)
    options.add_left_right_image_flips = True
    # SVMを使ってるのでC値を設定する必要がある
    options.C = 5
    # スレッド数指定
    options.num_threads = 16
    # 学習途中の出力をするかどうか
    options.be_verbose = True
    # 学習許容範囲
    options.epsilon = 0.001
    # サンプルを増やす最大数(大きすぎるとメモリを使う)
    options.upsample_limit = 8
    # 矩形検出の最小窓サイズ(80*80=6400となる)
    options.detection_window_size = 6400

    # 学習してsvmファイルを保存
    print('train...')
    detector = dlib.train_simple_object_detector(images, boxes, options)
    detector.save(output_svm)


if __name__ == '__main__':
    rect_list = get_rect(rect_file)
    boxes, images = make_train_data(rect_list)
    training(boxes, images)


simple_object_detector_training内部でデータの増量を行っており、optionのupsample_limitとadd_left_right_image_flipsで調整できる。
データの増量では、基本的なData Augmentationが行われているため、学習用のデータは最小で良い。

実際、公式のサンプルコードでは、22枚のサンプル画像と矩形情報を学習用データセットとして、高い精度の顔検出器を作っている。

あまり画像を入れるとMemoryErrorの原因となる。
大体こんな感じで止まったら、Optionのパラメータ調整しなおすか、画像を減らすか、メモリを増やす必要がある。

Traceback (most recent call last):
  File "detector.py", line 104, in <module>
    boxes, images = make_train_data(rect_list)
  File "detector.py", line 70, in make_train_data
    images.append(io.imread(f_path))
  File "C:\Python27\lib\site-packages\skimage\io\_io.py", line 61, in imread
    img = call_plugin('imread', fname, plugin=plugin, **plugin_args)
  File "C:\Python27\lib\site-packages\skimage\io\manage_plugins.py", line 211, in call_plugin
    return func(*args, **kwargs)
  File "C:\Python27\lib\site-packages\skimage\io\_plugins\pil_plugin.py", line 37, in imread
    return pil_to_ndarray(im, dtype=dtype, img_num=img_num)
  File "C:\Python27\lib\site-packages\skimage\io\_plugins\pil_plugin.py", line 111, in pil_to_ndarray
    frame = np.array(frame, dtype=dtype)
MemoryError

dlibの公式Q&Aで「MemoryErrorって出るんだけど…」という質問に対して、作者が「Buy Memory!」と応えているくらいなので仕方ない。

感覚としては、32Gメモリ積んだマシンでも、100*100サイズの画像1000枚を、add_left_right_image_flips=true、upsample_limit=4とかで学習させたら落ちる。
CPUもフルに使うので最悪PCフリーズが有り得る。
学習データを減らすのが手っ取り早いが、対応できる環境が少なくなる。
マシンかパラメータでなんとかこうとかするのが良い。
(こういう点から、dlibの物体検出器学習クラスは背景や周りの環境が固定な場合超強いって感じする。)

64Gメモリ、16コアのCPUでも100*100の画像2000枚くらいが限界っぽい。
それ以上はパラメータ調整云々でもなんともならなかった。


学習用の矩形情報と画像情報はPythonコードで言うと以下のような形式で入力する。
boxes[n]とimages[n]が共通の情報となれば良い。

boxes_img1 = ([dlib.rectangle(left=329, top=78, right=437, bottom=186),
               dlib.rectangle(left=224, top=95, right=314, bottom=185),
               dlib.rectangle(left=125, top=65, right=214, bottom=155)])
boxes_img2 = ([dlib.rectangle(left=154, top=46, right=228, bottom=121),
               dlib.rectangle(left=266, top=280, right=328, bottom=342)])
boxes = [boxes_img1, boxes_img2]
images = [io.imread(dir_path + '/xxxxxx.jpg'),
          io.imread(dir_path + '/yyyyyy.jpg')]


学習に使うrect.txtは

x1 y1 x2 y2 file_name
x1 y1 x2 y2 file_name2

のような空白CSVっぽくなってる前提。
矩形が複数ある場合の1行は

x1 y1 x2 y2 x3 y3 x4 y4 file_name

といった形式で保存してあるものをパースしている。

いつかxmlにもする。
学習データ作って、xmlで学習させてる人は居たのでリンク貼っとく。



- 学習結果のsvmを使う -

前回の記事のdetector.runする部分を修正する。

- detector = dlib.get_frontal_face_detector()
+ detector = dlib.simple_object_detector("detector.svm")

- dets, scores, idx = detector.run(img_rgb, 0)
+ dets = detector(img_rgb, 0)

自前で学習した学習器はスコアや第二候補を返さないっぽい。



- テスト -

前回の記事Google Cloud Vision APIの記事で出したデータを元に学習させる。
例によって河村友歌ちゃんの顔画像でテストする。

f:id:vaaaaaanquish:20160902172432j:plain

はい、かわいい。


いつも顔検出ばかりやっていては仕方ないので、それっぽく猫の画像を学習させ適応する。
学習データは手動で矩形を出して、たった20枚作っただけ。

f:id:vaaaaaanquish:20160902172729j:plain

はい、かわいい。


- 考察 -

dlibの物体検出は内部でサンプリングもしてくれるので、正データとなる画像と矩形だけ集めれば良いし、精度も良いので結構良い。
パラメータも少なく物体検出できる方だと思う。
メモリとCPUはバカ食いするけど愛嬌がある。

v19.01現在で、追加学習のようなクラスはないため、既存のfrontal_faceのsvmファイルをsaveしてさらに学習とかはできない。
あと、メモリ少ないから学習データ小分けにして食わせようとかもできないのでつらい。
SVMなので仕方ない感じではあるが。

文中にも書いたけど、固定的な環境(監視カメラとか背景が固定とか)だと、手軽にかなり高い精度を実現できる。
それ以外ならOpenCVとかの検出器と組み合わせるか、CNNに突っ込んだ方が吉。


- おわりに -

dlib、Deep Learningとか強化学習とか新しい手法をガンガン積んでいってるし、期待したい。

まだまだかゆい所に手が届かないので「コントリビュータにさせてくれよ!」と思ったけどGithubリポジトリなかったのでつらい。

まあでも、やり取りするより1からオレオレで書いた方が早いなと思った。

ほんとそれなわかるアカデミア。



なんかもろもろのコードはGithubリポジトリに入れといたんでよしなに。
github.com


- 追記 -

--09/04--


がんばります。

dlibを用いた顔検出器と物体検出器とその学習

- はじめに -

dlibのSimple_Object_Detectorクラスを使った物体検出用カスケードの学習をする記事。

dlibは機械学習ライブラリとして2006年から始まったプロジェクトで、基本的なSVMや線形アルゴリズム、Bayesian Network等に加えて、機械学習関係で用いるような画像処理ツールやグラフツールが付属している。

dlib C++ Library

この素敵な図を見たことある人も居ると思う
http://dlib.net/ml_guide.svg


dlibは画像からの物体検出として顔検出を代表としたオブジェクト検出用のクラスが用意されている。
中身はHoG+SVMとシンプルな構成だが、矩形情報と正例画像を与えるだけで、学習用サンプルを生成し、HoGフィルターのパラメータ調整や学習を行ってくれるAPIがある。
C++Pythonをサポートしており、以下からはUbuntu 14.04デフォルトのPython 2.7とdlib v19.0を用いる。


- dlibのインストール -

Ubuntu環境へのインストールならこの記事が分かりやすいらしい。

一応コマンドだけ貼っておくので上から実行してけばUbuntu 14.04ならワンパン。

sudo apt-get update
sudo apt-get upgrade

sudo apt-get install python-setuptools
sudo apt-get install python-pip

sudo pip install numpy
sudo apt-get install liblapack-dev libatlas-base-dev gfortran g++
sudo pip install scipy
sudo pip install matplotlib

sudo wget http://downloads.sourceforge.net/project/opencvlibrary/opencv-unix/3.0.0/opencv-3.0.0.zip
sudo apt-get install unzip
sudo unzip opencv-3.0.0.zip
sudo rm opencv-3.0.0.zip

sudo apt-get install build-essential libgtk2.0-dev libjpeg-dev libtiff5-dev libjasper-dev libopenexr-dev cmake python-dev python-numpy python-tk libtbb-dev libeigen3-dev yasm libfaac-dev libopencore-amrnb-dev libopencore-amrwb-dev libtheora-dev libvorbis-dev libxvidcore-dev libx264-dev libqt4-dev libqt4-opengl-dev sphinx-common texlive-latex-extra libv4l-dev libdc1394-22-dev libavcodec-dev libavformat-dev libswscale-dev default-jdk ant libvtk5-qt4-dev

sudo apt-get install cmake
cd opencv-3.0.0
sudo cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local -D WITH_TBB=ON -D BUILD_NEW_PYTHON_SUPPORT=ON -D WITH_V4L=ON -D WITH_FFMPEG=OFF -D BUILD_opencv_python2=ON .
// ここでの16はコア数。自分のコア数はnprocコマンド辺りで確認
sudo make -j16
sudo make install

cd ..
sudo cp opencv-3.0.0/lib/cv2.so /usr/local/lib/python2.7/site-packages/

//-----------
下記シンボリックリンクを貼らないとopencvをimportする時エラーが出る
libdc1394 error: Failed to initialize libdc1394
http://stackoverflow.com/questions/29274638/opencv-libdc1394-error-failed-to-initialize-libdc1394
カメラとかのハードウェア用ドライバが邪魔するせいらしく、dlibやopencv使用自体に問題はない。
環境次第で再起動毎にシンボリックリンク貼り直す必要がある。具体的な解決策はまだないっぽい。
//-----------

sudo ln /dev/null /dev/raw1394

//-----------
python
import cv2 
でチェック
//-----------

sudo apt-get install git

sudo pip install cython
sudo pip install scikit-image

sudo apt-get install python-dev python-numpy
sudo apt-get install libboost-dev
sudo apt-get install libboost-python-dev
sudo apt-get install libboost-system-dev

sudo pip install dlib

//-----------
python
import dlib 
でチェック
//-----------


多分これでdlibのインストールは出来ると思う。Permission deniedとかはよしなに。


- 最もシンプルな顔検出機能を使う -

dlibは標準で顔検出用にfrontal_face_detector()を提供している。
こののブログの他記事でも述べているが、OpenCVの標準の顔検出カスケードよりは遥かに性能が良いと思う。

シンプルに顔検出器を使ってテストしたい場合は下のようなスクリプトで簡単にできる。

#! /usr/bin/python
# -*- coding: utf-8 -*-
u"""dlibによる顔画像検出."""
import cv2
import dlib

# 画像ファイルパスを指定
sample_img_path = 'sample.jpg'

def facedetector_dlib(img, image_path):
    try:
        detector = dlib.get_frontal_face_detector()
        # RGB変換 (opencv形式からskimage形式に変換)
        img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
        # frontal_face_detectorクラスは矩形, スコア, サブ検出器の結果を返す
        dets, scores, idx = detector.run(img_rgb, 0)
        # 矩形の色
        color = (0, 0, 255)
        s = ''
        if len(dets) > 0:
            # 顔画像ありと判断された場合
            for i, rect in enumerate(dets):
                # detsが矩形, scoreはスコア、idxはサブ検出器の結果(0.0がメインで数が大きい程弱い)
                # print rect, scores[i], idx[i]
                cv2.rectangle(img, (rect.left(), rect.top()), (rect.right(), rect.bottom()), color, thickness=10)
                s += (str(rect.left()) + ' ' + str(rect.top()) + ' ' + str(rect.right()) + ' ' + str(rect.bottom()) + ' ')
            s += image_path
        # 矩形が書き込まれた画像とs = 'x1 y1 x2 y2 x1 y1 x2 y2 file_name'
        # 顔が無ければ s='' が返る
        return img, s
    except:
        # メモリエラーの時など
        return img, ""

if __name__ == '__main__':
    img = cv2.imread(sample_img_path)
    img, s = facedetector_dlib(img, sample_img_path)
    cv2.imwrite('output_' + sample_img_path, img)
    f = open('./rect.txt', 'w')
    f.write(s)
    f.close()

引数には画像とupsample_numの値を与えてやる。upsample_numは多分selective searchで見る枚数か回転拡大縮小で見る枚数を増やしているんだと思う。精度は向上するが、その分探索時間とメモリをめっちゃ使う。
返り値としては顔の矩形位置座標と各スコア、サブ検出器の結果が返ってくる。スコアは割と信用できるので使い勝手は良い。

Google APIの時と同じく例によって、画像をまとめてdlibの顔検出に投げるスクリプトを下記Gitリポジトリにまとめておいた。
いつかGoogleの方とまとめるかも。

https://github.com/vaaaaanquish/dlib_detection_python_script


- 一応検証 -

例のごとく適当にテスト
入力画像は最近コミケでのコスプレが可愛かった河村友歌ちゃん。
なんかもう顔検出系のデモをやる時は毎回お世話になってるナイスフリー素材。

入力
f:id:vaaaaaanquish:20160815033016j:plain

出力
f:id:vaaaaaanquish:20160815033035j:plain


はいかわいい。


- なんかおわりに -

なんかコード貼ったら長くなったので、Simple_Object_Detectorの学習に関する内容は次の記事に書いときます。

なんかごめん。


追記:書きました。
vaaaaaanquish.hatenablog.com

PythonでGoogle Cloud Visionを使った顔検出

機械学習 画像認識 Google Python

- はじめに -

前回の記事でGoogle Cloud VisionのAPIキーを発行しました。

そのAPIキーを使って、Pythonを使った顔検出(Face Detector)をやります。

顔認識じゃないです。顔検出です。


- Google APIのFACE_DETECTIONになげるやつ -

以下Pythonコードです。
変数を変更します。
api_keyに発行したAPIキーを入れます。
とりあえずこのスクリプトでSample.jpgから顔検出が出来ると思います。

#! /usr/bin/python
# -*- coding: utf-8 -*-
'''Gooogle Cloud Vision APIに画像を投げるやつ.'''

import base64
import cv2
from requests import Request, Session
import json

# ここにAPIキーを入れる
api_key = ''
# このスクリプトを単体で実行する場合はここにファイルパスを指定
sample_img_path = 'sample.jpg'
# 検出する顔の数の最大数 (多いほどレスポンスが返ってくるのが遅い)
max_results = 8
# DISCOVERY_URLは現時点(2016/08)でこれしかないのでこのまま
DISCOVERY_URL = 'https://vision.googleapis.com/v1/images:annotate?key='


# cv画像と画像ファイルへのPathと検出最大数が引数
def facedetector_gcv(img, image_path, max_results):
    # 通信不良等を考慮してTry...expectしておく
    try:
        # base64convert用に読み込む
        image = open(image_path, 'rb').read()

        # 顔を検出するやつのResponse作成
        str_headers = {'Content-Type': 'application/json'}
        batch_request = {'requests': [{'image': {'content': base64.b64encode(image)}, 'features': [{'type': 'FACE_DETECTION', 'maxResults': max_results, }]}]}

        # セッション作ってリクエストSend
        obj_session = Session()
        obj_request = Request("POST", DISCOVERY_URL + api_key, data=json.dumps(batch_request), headers=str_headers)
        obj_prepped = obj_session.prepare_request(obj_request)
        obj_response = obj_session.send(obj_prepped, verify=True, timeout=180)

        # Responseからjsonを抽出
        response_json = json.loads(obj_response.text)
        # 返り値用
        s = ''
        # 'faceAnnotations'があれば顔あり
        if 'faceAnnotations' in response_json['responses'][0]:
            faces = response_json['responses'][0]['faceAnnotations']

            # 画像情報
            s += image_path + ' '
            # OpenCVで矩形を書き込み
            for face in faces:
                # 0と2が両端の番地
                x = face['fdBoundingPoly']['vertices'][0]['x']
                y = face['fdBoundingPoly']['vertices'][0]['y']
                x2 = face['fdBoundingPoly']['vertices'][2]['x']
                y2 = face['fdBoundingPoly']['vertices'][2]['y']
                cv2.rectangle(img, (x, y), (x2, y2), (0, 0, 255), thickness=10)
                # 矩形情報を保存
                s += (str(x) + ' ' + str(y) + ' ' + str(x2) + ' ' + str(y2) + ' ')

        # 矩形が書き込まれた画像とs = 'file_name x1 y1 x2 y2'
        # 顔が無ければsは空
        return img, s

    except:
        return img, ""


if __name__ == '__main__':
    # 画像読み込み
    img = cv2.imread(sample_img_path)

    # Goog;e API
    img, s = facedetector_gcv(img, sample_img_path, max_results)

    # 画像出力
    cv2.imwrite('output_' + sample_img_path, img)

    # 矩形情報出力
    f = open('./rect.txt', 'w')
    f.write(s)
    f.close()

PEP8ガン無視で横に長くてスマン。


- テスト -

フリー画像で顔があって可愛いと言えば河村友歌ちゃんかなと思い用意しました。

これを入力にします。
f:id:vaaaaaanquish:20160808145629j:plain


こうなります。
f:id:vaaaaaanquish:20160808145702j:plain


複数の顔画像が入った写真もテストしてみます。
こんな感じでmax_resultsで指定した数までは顔検出できます。
f:id:vaaaaaanquish:20160808151204j:plain


- レスポンス -

レスポンスで返ってくるのは以下の通りです。

{
"boundingPoly": 顔の矩形位置(4頂点のx,y座標)

"fdBoundingPoly": 耳なども含めた顔の矩形位置(4頂点のx,y座標)

"landmarks": 以下のパーツの位置、三次元座標軸(x,y,z)
[
    "UNKNOWN_LANDMARK" : 謎
    "LEFT_EYE" : 左目
    "RIGHT_EYE" : 右目
    "LEFT_OF_LEFT_EYEBROW" : 左眉の左端
    "RIGHT_OF_LEFT_EYEBROW" : 左眉の右端
    "LEFT_OF_RIGHT_EYEBROW" : 右眉の左端
    "RIGHT_OF_RIGHT_EYEBROW" : 右眉の右端
    "MIDPOINT_BETWEEN_EYES" : 両目の中心
    "NOSE_TIP" : 鼻の頂点
    "UPPER_LIP" : 上唇
    "LOWER_LIP" : 下唇
    "MOUTH_LEFT" : 口全体の左端
    "MOUTH_RIGHT" : 口全体の右端
    "MOUTH_CENTER" : 口中央
    "NOSE_BOTTOM_RIGHT" : 鼻の下右側
    "NOSE_BOTTOM_LEFT" : 鼻の下左側
    "NOSE_BOTTOM_CENTER" : 鼻の下中央
    "LEFT_EYE_TOP_BOUNDARY" : 左目中央上境界
    "LEFT_EYE_RIGHT_CORNER" : 左目右ライン
    "LEFT_EYE_BOTTOM_BOUNDARY" : 左目中央下境界
    "LEFT_EYE_LEFT_CORNER" : 左目左ライン
    "LEFT_EYE_PUPIL" : 左目瞳
    "RIGHT_EYE_TOP_BOUNDARY" : 右目中央上境界
    "RIGHT_EYE_RIGHT_CORNER" : 右目右ライン
    "RIGHT_EYE_BOTTOM_BOUNDARY" : 右目中央下境界
    "RIGHT_EYE_LEFT_CORNER" : 右目左ライン
    "RIGHT_EYE_PUPIL" : 右目瞳
    "LEFT_EYEBROW_UPPER_MIDPOINT" : 左眉中間点座標
    "RIGHT_EYEBROW_UPPER_MIDPOINT" : 右眉中間点座標
    "LEFT_EAR_TRAGION" : 右耳
    "RIGHT_EAR_TRAGION" : 左耳
    "FOREHEAD_GLABELLA" : おでこ
    "CHIN_GNATHION" : アゴ、下顎下縁正中点
    "CHIN_LEFT_GONION" : アゴの左側
    "CHIN_RIGHT_GONION" : アゴの右側
]

"rollAngle" : 画像の回転角度
"panAngle" : 顔の左右回転角度,
"tiltAngle" : 顔の左右回転角度,
"detectionConfidence" : 顔検出信頼度
"landmarkingConfidence" : landmarksの信頼度

以下感情推定や状態推定
UNKNOWN	判定不能。
VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY, VERY_LIKELYで返ってくる。

"joyLikelihood" : 楽しそう
"sorrowLikelihood" : 悲しそう
"angerLikelihood" : 怒ってそう
"surpriseLikelihood" : 驚いてそう
"underExposedLikelihood" : 肌を露出してそう
"blurredLikelihood" : ぼやけてそう
"headwearLikelihood" : 帽子とか付けてそう
}

返ってきすぎ。
感情推定や状態推定はちょっと精度悪くてあんまり信用できないです。
ただ、横顔や顔が途切れてても結構返ってくるのですごい精度です。
後Landmarkが返ってきたりするのも学習用データ作りが捗りますね。


- 精度に関する知見 -

OpenCVとdlibで顔検出をおこなった場合の知見を以前まとめました。

OpenCVは無駄な矩形を多く出力して、recallを上げてくるイメージです。
OpenCVでは、入力に顔画像の最小サイズを指定できますが、結局そのパラメータを調整すると顔がそのサイズ以下になった時に検出できないのでう~んという感じです。
ただ、追加の学習が非常に簡単に行えるので、精度向上を測るのはやりやすいですね。
Anime_Faceを代表に、色んな状況での顔検出に最適化する事ができます。

対してdlibは、デフォで顔検出に関してとても精度が高いです。
ただ、中身にHoGとSVMを使っている事もあり、顔っぽい文字やロゴを検出してしまうのがネックです。
また、オブジェクト検出用の学習も出来るには出来るんですが、学習用の関数がまだまだ使いにくい事もネックですね。

対して、Google Cloud Visionは追加での学習こそ出来ませんが、ものすごい精度で検出してきます。
しかも無駄な矩形をほとんど返さないのが魅力的です。
デフォルトの検出器を適当にprecisionで言うなら OpenCVが0.3、dlibが0.6、Googleは0.98という感じです。
しかも状態情報もくれるのでサイコー。


- 料金体系 -

最後に料金体系はこんな感じです。

- ~1000枚 ~100万枚 ~500万枚 ~2000万枚
1000枚毎に Free $2.50 $1.50 $0.6
限度枚数投げると Free $2497.5 $8496.0 $16895.4

限度枚数投げるとというのは、例えば100万枚投げた場合、最初の1000枚はFreeの価格が適応されるので無料。その後の999000枚は$2.5/1000枚かかるので総額が

F + 999000 * 2.5 / 1000 = $2497.5

という感じです。その後も同様に計算して

F + $2497.5 + (3999000 * 1.50 / 1000) = $2497.5 + $5998.5 = $8496.0
F + $2497.5 + (3999000 * 1.50 / 1000) + (13999000 * 0.6 /1000)
                   = $8496.0 + $8399.4 = $16895.4

日本円にすると2000万枚投げたら大体180万円くらいですね。

ただ、今は初期登録で60日間使える$300を貰えるので、無料で$2.5/1000枚とFree分合わせて12万と1000枚投げられます。
12万枚かなりの精度で色んな情報が返ってくると思うと、課金まで行かなくても全然使えますね。

後、これ以上投げる場合の金額は相談してねって感じみたいです。

Googleの公式の金額のページはここ。相談先もここ。
https://cloud.google.com/vision/docs/pricing

他にもラベル検出(LABEL_DETECTION)、文字検出+OCR(TEXT_DETECTION)、 有害コンテンツ検出(SAFE_SEARCH_DETECTION)、各物体のランドマーク検出(LANDMARK_DETECTION)、ロゴマーク検出(LOGO_DETECTION)、色解析(IMAGE_PROPERTIES)が使えて、それぞれ大体同じ金額になると思います。
何故かラベル出すやつだけ高いです。企業にお金でも払ってるんでしょうか。


- おわりに -

人工知能だので画像認識系の機械学習技術が話題という事もあり、機械学習APIがポツポツ出てきてますが、精度や安定性はやっぱりGoogleには勝てないですね。
中身はDeep Learning、R-CNN辺りでしょうか。
1レスポンスで返ってくる辺り、感情推定なんかも同じネットワーク内でやってそうですね。
すごいぞGoogle。流石だGoogle
「とりあえず顔検出用の学習データが欲しい」という時に無料枠でとりあえず使えますね。
そのデータを使いながら、環境に対して最適化していけば良いと思います。
あと、他のAPIも使う記事を気が向けば書きます

一応フォルダ内の画像を全部Google APIに投げて「顔画像あり」「顔画像なし」に分けて矩形情報を保存するスクリプトを書きました。
上部の画像単体を投げるスクリプトも一緒にGitリポジトリに入れてますので以下参照。