WebDBForum2017で登壇しました

- はじめに -

9月18日から9月20日までの3日間、お茶の水女子大学で開催されていたWebDBフォーラム2017に参加し、会社員として登壇した。

WebDB Forum 2017 第10回Webとデータベースに関するフォーラム

登壇では、自社のサービスについてと機械学習プロジェクトについて話した。

企業ブースに基本的には居る形でしたが、聴講もしたので少なめではありますが個人的に気になった発表をまとめておく。

- 登壇と自社ブース -

登壇では、機械学習関連の話をつらつらとした。

自社内でのプロジェクトの紹介に加えて、「機械学習はGarbage in, Garbage outであること」「学習データ作りと学習データを作る人の知識ドメインが重要であること」「支えるインフラや現行する基礎技術、周囲の理解、人が必要であるということ」などを加えて話した。

Garbage in, Garbage Out: How Purportedly Great Machine Learning Models Can Be Screwed Up By Bad Data [2017, Black Hat USA, Hillary Sanders]
機械学習: ダメなデータからはダメな結果しか生まれない – Naked Security
あなたの会社は本当に機械学習を導入すべきなのか？ - bohemia日記

「明確な目的と現行するルールベースな基盤、それなりのインフラ環境がないと、いくら良いDBがあってもデータサイエンティストも雇う意味がないよ」辺りが伝われば良かったかなと思う。

あと自慢も含めて弊社はそれらが出来てますよという話しをした。

登壇資料は許可が出れば公開します。

※許可が出たので一部加筆修正の上で公開しました
speakerdeck.com

- 気になった発表 -

少ないが機械学習関連はとりあえず見た。

幾つか感想。

Learning from Bandit Feedback

招待講演。
最近流行りのバンディットアルゴリズムの説明とその例が紹介されていた。
(Maarten de Rijkeサンの英語発表だったので所々聞きそびれた…)

前回参加したSIGIR 2017でも検索等でのバンディットアルゴリズムを利用したA/Bテストですごい売り上げ変わりますみたいな発表がなされていたし、PyConのrejectカンファレンスでもリクルートの方がバンディットの話をしていた。

完全にブーム。

講演では検索の他に、広告の配置や商品分類での例が示されていて、結果としてユーザ体験も売り上げもグッと最適化されるよねという感じだった。すごいぞバンディット。

「LIFULL HOME'Sデータセット」提供を通じた不動産テック分野のオープンイノベーション

LIFULLの清田さんの発表。

部屋データセット公開してますという話から、部屋の画像からDeep Learningで部屋構造を解析するとか。

情報学研究データリポジトリ LIFULL HOME'Sデータセット

大体SlideShareでLIFULLさんが公開してるいつものという感じ。
以下とか。
LIFULL HOME'Sにおける不動産物件画像解析

　
2日目のレセプションで清田さんと少し話す機会があり、不動産テックはユーザが長続きしにくい(引越しや購入で一区切り)だったり、フィードバックがなかなか得られない等が起因して難しい分野ではあると言っていた。

だが、その分少しの工夫や技術が環境を変えていくので面白い分野ではあるなと思った。

Deep Learningで部屋の解析情報をheatmapにして表示するやつとかすごい面白いなあと思いながらいつも見ている。あれ、どれくらいのデータが必要なんだろうか…

深層学習を用いた電子カルテ医療情報の多角的解析

論文：https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&page_id=13&block_id=8&item_id=183361&item_no=1

電子カルテ医療情報から退院時の「転帰」の分類
(転帰：疾患・怪我などの治療における症状の経過や結果)

医療情報は数値と文字列なのでword2vec
(一応one-hotはダメという先行研究があるらしいが分散表現にした理由は質疑含めあまり良く理解できなかったが、一応Most Simillerで似た病名が出てきたりしていた)

MGFSとTop-Kを使って特徴選択 (各特徴のスコア算出 -> このスコアを使いながら多角的分析)
LSTM -> LSTM -> Softmaxで分類

特徴選択におけるMGFSとTop-Kの結果で評価し、その特徴量が分類においてどう重要かというのが一部分かっていた(この特徴量は他特徴量と混ぜると良いとか)。

SVMと比較して分類精度も向上していた
SVMの先行研究が多いのかな

Deepの結果の分析は割とこれから来るはずなので発展に期待

Dragon: A Distributed Object Storage @Yahoo! JAPAN

色んな検討の結果、フルスクラッチで独自のオブジェクトストレージ作りましたという話

多分この人↓
Goでヤフーの分散オブジェクトストレージを作った話 Go Conference 2017 Spring

ストレージをRAID通さずに個々に動作させて作るとか、AWSのAPIをラッピングしているのでPythonで言うところのboto3のようなAWS謹製のパッケージから呼べる仕組みであるとか。

上のスライドと違っていた所では、速度等を丁寧に比較したグラフが幾つか示されていて良かった。

久々に「RAIDは遅いんで〜」と言ってる人を見た

「Dragon」と名付けているらしいけど、そういう文化なのかなYahoo…

LTとか他色々

色んなデータの話があって、Wikipediaを人手と機械学習でクラスタリングした結果(「拡張固有表現＋Wikipedia」データランゲージ・クラフト)や、色んな国が出してるオープンデータをちゃんと整形してまとめて地図と組み合わせてAPIとして公開(Spaada | 高精度エリアレポーティングサービス — microbase)とか。

あと一般社団法人データサイエンティスト協会なるものがあることを知った。

− おわりに −

カンファレンスの規模感としては小さめに思えたが、中の人達や教授は「だいぶ巨大なコミュニティになった」と言ってたのでそうなのかも。
(大体300人くらいの参加者だし、人工知能なんとか系のカンファレンスはブームでデカくなり過ぎたので、あんまり体感で比較は良くない)

データベース界隈もビッグデータや機械学習の波が来ているらしく、登壇もポスターも機械学習テーマが相当数居たし、機械学習系の見知った人も居て挨拶した。

3日目が一番テクノロジーショーケースが盛り上がったっぽいんだけど、見れてないので残念。
まあ他の所で似た発表聞けるんだろうけど…

あとはブロックチェーンの話とか野球の分析(今回何故か3つくらいあった)辺りは、今まで適当に聞いてたので深めに聞けてよかった。

SIGIRの時も書いたけど、機械学習はフレームワークでめっちゃ敷居下がったにも関わらず、目的設定やモデル設計、チューニングは経験がないと出来ないので、ちょっと他分野になったら手に余ってる感じがあった。
そういった所もフラットになっていくと更に面白そう。

登壇は結構好評だったのでありがたさです。
挨拶して頂いた方、また機会があればよろしくお願いします。
最近イベント系の感想記事多すぎてクソブログになりつつあるのでちゃんと勉強しよ。

お茶大って略すのはじめてしりました
f:id:vaaaaaanquish:20170918101558j:plain:h400:w300

Stimulator

機械学習とか好きな技術話とかエンジニア的な話とかを書く