CIKM2017聴講メモ（後編）

- はじめに -

シンガポールで行われているInternational Conference on Information and Knowledge Management (CIKM) 2017に参加した。

workshop day + main conference day (3day) の合計4日間。
メモはその場で書いたものを少し編集しただけで、論文を詳しく読めているものと読めていないものがある。論文読みは別途。
メモだけは長くなりそうなので前半後半に分ける。

以下が前半

各文献は以下から追える
dblp: 25. CIKM 2017

- 目次 -

- はじめに -
- 目次 -
- Conference(3日目) -
- Online learning, Stream mining
- Deep Learning 1
- Conference(4日目) -
- おわりに -

- Conference(3日目) -

大雨で笑った。シンガポール蒸し暑いし、スコールが厳しい。
また最後のセッションが３つしかないのはDEMOみたいなのがあったからで、今回はそちらを見ていた。

Metaricaみたいなデータ分析、ビジュアライズツールの作者がDEMOをしていた。
Metarica：https://hpi.de/naumann/projects/data-profiling-and-analytics/metacrate.html
他で気になったのは特段無かったかなあ…

Online learning, Stream mining

BoostVHT: Boosting Distributed Streaming Decision Trees

オンラインなBoostingは並列化難しいと言われているが、提案するBoostVHTなら分散エンジンにも乗るし分類も適切にできるよという話。

Vertical Hoeffding Tree(VHT)は、1つのModel Aggregatorが複数の統計計算をコントロールしてその結果を使って学習していくモデル。計算した複数の結果から上位を選んで(木であれば)葉の分割するしないを決定してModel Aggregatorが更新されていく。

VHTのつらいところはOzaBoostとかAdaBoost、OSBoostといった最近のBoostingモデルに適応する時に、各インスタンスの重みを変更する部分で相互接続が必要になること。なので、Model Aggregatorの部分を以下のように逐次的な感じにしてやれば良いのではという話。

f:id:vaaaaaanquish:20171118225545p:plain:w350

f:id:vaaaaaanquish:20171118225553p:plain:w350

既存のMOA(OzaBoostの並列拡張)と同等くらいに早くて精度が高い。
Boosting好きそうな登壇者とBoosting好きそうな質問者による質疑があり、Git公開も考えてるとのことだった。

VHT: Kourtellis, Nicolas, et al. "VHT: Vertical hoeffding tree." Big Data (Big Data), 2016 IEEE International Conference on. IEEE, 2016.
MOA: Bifet, Albert, et al. "Moa: Massive online analysis." Journal of Machine Learning Research 11.May (2010): 1601-1604.
SAMOA: Morales, Gianmarco De Francisci, and Albert Bifet. "SAMOA: scalable advanced massive online analysis." Journal of Machine Learning Research 16.1 (2015): 149-153.

Stream Aggregation Through Order Sampling

論文: Stream Aggregation Through Order Sampling

ユニークキーの無いデータで効率的にオーダーサンプリングするアルゴリズム、Priority-Based Aggregation(PBA)の提案。

スライドにも数式多く、時間ないと分からない部分が多すぎるので論文を読む。

FUSION: An Online Method for Multistream Classification

論文: FUSION

ストリーム状のデータ分類では、データにあるドメイン情報があるはずで、それらを利用してsourceを学習した結果を活かしながらtarget学習できるアーキテクチャを提案。

f:id:vaaaaaanquish:20171118233930p:plain:w350

図内のDensity Ratio Estimation Module(DRM)が入力データストリームと今までの分布の差を計算、Drift Detection Module(DDM)に回りしきい値を超えた場合に「入力データ分布が変わった(driftした)」として学習が進むアーキテクチャ。

結果いい感じだけどどういった状態で使うかなぁというイメージ。

Deep Learning 1

部屋を間違えて１つ目の発表を聞き逃す等した

Length Adaptive Recurrent Model for Text Classification

論文: Length Adaptive Recurrent Model for Text Classification

テキスト分類のLSTMに対して以下のようにFCN付けて拡張したLength Adaptive Recurrent Model(LARN)を提案。

f:id:vaaaaaanquish:20171118235602p:plain:w350

まあテキスト全体と一部の効果どっちも欲しいよねという前提で分からんでもないモデル。
結果はバニラLSTMと比較しているのだが、質疑で「バニラLSTMとの比較はフェアではないのではないか」とかなり激しめの口調で指摘する人が居るなどしていた。心が痛い。

Multi-Task Neural Network for Non-discrete Attribute Prediction in Knowledge Graphs

論文: Multi-Task Neural Network for Non-discrete Attribute Prediction in Knowledge Graphs

Graph Embeddingの新しいネットワークの提案。
ネットワークのRelationalとAtributeそれぞれ入出力にした１つのネットワークMULTI-TASK KNOWLEDGE GRAPH NEURAL NETWORK (MT-KGNN)。

f:id:vaaaaaanquish:20171119002056p:plain:w350

気持ちは分からなくもないが、何で左右に挟まれてたりするかは聞いてたが謎だった…

Movie Fill in the Blank with Adaptive Temporal Attention and Description Update.

論文: http://delivery.acm.org/10.1145/3140000/3132922/p1039-chen.pdf?ip=175.177.5.173&id=3132922&acc=OPEN&key=4D4702B0C3E38B35.4D4702B0C3E38B35.4D4702B0C3E38B35.6D218144511F3437&CFID=822711636&CFTOKEN=60985772&__acm__=1511019051_cba0bc5f027c502b908eb39acc33e0d2

動画から文章が出てほしいタスクを解くため、大きめのネットワークモデルを提案。
なんかまずは穴埋めからやっていた。

f:id:vaaaaaanquish:20171119002845p:plain:w350

モデルの図はデカいけど、やってる事はシンプルで多層LSTM挟んでConcatしてMLP。結果はめちゃくちゃ良いわけではないような感じだったがこれいかに。

- Conference(4日目) -

Efficient Learning

Sequence Modeling with Hierarchical Deep Generative Models with Dual Memory

論文: Sequence Modeling with Hierarchical Deep Generative Models with Dual Memory

discrete sequencesで似たテキストが欲しい時、RNN、CNNだとOverfitting、Lack diversityしやすい。Deep Generative Modelsだとpoor result。
長期、短期の記憶を考慮したVAE拡張のsequenceアーキテクチャを提案。

Dual Memoriesと呼んでいて、Encoding側にBroad Memory(B-HDGM)、Generative側にDeep Memory(D-HDGM)を組み合わせ接続したBi-BD-HDGM。
f:id:vaaaaaanquish:20171119181716p:plain:w350

デカいすぎてもうこれ分からんなという感じで、学習時間もVAE等に比べて遅くなるが、結果は良い感じの文章。
質疑では、良くない文章が生成される場合もありそうだとの指摘があったが全般的に良くなる(?)といった回答だった。

Active Learning for Large-Scale Entity Resolution

論文: Active Learning for Large-Scale Entity Resolution

IBM Researchの人。発表が丁寧だった。
「アイツだれだっけ…」を解決したい(Entity Resolution, ER)。TwitterとIBMのEnterpriseデータをマッチングしたいけどデカいし全然マッチングしないので、両者から適切に検索しマッチングさせたい。
そこでactive learningベースで高いprecisionとrecallを出せるERLernを提案。

プロファイルデータのマッチングのルールを学習(名前ANDステータスOR…みたいな)。
そのルールを元にqueryを生成してマッチングユーザを探す。

f:id:vaaaaaanquish:20171119185337p:plain:w350

Twitterとのマッチングとか、入力になる特徴量を増やすのが難しいのでこういったアーキテクチャは使われそう。

Indexable Bayesian Personalized Ranking for Efficient Top-k Recommendation

論文: Indexable Bayesian Personalized Ranking for Efficient Top-k Recommendation

Top-K推薦検索のタスクでは速度と精度どちらも大事。
MFはitem行列デカい。exhaustive-searchはpracitialじゃない(力任せ探索は実践向きじゃない)。

item Vectorをhash tableかけてTop-K itemをだすLocality Sensitive Hashing(LSH)、Maximum Inner Product Search(MIPS)、Nearest Neighbar Search(NNS)、Maximum Cosine Similarity Search(MCSS)あたりあるけど内積検索と同等レベルではない。

Bayesian Probabilistic Matrix Factorizationを参考に、相対的なTop-Kを出せるIndexable Bayesian Personalized Ranking(Indexable BPR)を提案。
speedも精度もかなり上がってハッピーそう。

Bayesian Probabilistic Matrix Factorization: Salakhutdinov, Ruslan, and Andriy Mnih. "Bayesian probabilistic matrix factorization using Markov chain Monte Carlo." Proceedings of the 25th international conference on Machine learning. ACM, 2008.

Latency Reduction via Decision Tree Based Query Construction

論文: Latency Reduction via Decision Tree Based Query Construction

Facebook社の人の発表。
Linked Inのジョブレコメンド、ジョブサーチについて。

query生成にはTerm MatchとDecision TreeとLinear Modelが入ってるらしい。
検索では当たり前になりつつあるWANDオペレータとFLEXオペレータで繋げたqueryを生成。

f:id:vaaaaaanquish:20171119192306p:plain:w600

アーキテクチャやAWS配置がプレゼン内に出てきたが、さほど複雑な使い方はしておらず、拡張子しやすさやDecision Treeによる確認、改修のしやすさを大事にしている段階とのこと。
というかFacebook社もAWSだったの何気に初めて知ったかも。

Adversarial IR

Sybil Defense in Crowdsourcing Platforms

論文: Sybil Defense in Crowdsourcing Platforms

クラウドソーシングって色んな所で活用できるけど、悪意のあるユーザがアカウントを大量に使って攻撃してきた場合に品質保証できないから、対策したい。
従業員の類似性を定量化するフレームワークで、いくつかの質問で悪意あるユーザをグルーピングしていくだけでなく、オンラインに検出する方法を提案。

普通にいくつかの質問の答えに重みを付けていたのでう〜んという感じ

HoloScope: Topology-and-Spike Aware Fraud Detection

論文: HoloScope
Github: GitHub - shenghua-liu/HoloScope: HoloScope: Topology-and-Spike Aware Fraud Detection

ネットの詐欺師の検出。大体悪意あるユーザは大量の偽アカウントやIP大量購入したりしてくるので、一般的な手法だと攻撃として目立ちにくい。

なんなら中国では、国民の53.1%がネットに触れていて、平均3時間/日≒8年分が1日に消費されていて世界2位で、年間で7,500億ドルが動いている。Methbotのfakeレビューやfake投稿は日に3000億件あるし、それらが5百万ドル稼いでると予測されているという話からスタート。規模〜。

手法的には簡易で、Graphトポロジーと時間軸におけるスパイクを利用してユーザを検出。そのユーザ分けに使う動的な重み付け、ユーザ評価を含んだ検出フレームワークを提案。

Building a Dossier on the Cheap: Integrating Distributed Personal Data Resources Under Cost Constraints

論文: Building a Dossier on the Cheap

TwitterとかNetflixとか色んなデータを合わせれば、特定個人の個人情報や機密情報って結構作れるから危ない。公開するデータの危なさを評価するフレームワークと、予測モデルみたいなのを作ったという話。

特段難しい事はしていないが、今後こういったタスクをやる時にまた読むかもくらい。

DeMalC: A Feature-rich Machine Learning Framework for Malicious Call Detection

論文: DeMalC

アリババ社の人の発表。
中国では2015年に590,000件電話詐欺が発生しているし、悪意ある電話本当損失になる。
かと言って、データは無いしあっても不均衡だし詐欺師は検出されないよう進化するし、ブラックリストでもなかなか対策できない。

なのでIPアドレスから端末UIDからありとあらゆるデータをマイニングして判別するようなDeMalCフレームワーク作りましたという内容。
精度が91％になっているけど、実際それで検出するのはなかなか…という感想。

Representation learning

An Attention-based Collaboration Framework for Multi-View Network Representation Learning

論文: An Attention-based Collaboration Framework for Multi-View Network Representation Learning

いろいろなネットワークの形から目的とする人について学習タスクでも、DeepWak, LINE, w2vみたく、ノード空間の埋め込みがやりたい。

複数のネットワークをそれぞれ学習させるのではなく、まとめて1つの入力にする。
f:id:vaaaaaanquish:20171119204118p:plain:w350

こういった複数ネットワークを入力にするモデルはA co-regularized multi-view spectral clustering model (CMSC)、 A multi-view non-negative matrix factorization model(MultiNMF)等があるがそれらともまたちょっと違っていて、ちょっとSOMっぽい(?)。

辞書共有などは特段しているわけではないがFuture work。

CMSC: Kumar, Abhishek, Piyush Rai, and Hal Daume. "Co-regularized multi-view spectral clustering." Advances in neural information processing systems. 2011.
MultiNMF: Liu, Jialu, et al. "Multi-view clustering via joint nonnegative matrix factorization." Proceedings of the 2013 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics, 2013.

Representation Learning of Large-Scale Knowledge Graphs via Entity Feature Combinations

論文: Representation Learning of Large-Scale Knowledge Graphs via Entity Feature Combinations

Knowledge Graphに対する手法でTranslation-baseなモデルではTransE, TramsH, TransR, TransDがある。

TransE: $h+r=t$
TransH: $h-w_{r}^{T}hw_{r}+r=t-w_{r}^{T}tw_{r}$
TransR: $hM_{r}+r=tM_{r}$
TransD: $h+h_{p}^{T}hr_{p}+r=t+t_{p}^{T}tr_{p}$
となってる訳だけど、このバイアスになってる $r$ でentityとrelation featuresを同時に表現したい。
そこにプラスとマイナスのcombinationを入れてやってScoreでマージするCombinEを提案。SOTA。