PyCon JP 2017に参加しました - 前半 #pyconjp

- はじめに -

PyCon JP 2017の1日目(正確にはtutorial含めると2日目)を聴講してきた

https://www.pycon.jp/

2日目も出るけど話長くなりそうなので分割

先日、PyCon JP Reject Conferenceなるものにも参加してきたので冒頭で少しだけ触れておく

- PyCon JP Reject Conference -

PyCon JPにリジェクトされた内容を飲みながら発表しようという会（非公式）

https://techplay.jp/event/630686

倍率高かったもののリジェクトの理由を当人に聞いていくと大体以下のどれかだった

Proposalを適当に書く
Pythonの話をしない
ニッチすぎる内容にした

中でも「Proposalを書いてる時がやる気の頂点」みたいな話が「わかる」ってなった
あと「みなさんモチロン○○使ってますよね！」と聞いてシーンとなるやつはリジェクトされるんだなあって感じだった(いや、PyConJPも十分ニッチな発表あったけど…)

ニッチな分、今後使うか分からないけど面白い知見が得られてよかった
Recruitの機械学習の話とかErrbotの話は今後も使えそう

あと、登壇者が私の会社の後輩と同じ研究室という現象があって、世間狭いし下手な事言わないようにしないとなって思った
私も来年PyCon出たいと思っているけど、来年もリジェクト沢山出そうだしまたやってほしい

詳しくはTogetter
PyCon JP Reject Conference 2017 - Togetterまとめ

- 野球を科学する技術 -

https://pycon.jp/2017/ja/schedule/presentation/15/

なんかもう界隈では有名人らしい人っぽかった

bradfordなる分析基盤をDockerにして公開したという話
(マネー・ボールのチャド・ブラッドフォードから命名したらしい)

中身はscrapyやそれらを回すためのAirflow、MySQLやらの紹介で、スクレイピングの話沢山聞けるかなと思ったけどscrapyのいつもの図が出て終わったのでちょっと残念だった

scrapyのデフォルト設定は攻撃レベルなので危険という話をしていたのは良かった
これもうちょっと広まって欲しい

scrapyならべつにAirflow使わずScrapy Cloudにモデルアップロードして回すのとコスト変わらないのではと思いつつ、自前のSQLとかお手製の色々を使いたい部分もあるだろうし、この辺はTPOだなって感じだった。Reject Conferenceでもluigiの話があって、「luigiのユニットテストつらくない？」って思ったんだけど、やっぱ結論AirflowやluigiはTPOだなって。金に余裕があるならAWS。

wOBAやwRAAなる野球の分析のための指標の紹介もあって、これは理にかなっていそうだし知見にはなったけど、人生で使うことはｎ…

割とWikipediaが丁寧だった
https://ja.wikipedia.org/wiki/WOBA_(野球)

アメリカ野球学会(SABR)が色々やっているらしく、歴史も長いので参考になりそう
https://ja.wikipedia.org/wiki/セイバーメトリクス

- Using machine learning to try and predict taxi availability -

https://pycon.jp/2017/ja/schedule/presentation/55/

シンガポールは政府がタクシーの位置スナップショット情報や空席情報をAPIとして公開してるらしく、それらを使って分析しましたという話。
シンガポールスゲー…(日本はなかなかこういうの発展しない感)

ここで見れる
data.gov.sg

色々はGithubで公開されていたので気になれば
GitHub - hari-allamraju/pycon-talk-taxidata: Repo for my talk on machine learning with taxi data at PyCon APAC 2017 and PyCon JP 2017
script等へのリンクもある

実分析する中でのRDDとDataFrameでやった比較をしていて「JVM上ならDF早いよ！」という主張だった。好み〜

- Kivyによるアプリケーション開発のすすめ -

https://pycon.jp/2017/ja/schedule/presentation/20/

スライド：PyconJP2017 Kivyによるアプリケーション開発のすすめ

私は機械学習で画像の学習データ見る基盤程度にGUIアプリ作ってたレベルで、PyQtしか使ったことなく気になって見た

色んなGUIが紹介されてて、iOSもPython3系対応中らしい

一通り聞いたけど、まあPyQtで良いかなあという感じ…
ライトユーザだからKV languageがネックだけど、ちゃんとアプリとして動かしてくとなるとファイルが分割されてる方が嬉しい事あるだろうなと思う

KV languageはCSSみたいなもんでビュー画面作る色々って紹介されていて、動的なコーディングツールもあるらしい
kviewer：kivy/kviewer.py at master · kivy/kivy · GitHub
(kviewerでググるとサイボウズのkintone連携サービスが出てきて、命名も大変だなって…)

デモを見るとめっちゃ良さそうだけど、発表聞いてると使うのめっちゃ辛そう #pyconjp_203 #pyconjp
— replu (@replu5) 2017年9月8日

最後にちょっとデモがあったけど、アニメーションはカッコよかった！(手前味噌)

- Why you should do text analysis with Python -

https://pycon.jp/2017/ja/schedule/presentation/5/

まとめると、「自然言語の正規表現、パースから生成、機械学習まで全部Pythonでやりたい！機械学習の発展もあるしチャットボット作ったりできて人の仕事も減るから自然言語処理やろうぜ！APIとかフレームワークのおかげで機械学習使うだけならSuper Easyになったし！」みたいな感じ（わかる）

データはどっから取ってくる？オープンデータ、API、スクレイピング、アプリのフィードバック、ebooks…色んな所にあるよね。テキストデータは時に「garbage in garbage out」だから前処理しないとダメだよね。MLならこんなライブラリ使うと良いよね。
という話が展開されていた

- Pythonによる文章自動生成入門 -

https://pycon.jp/2017/ja/schedule/presentation/21/

スライド：Pycon jp2017 20170908_doc_ota

登壇者曰く、論文読みながら聞いてくれみたいな感じだった

#pyconjp_203 こちらをDLしてください！2017年9月8日（金）02:40PM-03:10PM Pythonによる文章自動生成入門！
Python×自然言語処理×ディープラーニング https://t.co/VRjI4dqhvU
— やっぱスモールデータ派 (@otanet) 2017年9月8日

後ろは立ち見、通路に座って聞く人まで出る程の盛況さ
最近話題だしタイトルがキャッチーだったからなという印象

スライドの最初辺りで「GANとかで出た結果の著作権に関する議論はあまり出ていない」と出ていたけど、「機械学習　著作権」みたいなレベルの日本語でもググったら沢山資料出て来るし、色んな学会で議論されている内容なので機械学習屋としてはそこだけ修正したかった
権利周りはナイーブだし、真面目にやってる人達が居てちゃんと議論を進めていますよい

発表自体はほぼ学会発表で、オリジナリティのある文章を生成するためにn-gramで”文章の言い換え”を色々検証して評価してもらったという話だった
”言い換え”は「品詞の変換」「能動態、受動態の変換」「2つ以上の単語を1つにまとめる」の3種類と定義していた

何となくだけど、日本語の言い換えって「比喩」とか「描写」とかのレイヤーもあってワンパンとはいかなそう
(Pythonの話はほぼ0だったし、同日にテキストアナリティクスシンポジウムあったのでそちらの方が活発に議論できて良かったのでは…)

最後の文章自動生成のためのGANというのはすごい気になったので、研究的な意味では今後の進展をウォッチしていきたい