adtech studio

人工知能学会 2018 参加報告

By peinan

参加報告

JSAI 2018 の概要

こんにちは。6月から AI Lab に加わることとなった張(@so1owingpixy)です。
人工知能分野で国内最大規模の年次大会である「人工知能学会(JSAI)」に、AI Lab や秋葉原ラボのメンバーたちと一緒に参加してきました。その中で面白かった発表や所感をレポートしていきたいと思います。

今年の人工知能学会は6月5日から8日の4日間にかけて、鹿児島市の城山ホテル鹿児島で行われました。雄大な桜島を一望できる標高108mの城山に立つこのホテルは市街地を見渡せる鹿児島指折りの観光名所でもあるのですが、あいにく滞在していた期間中は梅雨前線の影響でどんよりとした空模様がほとんどで、美麗な風景を見ることができなかったのがとても残念です。

(城山ホテルから見える桜島)

今回の人工知能学会は、2000人を超える参加者で大いに賑わいました。発表は多いときで17本ものセッションが並列で行われ、内容も自然言語処理・画像処理などの基礎研究的なものからヒューマンインターフェース・医療・国際マーケティングといった応用的なものまで幅広くカバーされていました。

私は今回が初めての人工知能学会の参加になりますが、その規模の大きさに大いに驚きました。また、参加されている方も発表されている方も、アカデミックよりは企業の方が多い印象で、討論や質疑応答も非常に活発的だったように思います。近頃の人工知能ブームの影響もありますが、スポンサーの数も国内の学会の中ではかなり多い方ではないでしょうか。

(プラチナスポンサー企業の一角)

弊社からも9本の発表とスポンサーブースの出展が行われまして、より詳しい発表の項目については人工知能学会ページをご参照ください。

一言まとめ

さて、実際の発表については私を含め AI Lab メンバーたちの一言まとめという形式で書いていこうと思います。間違いや過不足などがあればご指摘をいただければ幸いです。

深見

[2C1-02] 「ロボットは東大に入れるか」プロジェクトの英語における意見要旨把握問題の解法

英語の問題は短文、複数文、長文というカテゴリに分かれており今は複数文に挑戦中。前年の発表ではw2vのコサイン類似度が最も精度が良かったらしく深層学習の復権を志していました。今年はこれまで少なかったデータが大量に手に入り遂に深層学習モデルの正解率が一番良くなったとのことです。しかしながら正解率44%とセンター試験でこのレベルでは東大は程遠いなと思いました。

[2C1-05] Word2Vecにおける出力側の重みに注目した文書分類手法の検討

W2Vはinput layerからhidden layerの重みw_inを分散表現として用いるが,hidden layerからoutput layerの重みw_outも使ってみてはという提案。文章をSVMを使って分類するタスクを解いていたがw_inとw_outを用いる方が従来のW2Vによる分散表現(w_in)よりも精度が良くなるとのことでした。発表内容はSVMを使った分類タスクのみでしたが、embedding等に使ったら精度がどう変わるのかはぜひ実験して欲しいところだと思いました。

[2O4-04] 有価証券報告書からの因果関係文の抽出

有価証券から投資に有用な情報を得るために因果関係が表現された文章を抽出するという自然言語処理タスクでした。この研究では正解ラベルの精度に重きを置いて3人一組でのラベル付けを行うなど本来ならばあまり手を掛けたくない部分が徹底されていました。SVMを使って既に実用に耐えるモデルが完成しており、間違ったデータについての検証も見事でした。今一度データの精度に目を向けよという教訓になる発表だったと思います。

宗政

[4G1-03] 相手の発話を深掘りするための質問生成技術

雑談対話において相手の発言に対して正しく深掘りをする質問をニューラル翻訳モデルを応用した発話生成技術を用いていました。妥当性(アンケート)とユニーク率を評価指標としていて妥当性は80%近くのスコアでした。ただ生成モデルが「いつ」、「なんで」のような疑問詞を含むものばかりを出力することが課題として残っているようです。

[4G1-05] 画像入力から推定するユーザの嗜好に基づく対話への取り組み

画像入力と対話を通してレシピを推薦する研究でステップを通して方策を直接変えていく自然政策勾配法を用いていました。既存の手法では対話が長くなる傾向があり、より短い対話でユーザの潜在的な嗜好を理解する必要があるということでした。強化学習により試行を繰り返すことでレシピを推薦するまでの対話(ステップ)を減らそうという試みでした。検証の初期段階ということでランダム行動との比較でしたが、学習させたパラメータを用いることで推薦までのステップを減らすことができたとのことです。

対話システムにおける非タスク志向型とタスク志向型に関連する口頭発表でしたが、どちらのアプローチも「ユーザの意図を正確に理解する」「ユーザエクスペリエンス向上」させる上で大事な要素だと感じました。

主に自然言語処理に関連した発表を中心に聴講しました。

[1N2-03] スタイルの類似性を捉えた単語ベクトルの教師なし学習

「意味」の類似性とは別に、「スタイル」の類似性を捉える単語ベクトル空間を教師なしで学習する試み。
いち発話内のスタイルには一貫性があるという直観的な仮説をもとに、近傍仮説(CBOW)を適応させることで周辺単語からは「意味」、周辺でない(≒遠くにある)単語からは「スタイル」の特徴を捉える。その結果、例として「拙者」というターゲット単語に対して、「でござる」などのスタイルベクトルと「私」などの意味ベクトルを獲得できた。このような技術を用いることで、同じ意味の広告文やロボットの発話を、聞き手に応じてより個々人に刺さる文言に変換させることができそう。

[2E2-02] 発話表現文型辞書を利用した多様な発話文生成機構

完全に教師なし学習によってキャラクタ性を捉える前の研究に対して、この研究は辞書を使うことでキャラクタ性を付与する研究。
発話文を、「発話内容」「発話意図」「話し方の特徴ベクトル」の三要素に分解して考え、これらの要素(骨組み)に合った表層を塗り固めることで文を生成する手法を取っている。最近は深層学習を使った手法が多いが、実運用においてはコントロールしにくい問題が挙げられており、それらに対してこの手法はより堅実で意図しない生成結果が少ないと感じた。ただ生成される文のパターンが決められており、辞書にあるエントリーより多様になることはなく、またその辞書の整備も永続的必要になりそう。

[2E2-03] ランク学習によるYahoo!知恵袋の見出し生成

ヤフー知恵袋の見出し生成を見出し生成を、質問本文中の各文のランキング問題とみなしてランク学習で生成を試みた研究。
クラウドソーシングを用いて各文の「見出しらしさ」のスコアを付与したデータセットを作成し、「投稿質問文」「見出し候補の選択肢」「各選択肢の投票スコア」の三つ組に対して Pairwise 法で最適化問題として解くことで最も見出しらしい文のランキングを出した。最近の流行りに乗った不確定要素が多い生成よりな手法ではなく、視点を変えたよりシンプルで確実性が高い抽出に近い手法を取っているところに感心を覚えた。

大田

[1K1-OS-2a] コミック工学とAI

非自然画像に関する研究について知見を得るべく、コミック工学セッションに参加してきました。

セッション最後に東大の相澤先生より6月1日に公開されたばかりの Manga109 データセットの構築秘話を伺ったのですが、著作権が絡むセンシティブなデータの取り扱いにあたってしっかりと権利者に連絡を出したりアノテーション作業に50名以上の学生を動員したりといったデータセット公開に至るまでの貴重なお話を聞くことができました。我々の扱う広告画像データも広告主に権利が属する画像が多く、そのようなデータを研究対象として取り扱う上での心意気を感じることができたように思います。

馬場

[2N1-01] 変分自己符号化器を用いた表現の多様性のモデル化による表現豊かな音声合成

Seq2Seq による音声合成にVAEを組み合わせて、発話者の話者性や表現の潜在変数を獲得しています。話者性などの潜在変数を得るために、音素特徴を学習させる変数を別途用意し、音素特徴にあてはまらない特徴を目的の変数で学習できるように設計しています。これまでの「話し手の大域的な特徴」を学習する試みでは、学習したい特徴を持つ発話の学習データを用意しているものが多かったのですが、この研究ではVAEで教師なしにきれいに特徴を獲得できていて、そこが大きな貢献であるように感じました。どのような特徴を学習するかのコントロールは今後の課題とのことですが、声の高さ、抑揚、穏やかさ、語尾など学習したいパラメータを指定する機構ができればさらに発展しそうな技術だなと思いました。

[4J1-02] 弁別性の実装による擬人化エージェントへの信頼感の向上

こちらは、AIをユーザに安心して信頼してもらうためのデザインを模索する研究です。人間がAIを信用せずに勝手に動いてしまうことによる大事故の可能性を減らすために、「弁別性」に着目したコミュニケーションを提案しています。弁別性とは「異なる話題の時に話し方を変える」性質のことをいい、ある時は論理的に、ある時は感情的に、話し方を変えることで信頼されやすくなるという既存研究があります。この研究の提案手法では、札幌旅行での行き先を提案するタスクにおいて、弁別性のある対話エージェントの方がより信頼性を感じられたとする結果が出ており、常に理性的に話すのではなく、時には自由意志を感じるように感情的に話すことが重要であると示唆しています。

谷口

[3N2-01] KS-4 インセンティブ設計科学

モデリングをするために必要となるデータをどのように取得するかという観点で、人がデータを提供するインセンティブの設計が重要になるという考えがあったので参加しました。冒頭のイントロダクションで、その内容に関する議論をしていきたいという旨を話していたが、このセッションでは人工知能以外の異分野の基礎的な部分の紹介に留まった。マッチング・マーケットデザインは、マーケティングを更に抽象化した学問と考えられるので、非常に興味深い内容でした。
オークション理論では、RTBでも利用されているセカンドプライスオークションの理論的な話やその課題などを紹介しており勉強になりました。ビットコインの紹介は基本的な部分に留まったので、質疑ではインセンティブ設計の観点からオークションの仕組みをブロックチェーンに取り込めないか、というような議論がされていました。

森脇

位置情報系を中心に聴講しました。
まず、京都大学の渡部さんの発表 [2O1-04] 軌跡データのみを用いた観光スポット遷移モデルの構築については、京都の観光スポットの混雑緩和のため、観光客の流入、流出確率をスポットモデルを用いて推定。第1段階として観光地を推定したところ高速道路の影響で観光地を漏らしたり、バスターミナルを観光地と誤判定したりしたが、概ねきれいにとれた。GPSを1秒間隔でとるというリッチなデータセットをつかったものであり、AIrTrackの分析とも通じるところがあると思いました。
NTTの大川さんの発表 [3L1-01] バイクシェアシステムにおけるトリップ予測は、バイクシェアのデータを用いて利用者の動きを推定したもので、統計モデルを用いた推計を行っていました。需要が供給を上回る場合の潜在需要の推定まではできていませんでしたが、天候やデモグラフィックデータの情報をうまく使いながら丁寧な推定をしていると感じました。
同じくNTTの竹内さんの発表 [3L1-02] 自己回帰テンソル分解による時空間データ予測では、欠損値がある時空間データを用いて欠損の無いデータをつくるという手法を用いてニューヨークのタクシー乗降のデータを推定していました。結果として、欠損がない部分のデータも再現できており、有用性が高いと感じた。