AI tech studio

人工知能学会 2019 参加報告

By peinan

参加報告

人工知能学会 2019 の概要

みなさんお疲れ様です。AI Lab の張です。
2019 年も梅雨とともに人工知能学会 (JSAI) の季節がやってまいりました。

今年の開催地は新潟です。新鮮な海の幸と米どころならではの美味い地酒を堪能できる場所で、自分含め AI Lab のメンバーが発表・参加してきました。その内容と現地の様子をご紹介していきます。

AI Lab からの研究発表

今回 AI Lab からは一般セッション、インタラクティブセッション、インダストリアルセッションを合わせて 4 件の発表がありました。各発表者がその概要を説明していきます。

[4Rin1-02] Black-box最適化に対するBudgetを考慮した探索空間の初期化

野村阿部論文 URL

この研究では、目的関数の代数的表現が与えられないBlack-box関数の最適化 (Black-box最適化) において、評価できる回数 (Budget) が少ない場合にベイズ最適化などの手法を高速化するヒューリスティック手法の提案を行いました。
Black-box最適化の応用例としては、機械学習アルゴリズムのハイパーパラメータ最適化などが挙げられます。
Black-box最適化では、解の1回あたりの評価に時間がかかることが想定されるため、少ない評価回数でいかに精度の良い解を獲得できるかが焦点となります。
Budgetが少ない場合のBlack-box最適化における有力な手法としてベイズ最適化がありますが、従来の設定よりもさらに少ないBudgetの設定においては、探索空間全体に対する代理操作が不十分となり性能が悪化します。
この研究では、探索空間をBudgetに応じて絞り込むというヒューリスティックを導入することで上記の問題点に対処しています。
各種ベンチマーク問題に対する実験により、提案手法が有効に機能することを確認しました。

[4Rin1-23] ECサイトにおける商品タイトルからの商品名抽出

論文 URL

EC サイトにある様々な商品タイトルから商品名を抽出する研究です。
みなさん一度は EC サイトを利用したことあると思いますが、日本の EC サイトにある商品タイトルは、出品者の秩序なき情報付与と過度な SEO 対策によって混沌を極めており、一つの出品商品に対して商品名以外に配送情報やセール情報、場合によっては関係のない主観的な情報がタイトルに付いていたりします。これによって視覚的に非常に煩雑した状態になり、出品商品がどんな商品であるかを認識する妨げになっています。これはユーザ目線ではもちろん、EC プラットフォームを持つ側からしても管理するための障害になり得ます。
この研究ではそういった商品タイトルからの商品名抽出を試みました。具体的にはこのようなタスクが過去になかったため、データセットを作成するところから始まり、作成されたデータセットを用いて term weighting と系列ラベリング問題の二つの異なるアプローチでの商品名抽出を実施しました。
約 4000 件のデータセットで実験を行ったところ、双方向 LSTM と CRF を組み合わせたニューラルネットワークを用いた系列ラベリング問題として解く手法がもっとも良い性能を発揮しました。しかしそれでも一般的な固有表現認識のデータセットでの実験結果と比べて F 値が著しく低く、商品名抽出というタスクの難しさを定量的に認識できました。また、実験結果の分析からデータセットを作成することに関しての知見と、このタスクの精度を向上させていくための方向性を模索することができました。

[4O2-J-2-02] Domain Adaptation Neural Networkを用いた広告クリック予測

安井論文 URL

この発表では教師なしドメイン適応の手法であるDomain Adaptation Neural Network(DANN)を広告のクリック確率予測に用いるといった事を行いました。
そもそものDANNに関する解説はAI Labで現在インターン中の齋藤さんが非常にわかりやすいブログ記事を書かれているので、そちらを参照いただくと良いと思います。

DANNではラベルが観測できるsource domainのデータとラベルが観測できないtarget domainのデータがある様な状況を想定しています。元々一つの教師あり学習で前提にしている様なラベル付きのデータセットがあると仮定して、何らかの方法でそのデータを二つに分割してそれぞれsource/targetと名前をつけてtargetからラベルを取り除いた状況というとイメージが付きやすいかもしれません。

例えばRTBの設定であればオークションのデータセットがあるわけですが、オークションで落札できなければ広告を見せた結果が観測されないので、オークションで負けてラベルが観測されないtargetデータとオークションで勝ってラベルが観測されているsourceデータが存在するといった状態になります。

一般的な教師あり学習では、この様な場合ラベルが存在するsourceのデータで損失を最小化する様にモデルを学習するので、targetにおける損失が小さくなっているという保証はありません。しかし、全てのオークション参加機会で予測を行う必要があるため、この問題は何らかの対処を施したくなります。

DANNはこの様な状況において、targetのデータに対して誤差をなるべく小さくする様な学習を行う方法です。より具体的にはtargetの損失のある種の上界を最小化する様にモデルを学習する方法と言えます。この性質を利用する事で、全ての入札機会に対応できる様なクリック確率予測モデルを学習する事が可能です。

しかし、DANNは画像データにおいて発達した手法であり、テーブルデータの様な他の形式のデータにおいても十分に機能するかは不明瞭でした。今回はKaggleで行われたCriteo Display Advertising Challengeのデータを利用し、semi-syntheticな実験を行う事でRTBで扱う様なデータにおいてもDANNが機能するかを検証しました。

[3M3-IND-5] インダストリアルセッション

大谷関連 URL

今回は「広告メディア研究の最先端」というタイトルで、広告領域での研究課題とそれに関連してAI Labが取り組んでいる研究の一例を紹介しました。広告領域では広告の自動制作をはじめ、広告効果の予測や新しい広告メディアの開発など非常にチャレンジングな研究課題があります。発表では広告を「つくる」「分析する」「(新しいメディアを)開拓する」という観点から研究課題を紹介しました。それぞれの課題に関して、現在AILabではコンピュータビジョン、NLP、機械学習、経済学、HCIの研究者が研究開発に取り組んでいます。個人的には広告にはまだまだいろいろな技術・理論の応用可能性があると思っているので、今回JSAI参加者で広告研究に興味を持ってくれた人が入れば幸いです。

会場の様子と新潟について

今回の人工知能学会は朱鷺メッセという新潟随一のコンベンションセンターで行われました。信濃川の中洲に位置するこの場所はその立地から非常に開放的で、夕方になると地平線の向こうに沈む夕日がとてもエモかったです。

会場はかなり広々としていたのですが、近年の火付けされた人工知能ブームによって空間という空間が参加者によって埋め尽くされていました。

事前登録者数は過去最高に達し、公式懇親会会場での人口密度の高さはもはやコミックマーケットと並んで夏の風物詩になりつつあります。

会場の外に目を向けてみると、そこには美食美酒の街が待ち受けていました。
日本海に面する新潟の海鮮は言うまでもなく鮮度が良く、脂が乗った柔らかい刺し身に絶え間なく舌鼓を打ってしまいます。米の産地を最大限に活かした地酒も美味で、酔ってもなおお猪口に注ぐ手が止まりません。

また、意外に思われるかもしれませんが、新潟市はカフェ・喫茶店が非常に充実しています。特に信濃川を西に渡った古町の一帯は 1 ブロックに 1 カフェというほど様々なお店が所狭しに並んでいます。

今回はあいにくここまで足を伸ばせなかったのですが、また訪れる機会があったらぜひ立ち寄ってみたいものです。
そのかわりと言ってはなんですが、会場の近くにある THE BAROQUE (ザ・バロック)というカフェには大変お世話になりました。洒落た店内で飲む、酸味を抑えたコクが際立つ珈琲は学会の疲れを優しく癒やしてくれます。

以上が会場と新潟の様子になります。一言でまとめると控えめに言って最高でした。

おわりに

自分は今回で 2 回目の JSAI ですが、アクセスが良いという地理的な原因があるにせよ、ただでさえ多大に賑わった去年よりさらに多くの方々が参加され、世の中の「人工知能」というものに対する期待の膨張を肌で感じました。ここ数年で産業界での普及は著しいものでしたが、今回は地方自治体といった公的な機関に所属した方々とも話す機会もあり、その広がるスピードに往年のインターネットもこんな感じだったのかなと思いを馳せたものです。また、どちらかというと産業的なイベントだと思っていた JSAI ですが、大学などのアカデミックとしての発表・参加も増えてきていると思います。企業でしかできないこと、大学でしかできないことは多いですが、どちらかでではなく、これからはどんどん連携して、お互いの強みを活かしながらこの分野を発展させていく世界になっていくことを切に願っています。