adtech studio

NLP若手の会 第13回シンポジウム参加レポート

By tamatsu

参加報告

こんにちは。2018年度新卒の玉津と福田です!
8/27 ~ 8/29 で自然言語処理の若手研究者の集まりである『NLP若手の会(YANS) 第13回シンポジウム』に参加してきました。今回の開催地は香川の高松市でした。

YANSとは

NLP若手の会 (YANS) は、自然言語処理および関連分野の若手研究者・若手技術者の交流を促進し、若手のアクティビティを高めることを目指したコミュニティです。なお YANS は Young Researcher Association for NLP Studies の頭文字をとったものです。

NLP 若手の会 

去年の参加レポート

弊社発表

今回,スポンサー口頭/ポスター発表として弊社におけるNLPを用いた取り組みを,そしてポスター発表として広告文への利用のためのwebページ本文抽出や小規模コーパスにおける未知語の分散表現の獲得について発表しました.
以下は資料のリンクと発表の様子になります.

大規模コーパスと小規模コーパスを用いた単語分散表現獲得法の比較検討 友松祐太

検索連動型広告自動生成のためのWebページ本文抽出手法の研究 山村崇 (九工大), 張培楠, 田中駿

弊社でのNLPを用いた取り組みについては,広告文の自動生成やFAQ用のチャットボットの開発,アドベリフィケーション(中でもブランドセーフティ)について紹介させて頂きました.特にアドベリフィケーションについてはアドテクに関心のある人でないと聞いたことがないタスクだと思うので,今回のYANSを通じて興味を持ってくれる方が一人でもいると嬉しいです.

▲ブースターセッションの様子

▲ポスター発表の様子

▲弊社の取り組みの紹介と水

印象に残った発表

今回,全てのポスターを見ることはできませんでしたが,回った中で印象に残ったものを一部紹介します.

・サブワードに基づく単語ベクトルの再構築 〇佐々木翔大 (東北大), 鈴木潤, 乾健太郎 (東北大/理研AIP)[ポスター]

一般的に単語の埋め込み表現は各単語についてベクトルが与えられているため,語彙数が多い場合はモデルサイズも大きくなってしまいます.また,コーパスに含まれない単語や削除された低頻度語にも対応できません.これらの問題に対して単一または複数の文字n-gramを利用して元の単語ベクトルを表現する方法もありますが,この研究ではBPEにより文字を頻度の高いものから設定した語彙数になるまでマージしていき,作成されたサブワードベクトルの和を元の単語ベクトルに近づけるよう学習します.データの圧縮のために提案されたBPEは語彙数の問題から機械翻訳でも利用されますが,単語のベクトル空間をBPEによるサブワードのベクトル空間で表現したのは興味深かったです.

・五感に基づく言語表現における個人のバイアスとその補正 〇大葉大輔 (東大), 吉永直樹 (東大/生産研), 赤崎智 (東大), 豊田正史(東大/生産研)[ポスター]

例え様々な人が同じものを評価しても感じ方やその表現は多様で,ある意味その人のスタイルに変換された評価になっていると考えることもできます.この研究では多人数により書かれた大量の文書から一般的な単語の分散表現を獲得したのち,それを初期値として個人ごとに文書を追加で学習させ,個人レベルでの単語の分散表現の獲得しています.そしてその補正に関する実験も行なっています.物事について書かれた文書もその表現には(言語能力や感覚器官の差によって生じる)個人のバイアスがかかって伝えられるという点が面白かったです.

当日の風景

▲旅館からは高松市が一望できました!

▲交流会企画の1つであるクルージングも楽しかったです!

感想

YANS自体への参加はこれが初めてで,ポスター発表や懇親会を通じて多くの方々と交流でき,とても刺激になりました.また,香川ということでうどんをたくさん食べましたが,中でも鶴丸というお店が個人的に一押しでした.来年もぜひ参加したいと思ってます!(玉津,福田)