日立製作所は、より自然な回答をする人間共生ロボット「EMIEW2」の対話技術を開発した。質問に含まれる対象と属性から最適な回答を選んで説明し、うなずいたり、首をかしげる動作から、相手の理解度を推定できるようになる。

この技術で、質問に対してより柔軟に回答できるようになり、人とロボットのコミュニケーションが円滑になるそうだ。


日立は2005年に「EMIEW」を開発、以来、人間と共生するロボット技術を開発している。2007年に発表した EMIEW2 は、人の早足とほぼ同じ時速 6km で2輪で自律走行し、屋内の段差を乗り越えたり、危険を予知して回避するなどの運動機能がある。14本のマイクによって雑音の中でも人の声を聞きわけたり、Web 情報から物体を認識し、ネットワークカメラで案内するなどもできる。

人間共生ロボットでは、自由な対話能力は最も重要な技術であり、そのためには、音声を認識し、内容を理解、回答を作成、音声で発話する技術が必要だ。同社は今回、ロボティクスの対話機能を進化させる2つの技術を開発、EMIEW2 に搭載した。

ひとつは、質問に含まれる複数の単語から最適な回答を選別する技術。

事前に用意した質問文から、対象とその属性を認識するのに必要な単語の並びを学習し、データベースに記録・蓄積する。質問を受けたときに、音声認識により単語列を取得し、データベースと比較して、対象と属性を認識する技術を開発した。この技術により、知りたい対象とその属性に最適な回答を選別できる。今回、学習方法に、「Deep Learning」を使用した。

もうひとつは、うなずいたり、首をかしげる動作から、相手の理解度を推定する技術。

事前に、EMIEW2 と人の対話映像を分析して、反応に伴った動きを学習する。実際の対話では、EMIEW2 の回答を聞いている相手を内蔵カメラで撮影し、撮影された映像から、相手がうなずいたり、首をかしげたりする動作を識別する。

EIMEW2 の回答に対して推測される相手の反応と比較して、質問者の理解度合いを推定する技術を開発した。これで、回答の中身に沿って質問者の理解度合いを知る、より人間的な対話ができるようになる。

質問に含まれる複数の単語から最適な回答を選別する技術は、「情報処理学会 第216回自然言語処理研究会 第101回音声言語情報処理研究会 合同研究発表会」で詳細を発表する予定。

Deep Learning は、神経細胞のメカニズムをモデル化したニューラルネットワークの学習方法の一種。ニューラルネットワークは、入力層、中間層、出力層の3つから構成される。Deep Learning では、中間層を増やすことで、複雑なモデルが表現できるようになる。

日立が人間共生ロボットの対話技術を開発、自然なコミュニケーションを目指す
同社の機械研究所都市・
ロボティックスプロジェクト
先端ロボットユニット
ユニットリーダー玉本淳一氏と
EMIEW2