VoiceXML Forum および W3C で規格化された VoiceXML 1.0 は、 音声対話インタフェースを標準化する規格として注目されている。 しかし、現在の VoiceXML 仕様は電話によるウェブアクセス(音声ポータル)を 主な応用範囲として考えられており、 画像情報の提示や擬人化エージェントの制御、マルチモーダル入力などには 対応していない。
以下では VoiceXML の設計理念を活かしつつ、 さまざまなアプリケーションで擬人化対話エージェントによる音声対話を 実現するための VoiceXML 仕様の拡張案について述べる。
注:以下の内容は 2000年度 IPA 報告書に記載した仕様案とは異なります。
|
vxml 要素またはアプリケーションルートドキュメントのレベルで、 出力モードとしてエージェント表示を有効にする。
<property name="outputmodes" value="agent" />
画面に擬人化エージェントと3種類の果物の画像を表示する。
擬人化エージェントは平静感情で「りんご、ぶどう、はっさくがあります」と喋る。
続いて嬉しそうに「本日のお薦めはりんごです。」と喋る。
このとき「りんご」を喋るのと同時に「りんご」の画像を指さす。
その後、「りんご」「ぶどう」「はっさく」のどれかをユーザが発話するまで待つ。
<menu> <prompt> <enumerate />があります。 <emotion type="happy-for" > 本日のお薦めは <play act="point"> りんご </play>です。 </emotion> </prompt> <choice img="apple.jpg" next="apple.vxml" > りんご </choice> <choice img="grape.jpg" next="grape.vxml" > ぶどう </choice> <choice img="hassaku.jpg" next="hassaku.vxml" > はっさく </choice> </menu>
画面に擬人化エージェントを表示する。
擬人化エージェントはおじぎをしながら「いらっしゃいませ。当店へようこそ。」と喋る。
続いて「りんご」という文字を表示して「本日のお薦めはりんごです。」と喋る。
このとき「りんご」を喋るのと同時に「りんご」の文字を指さす。
<block> <par> <play act="greeting" /> <speak> いらっしゃいませ。当店へようこそ。 </speak> </par> <text> りんご </text> <speak> 本日のお薦めは、 </speak> <play act="point" > <speak> りんご </speak> </play> <speak> です。 </speak> </block>
方針・・・特定の座標系,デバイスに依存しない |
|
注:文字の表示開始と終了のタイミングについてはさらに検討を要する。
表示する方法
<property name="outputmodes" value="agent"/> を記入することにより表示開始 エージェントを動作させる
エージェントに感情表現させる
エージェントを喋らせる
同期
|