表4および 図2,3 より、 ユーザが用いる操作発話と印象発話の割合は、 表示されている画面のタイプによって 異なっている。
音声認識語彙としてはユーザが用いる可能性の高い語彙を 受理する必要があるが、 語彙の構成方法が一定であるとすると、 常に操作発話と同じ程度の数の印象発話を含むことになり、 誤認識の増加をもたらしたり、 必要なコマンド語彙をカバーしにくくなるなどの 問題が予想される。
選択画面および情報提示画面という画面タイプを 用いることで、画面の内容に応じて適切な語彙の構成を 行うことが可能だと思われる。 また、これらの画面タイプは、 HTMLタグから得られる情報によって 表5のように 判別できることがわかった。