“Dialog Generation for Voice Browsing”の紹介

2006年6月17日 渡辺隆行 (最終更新: 2006年06月17日 18:29

HearSayというVoiceBrowserの開発と評価の論文シリーズ

WWW2004:“HearSay: Enabling Audio Browsing on Hypertext Content”

WWW2006: Zan Sun, et.al., “Dialog Generation for Voice Browsing”

HearSayの概要

視覚表示に依存せず,音声インターラクションに最適化したデータ構造と対話IFで,ウェブコンテンツを素早く簡単に直接利用できるような賢いシステムを作るのが目的.

2つのキー技術:

  1. Partition generator: 元のHTML文書に対して構造解析とセマンテック解析を結合させた解析を行い,意味のまとまりとしてpartitionning.聴覚提示に適した,意味構造を持ったパーティションに分解.
  2. Dialog IF Manager: このパーティション構造からVoiceXMLを自動生成して,コンテンツのどこでもすぐに利用できナビゲーションが容易な音声対話IFを生成.

キーアイデア

WWW2004版:評価の章の概要

partitionの効果:

ユーザビリティ:


2. INTRODUCTION to HearSay

2.1 アーキテクチャ(図1)

2.2 ユースケース

(省略,論文参照)

2.3 コンテンツ解析によるpartition tree生成

意味的に近い内容は,表示スタイルが同じで表示場所も近いことを利用.要素の利用パターンが近いことも利用.(見栄えが豊かなページや,CMSを使ったシステムでは特にそう.)

パターンマイニング・アルゴリズムを使って,ボトムアップでDOMツリーをpartitioningしていく.その過程で,構造の類似性に基づいたtype属性(ナビリンクとか)を付与.

例:

partitionには3タイプ有り(図3b,図4b)

各partitonは,type以外に,label(見出しというかラベル)も持つ.

3. HearSayのブラウジング戦略

今回のバージョンの目標は一般性.どんなWebページでも下記を達成したい.

これを達成するためにHearSayに実装した機能:BFNかDFNか

3.1 BFNとDFN (表1)

ナビゲーションの方向:BFN(横方向)かDFN(縦方向,下のpartitionに向かう).

BFNにユーザが途中で介入する方法は,音声認識エラーが生じるし,ユーザに提示する情報の繰り返しが多くなるのでうまくいかない.

3.2 おしゃべり度 (図5)

ユーザに伝える情報量を3段階に制御.

ユーザ主導でも自動でも制御可能.

4. HearSayのプレゼンテーション戦略

  1. ブラウジング戦略を選択可能:BFNかDFNか
  2. 各partitionでユーザに伝える情報量(おしゃべり度)を3段階で選択可能.
  3. 提示しているコンテンツによって,自動的にプレゼンテーション戦略を変更したい.

上記3番目の項目を達成したい.

そこで,HearSayが情報提示時に,自動的に最適なプレゼンテーション戦略を選択できるようなclassifierを実装.

人間がアノテーションしたデータでclassifierを訓練.

4.1 ナビゲーションの種類:検索かブラウジングか

ウェブのナビゲーションには2種類ある[12,33]:検索とブラウジング

各partitiionをこの2種類に分類してコンテンツの表示方法を変える.

4.2 概要の作成方法:構造を伝えるかコンテンツを伝えるか

検索型partitionには2種類ある: 構造ベースとコンテンツベース

構造型の概略:

コンテンツ型の概略:

4.3 partitionのサマリー作成:コンテンツの選択

本研究で用いたコンテンツ型の概略の作成方法.つまり,どのデータを概略に含めるかの決定方法.

「ウェブでは視覚表現で重要箇所が強調されることが多い」ことを利用

コンテンツ型では,各文章を,重要非重要かに分類して,重要な文章だけを概略に含める.

4.4 classifierの機能を評価

人間がある程度のサンプルを以下のように分類してからソフトに(SVMなどのアルゴリズムを用いて)学習させ,どの程度の精度が出るか評価.

4.4.1 partition型

 

4.4.2 partitionの概略

 

5. 関連研究