“Dialog Generation for Voice Browsing”の紹介

2006年6月17日渡辺隆行（最終更新： 2006年06月17日 18:29 ）

HearSayというVoiceBrowserの開発と評価の論文シリーズ

WWW2004:“HearSay: Enabling Audio Browsing on Hypertext Content”

HearSayのPartitioningアルゴリズムを詳細に記述
ユーザビリティ評価
どちらかというとNewsサイトに特化したDialogIF

WWW2006: Zan Sun, et.al., “Dialog Generation for Voice Browsing”

一般用途のウェブブラウズとして改善
新しい対話IF：複数のブラウズ戦略，ユーザに提示する情報量の制御，概要作成の複数の方略
人間がラベル付けしたデータでtrainingした？分類機能で，利用時にブラウズ戦略を選択できる

HearSayの概要

視覚表示に依存せず，音声インターラクションに最適化したデータ構造と対話IFで，ウェブコンテンツを素早く簡単に直接利用できるような賢いシステムを作るのが目的．

2つのキー技術：

Partition generator: 元のHTML文書に対して構造解析とセマンテック解析を結合させた解析を行い，意味のまとまりとしてpartitionning．聴覚提示に適した，意味構造を持ったパーティションに分解．
Dialog IF Manager：このパーティション構造からVoiceXMLを自動生成して，コンテンツのどこでもすぐに利用できナビゲーションが容易な音声対話IFを生成．

キーアイデア

構造解析：HTML文書を意味のまとまりにpartitioningして，partition treeの階層構造として利用者に提示することで，階層構造を持った概念として利用できる．
意味解析：WordNetを用いたlexical（辞書）解析とオントロジーを利用して，構造解析の精度を向上させる．また，partitionをラベル付けする．
用意したテンプレートあるいは自動分類を使ってVoiceXMLのdaialogを即座に生成．

WWW2004版：評価の章の概要

partitionの効果：

ユーザビリティ：

特定の箇所にジャンプする機能が欲しい
概要を知りたい
対話IFが同じことを繰り返し過ぎ
音声認識エラーが多い
速度と精度の向上が必要

2. INTRODUCTION to HearSay

2.1 アーキテクチャ（図1）

Browser Object Interface： Webページをgetする．（formの自動挿入などの機能付き）
Content Analyzer： Wepページをpartitioningしてpartition treeを生成．
Interface Manager： 分類機能により，各partitionにlabel（ブラウズ用か検索用か，重要かそうでないか）を貼る．
Dialog Generator： VoiceXMLを自動生成．（VoiceXMLのinterpreterはオリジナル．音声合成と音声認識はフリーな物を使用．）

2.2 ユースケース

（省略，論文参照）

2.3 コンテンツ解析によるpartition tree生成

意味的に近い内容は，表示スタイルが同じで表示場所も近いことを利用．要素の利用パターンが近いことも利用．（見栄えが豊かなページや，CMSを使ったシステムでは特にそう．）

パターンマイニング・アルゴリズムを使って，ボトムアップでDOMツリーをpartitioningしていく．その過程で，構造の類似性に基づいたtype属性（ナビリンクとか）を付与．

例：

Webページ：図2とか図6a
DOMツリー：図3a
partition tree：図3b

partitionには3タイプ有り（図3b，図4b）

(i) group：直下の子要素がpatternタイプの繰り返し
(ii) pattern：繰り返しの各要素
(iii) block：その他

各partitonは，type以外に，label（見出しというかラベル）も持つ．

3. HearSayのブラウジング戦略

今回のバージョンの目標は一般性．どんなWebページでも下記を達成したい．

a) 効率的なナビゲーション
b) 効率的なコンテンツの読み取り

これを達成するためにHearSayに実装した機能：BFNかDFNか

3.1 BFNとDFN （表1）

ナビゲーションの方向：BFN（横方向）かDFN（縦方向，下のpartitionに向かう）．

BFNにユーザが途中で介入する方法は，音声認識エラーが生じるし，ユーザに提示する情報の繰り返しが多くなるのでうまくいかない．

3.2 おしゃべり度 (図5)

ユーザに伝える情報量を3段階に制御．

ユーザ主導でも自動でも制御可能．

4. HearSayのプレゼンテーション戦略

ブラウジング戦略を選択可能：BFNかDFNか
各partitionでユーザに伝える情報量（おしゃべり度）を3段階で選択可能．
提示しているコンテンツによって，自動的にプレゼンテーション戦略を変更したい．

上記3番目の項目を達成したい．

そこで，HearSayが情報提示時に，自動的に最適なプレゼンテーション戦略を選択できるようなclassifierを実装．

人間がアノテーションしたデータでclassifierを訓練．

4.1 ナビゲーションの種類：検索かブラウジングか

ウェブのナビゲーションには2種類ある[12,33]：検索とブラウジング

各partitiionをこの2種類に分類してコンテンツの表示方法を変える．

ブラウジング型：（これ専用のVoiceXMLのtemplateを用意しておいて）コンテンツを読み上げる．
検索型：そのブロックを検索するかどうか決定するためには，コンテンツの概略（Summary）をユーザに伝える必要がある．概略の最適な抽出方法は，partitionのコンテンツや構造に依存する．

4.2 概要の作成方法：構造を伝えるかコンテンツを伝えるか

検索型partitionには2種類ある：構造ベースとコンテンツベース

構造型の概略：

partitionの構造（partition tree内の位置，サイズ，など）をユーザに伝える．

コンテンツ型の概略：

キーワードを抽出して提示するか，partitionの文書の一部を抽出する．
多様な内容を含むpartitionの場合，概略の情報量は多い．
意味的に関連性がある場合，この概略を利用しやすい．
どのデータを概略に含めるべきかを決定する必要がある．

4.3 partitionのサマリー作成：コンテンツの選択

本研究で用いたコンテンツ型の概略の作成方法．つまり，どのデータを概略に含めるかの決定方法．

「ウェブでは視覚表現で重要箇所が強調されることが多い」ことを利用

コンテンツ型では，各文章を，重要か非重要かに分類して，重要な文章だけを概略に含める．

4.4 classifierの機能を評価

人間がある程度のサンプルを以下のように分類してからソフトに（SVMなどのアルゴリズムを用いて）学習させ，どの程度の精度が出るか評価．

各partitionをブラウズ型と検索型に分類
各検索型partitionを，構造型コンテンツ型かに分類
検索型／コンテンツ型partition内の各文章を，重要か非重要かに分類