視覚障害者用自動販売機音声案内システム(しゃべ郎)の開発

2025年度研究担当者:泉(M2),中出(B4)


1. 研究背景
2. しゃべ郎を構成する機器・システム
3. 商品を特定するための7つの要素
4. 商品を特定する流れ
5. 性能評価実験
視覚障害者からの要望
プライバシーポリシー

1. 研究背景

現代社会では障害者への社会参加支援が重要視されている. 国内では約428万人が身体障害者手帳を所持しており,視覚障害者は全体の7%となる約31万人存在し,主に点字を用いた支援が実施されている. しかし,視覚障害者379人を対象とした点字識字率調査によると,点字が読めると回答したのは全体の12.7%だった. 視覚障害者への支援として自動販売機には図1のように硬貨投入口や釣銭硬貨口,商品名の表示に点字が記されているが,支援者が傍にいないと商品の購入ができない場合がほとんどである. そこで,点字以外の方法での視覚障害者支援として,音声によってシステムと情報のやり取りを行うインターフェースであるVUI(Voice User Interface)を用いて,利用者が求める商品の位置情報等を確認できるような視覚障害者支援機器の開発を行うこととした. その手法として,図2に示すようなAIスピーカを通じて会話型で対応する飲料用自動販売機の音声案内システムの開発を目指す.

図1  点字貼付の例



図2  会話型音声案内の例




2. しゃべ郎を構成する機器・システム

しゃべ郎は主に4つの機器・サービスで構成されている.

@ AIスピーカー(Amazon Echo)

AIスピーカーにはAmazon社製のEchoを利用している. Echoはインターネット接続可能な環境において利用することができ,視覚障害者と音声で会話を行い,アシスタントAIとの間でデータの送受信を行う. 音声案内スキルを呼び出す際は,Echoに「アレクサ,音声案内」と発言する必要がある.

A アシスタントAI(Alexa)

受け取った情報に自然言語処理を施し,音声データとテキストデータの形式変換を行う.
(例)温かいお茶をください ⇔ 温かい/お茶/を/ください

B 対話型コンテンツ作成用ソフト開発フレームワーク(Alexa Skills Kit)

音声案内の会話内容を設定するためのオンラインサービス. 対話型コンテンツを構築でき,Alexaから受け取ったテキストデータから必要な単語だけを抽出できる.
(例)温かい/お茶/を/ください → 温かい/お茶

C プログラム実行環境(AWS Lambda)

Alexa Skills Kitで抽出された単語を処理できる関数を呼び出し,抽出された単語とデータベースに定義されている商品情報と照合作業を行う. 同プログラムで,商品情報をまとめたデータベースを定義し,返答文の作成も行っている.

図3  しゃべ郎を構成する機器・サービス




3. 商品を特定するための7つの要素

本研究では,利用者との会話からより正確に商品の特定が行えるよう,表1に示すように商品を7つ要素に細分化している. 発話から獲得した要素に該当する商品をデータベースから探しだし,該当した商品が2つ以上ある場合は,重複していない要素で絞り込みを行う. 該当する商品が1種類になるまで絞り込み作業を行い,該当する商品が存在しない場合はその旨を利用者に伝える.
7つの要素は以下の通りである.

@ 商品名(Name)

商品名を定義する. 商品特定作業では,主に商品要素A~Fを利用することにしているが,A~Fが被っている商品が自動販売機の中に2つ以上ある場合は,絞り込みに「商品名」を用いて商品を一意に定める.

A カテゴリ(Category)

商品の大まかな分類を定義する. しゃべ郎を呼び出した際,自動販売機で取り扱っている商品を読上げるが,その際に用いられているのが「カテゴリ」要素である.
(例)お茶,コーヒー,ジュース,炭酸飲料 など

B サブカテゴリ(Subcategory)

カテゴリをより細かく分類して定義するのが「サブカテゴリ」である.
(例)緑茶,麦茶,ブラックコーヒー,微糖コーヒー,オレンジジュース など

C 温度(Temperature)

「温かい」または「冷たい」を定義する.

D 容器(Container)

商品がどんな容器に入っているかを定義する.

E 容量(Volume)

商品の内容慮を定義する.同じ商品名だが,サイズが異なるものが同じ自動販売機内にある際に用いられる.

F 蓋の有無(Cap)

ペットボトルのように,一度開封しても蓋を再度閉めることができるものを「蓋つき」と定義する. 缶コーヒーのように,一度開封したらふたを閉めることができないものを「蓋なし」と定義する. 目が見えない視覚障害者にとって,「蓋の有無」という情報は商品を購入するうえで重要な情報となっている.


表1  商品を7つの要素で細分化した例
商品要素 商品1 商品2 商品3 商品4
Category お茶 コーヒー スポーツドリンク お茶
Subcategory 緑茶 カフェオレ ポカリ 麦茶
Temperature 冷たい 温かい 冷たい 冷たい
Container ペットボトル ペットボトル ペットボトル
Volume 550ml 180ml 500ml 650ml
Cap 蓋つき 蓋なし 蓋つき 蓋つき
Name おーいお茶 ボス・カフェオレ ポカリスエット 健康ミネラル麦茶



4. 商品を特定する流れ

商品の特定は図4のような手順で行われる.利用者が「冷たいお茶ください」と発言した場合,商品の特定を行うために必要な情報として「冷たい」と「お茶」を発話から獲得する. 次に「冷たい」と「お茶」という情報に合致する商品をデータベースから探し出す.図4に示すデータベースの場合は商品1と商品4が該当している. さらに絞り込みを行うために,商品1と商品4で重複していない商品要素である「サブカテゴリ」,「容量」,「商品名」を用いて返答文が作成される. 返答文を作成するために用いる商品要素には以下に示すように優先順位を設けている.

カテゴリ→サブカテゴリ→温度→容器→容量→蓋の有無→商品名

図4の場合は,発話の段階で「カテゴリ」と「温度」要素の情報を獲得しているため,この時点で優先順位が最も高い「サブカテゴリ」要素を用いて返答文を作成する.

図4  商品を特定する流れ




5. 性能評価実験(2023/12/3 @石川県視覚障害者情報文化センター)

■ 実験目的

視覚障害者の方が多く利用する石川県視覚障害者情報文化センターにしゃべ郎を設置し,実際に利用して商品を購入していただいた. 商品を購入するまでにかかった時間を考察することで,しゃべ郎の性能を評価した.

■ 実験概要

被験者
視覚障害者11名(全盲6名・弱視5名)
アイマスクを着用した晴眼者20名

利用した自動販売機(図5)
(株)伊藤園 標準自販機 ※ボタン数24個(8個×3段)

取扱商品
全19種(ペットボトル容器12種,缶容器7種,温かい飲料5種,冷たい飲料14種)

図5  実験で用いた自動販売機


■ 実験方法

被験者には実験前に以下の説明を行った. 実験では,「アレクサ,音声案内」と発言してから「押しました」と宣言するまでの時間を測定し,この時間を商品購入時間とこの実験では定義する.
(1) 自動販売機のボタンは24個で,1段に8個ずつボタンが設置されている
(2) しゃべ郎を起動するためのキーワードが「アレクサ,音声案内」である
(3) 商品を購入するボタンを押した際,「押しました」と宣言する

■ 実験結果

購入成功率
全盲者2名を除く29名が購入に成功した.購入に失敗した原因は2名とも同内容であり,声が小さくてEchoが声を認識できなかったことである.
・全盲者 66.7%
・弱視者 100%
・晴眼者 100%

商品購入時間
商品購入時間の分布を図6に示す.8割以上の被験者が1分以内に購入できることがわかった. また,購入する商品によって最速で36秒,遅くても74秒で商品を購入できていた.

動画1  実験の様子(弱視者女性)


図6  商品購入時間の分布


■ まとめ

自動販売機の内部を改造せずに容易に実装可能な,商品の有無や位置を特定できる対話型音声案内システムを開発した.
◎ 実際の自動販売機で使用できることを確認し,9割以上の被験者が購入に成功!
◎ 支援者が傍にいなくても視覚障害者一人で,40秒程度で商品の位置を知ることができる!


視覚障害者の要望から実装した機能

・ボタンの位置を読上げる際は,最短経路で指示してほしい.
(横に10個取り扱っている自動販売機の場合,左から8番目ではなく右から2番目と案内する)
 ⇒ 2024年 最短経路指示機能実装!

・「アレクサ,音声案内」と発言しなくてもスキルを使用できないか.
 ⇒ 2024年 ボタンを押すだけでしゃべ郎を呼び出せる機能を実装!

・「もう一回読上げて」と発言した場合,商品の位置を再度案内してほしい.
 ⇒ 現在開発中!



プライバシーポリシー(研究に協力してくださる方へ)

本プライバシーポリシーは,赤坂亮太,大西正輝らが記した「カメラ映像を学術研究で利用するためのプライバシーを考慮したガイドラインについて*1」を参照して作成しています.

第1条:プライバシーポリシー目的

本プライバシーポリシーは,石川県視覚障害者情報文化センター,浅ノ川総合病院,石川県立盲学校において実施する, 視覚障害者向け音声案内システム(以下,本研究で開発したシステムを「しゃべ郎」という)の開発のための研究に関する撮影(以下,「撮影」という)に関して, 実施主体である金沢大学・マンマシン研究室(以下,「実施主体」という)が遵守する事項を定めることにより, 被撮影者のプライバシー等の権利及び法律上の利益を保護することを目的とします.

第2条:定義

本プライバシーポリシーにおいて「撮影データ」とは,本研究においてカメラにより録画・録音されたデータのことをいいます.

第3条:本研究によって取得する撮影データ

本研究では,被撮影者の撮影される個人情報の項目(声,歩容,等)含まれる撮影データを取得します. なお,しゃべ郎を利用して自動販売機で商品を購入している様子をカメラで録画する都合上,被撮影者の顔などが映る場合がございますが, 顔などといった個人が特定できる情報は研究データとして利用・公開することは一切ございません.

第4条:本研究の目的

本研究は,AIスピーカを通じて対話型で対応する音声案内システムを開発することによって,支援者が傍にいない状態でも目が見えない視覚障害者が音声情報を頼りに自動販売機で商品を購入できるようにすることを目的とします.

第5条:撮影の実施方法

実施主体は,自動販売機を利用する被撮影者を斜め後方から撮影できるようにカメラを設置し,自動販売機前方を通過または立ち止まった人を撮影します.

第6条:実施主体の義務

実施主体は,本研究の実施にあたり,個人情報等の取得等が第4条所定の目的を達成するため必要最小限のものとなるように配慮し, かつ本研究により取得した個人情報の漏洩,意図しない滅失またはき損の防止,その他個人情報を安全委管理するため, 国立大学法人金沢大学個人情報管理規定に基づいた管理体制の下で安全管理措置を講じます.
2 実施主体は,管理体制としてデータ収集管理責任者を定めます.

第7条:データ収集管理責任者の義務

データ収集管理責任者は,撮影を実施している期間中,撮影を実施する,石川県視覚障害者情報文化センター,浅ノ川総合病院,石川県立盲学校に, 撮影中である旨,研究題目,実施主体並びに問い合わせ窓口を,少なくとも1枚のポスターを貼付することにより公示します.
2 データ収集管理責任者は,撮影の少なくとも2週間前より,撮影当日までの間,上記実施場所において, 撮影の実施予定日,研究題目,実施主体及び問い合わせ方法を,少なくとも1枚のポスターの貼付することにより告知します.
3 データ収集管理責任者は,本研究の実施中および終了後1年間,本プライバシーポリシーおよび本研究の概要を,実施主体のウェブサイト上に掲示します.

第8条:撮影データの管理

本研究の撮影データは,実施主体に所属し本研究にかかわる者のみがアクセスできます.
2 実施主体は,本研究により取得した撮影データを本研究の目的達成のために必要最小限の範囲で利用します.
3 実施主体は,本研究から得た知見を利用した研究成果の発表又は公開若しくは公表(以下,「学術発表」という)を行うことがあります. その際,撮影データから個人が特定できないように,顔部にぼかしを入れる,必要としない部分以外の音声データを利用しないなどを考慮したうえで,必要最小限の範囲で論文・講演資料の図表として含めることがあります.

第9条:関連法規等の遵守

実施主体は,本プライバシーポリシーに定めるほか,日本国の個人情報の保護に関する法律,独立行政法人等個人情報保護法,各地方自治体の定める条例及び各種ガイドラインを遵守します.

第10条:個人情報に関するお問い合わせ窓口

本研究で取得した個人情報の取扱いに関するご意見及びお問い合わせ等については,下記に記載するデータ収集管理責任者まで,電話やメール等によりご連絡ください.
[お問い合わせ先]
電話番号:076-234-4733(マンマシン研究室担当者が対応します)
メールアドレス:info@mm.hm.t.kanazawa-u.ac.jp


*1 電子情報通信学会, “カメラ映像を学術研究で利用するためのプライバシーを考慮したガイドラインについて,” 電子情報通信学会論文誌 D, vol. J102-D, no. 11, pp. 1039-1049, 2019.


Man-Machine Lab. http://www-mm.hm.t.kanazawa-u.ac.jp/
Wednesday, 11-Jun-2025 17:16:26 JST
www-admin@mm.hm.t.kanazawa-u.ac.jp