2018年5月26日土曜日

スマートグラス「OTON GLASS」体験会へ(2月のお話)

OTON GLASSの体験会へ


いま視覚障害者の間で話題になっているデバイスがあります。
その名は「OTON GLASS」。
視覚障害者をはじめとする、目で文字を読むのが困難なユーザーをサポートするスマートグラスです。

だいぶ月日が経ってしまいましたが、去る2018年2月21日、神奈川県ライトセンターで
そのOTON GLASSを体験できるという情報を得ましたので、ガイドヘルパーさんをお願いしてそそくさと二俣川へ出向きました。

余談ですが、この体験会の情報はOTON GLASSの公式サイトで見つけたのですが、開催される数日前になぜかこの情報が忽然と消えていることに気づき、少々焦りました。
神奈川県ライトセンターのWebやメールマガジンでも告知されていないので、もしかして中止?と思ったのですが、直接電話で問い合わせたら開催されるとの返事をいただきました。

14時30分スタートで少し前に到着したのですが、会場は大盛況。体験まちの行列が途切れないほどです。
あまり広く無い会場だったので、もしかしたら混乱を避けるために情報を引っ込めたのかも?と思ってしまいました…。
それだけ注目を集めている製品ということですね。

2台のOTON GLASSが用意されており、行列に並んで10分ほどの短い間ですが体験することができました。

なおOTON GLASSの概要や外観写真などは以下の公式サイトで確認できます。
このブログ記事はだいぶ前の体験会をもとに執筆していますので、最新の製品仕様なども公式サイトでご確認ください。



OTON GLASSってどんな端末?


OTON GLASSは、いわゆる「スマートグラス」と呼ばれるメガネ型ウェアラブル端末です。
スマートグラスといえば、VRやAR用途の、レンズの内側にディスプレイを搭載したものを想像しますが、OTON GLASSは映像の代わりに音声を出力するデバイスです。

ハードウェアは、スマホを一回り大きくしたくらいのコントローラーと、カメラを搭載したメガネで構成されており、コントローラーとメガネはケーブルで接続。コントローラーに内蔵されているバッテリーで駆動します。

OTON GLASSを使用するには、Wi-Fiによるネットワーク接続が必要です。体験日の時点では、ユーザーがWi-Fiの設定を簡単に行える機能は搭載していないとのことでした。
外出先のWi-Fiスポットやテザリングでの利用を想定すると、より平易な設定が可能にナルト良いのですが。

カメラのレンズはメガネの中心部分、つまり眉間のあたりについています。左側のテンプル(つる)に2つのボタンがあり、撮影とモード変更の操作が可能。
撮影ボタンを押すと、画像データがコントローラーを経由してクラウドへ送信され、サーバ上でテキストの抽出処理を実行、抽出されたテキストをOTON GLASSに戻し、音声で読み上げる仕組みです。

なお音声はコントローラーの出力端子から再生されます。体験日の時点ではワイヤレスでの音声出力はサポートしていませんでした。


「メガネ型」であることが最大の利点


実際にOTON GLASSを使って見ました。
手にとってまず感じたのが「結構ごつい」。
軽量なんですが、普通のメガネフレームと比べると、かなり大きい印象です。メガネというよりはゴーグル?という感じ。
日常的、特に外出先での利用を考えるともう少しコンパクトなデザインが好ましいのですが、部品の収納とかホールド性能など技術的なハードルがあるのかもしれません。

さて、OTON GLASSを装着して読みたい物をメガネの前にかざします。今回は手に持ったパンフレットを読んで見ましたが、フレームに文字が入っていれば遠くの風景でも認識できるようです。
私はうまく読めなかったのですが、数メートル向こうにいる人の名札を認識して読むこともできたそうです。

テンプルの撮影ボタンを押すとサウンドが鳴り、3~5秒ほど待つと、認識されたテキストが読み上げられました。
(認識にかかる時間はネットワークの状況により変化)
認識に失敗するとエラーのサウンドが再生されます。

肝心の文字認識の精度は、スマートフォンのOCRアプリと同程度といった感じ。
シンプルな文字組みなら、かなり正確に認識して読み上げます。音声も自然で聴きやすい。Amazonの音声合成エンジンを採用しているとのこと。

縦書きにも対応し、上下が逆さまでも自動的に認識して解析してくれますが、新聞や雑誌などの複数の段組で構成される文書は苦手なようです。
この辺りはクラウドでの処理に依存する部分なので、OCRの認識精度が向上すれば解決するでしょう。なおOTON GLASSはGoogleのOCRエンジンを使用しているようです。

さてここまで書くと、「だったらスマホのOCRで良いのでは」と思うかもしれません。
実際私も半分くらいそんな感じで見にいったのですが、
いざ使ってみると、メガネ型のウェアラブルであることが結構重要なのではと感じました。

普通に読みたい物を持ち、ワンプッシュで読み上げられるシンプルさは、ユーザーを選びません。眉間にカメラを備えているので、自然な姿勢で確実なフレーミングが可能です。
スマホだとアプリを起動してカメラを選び、レンズの位置を確認しながらフレーミングして……と煩雑な操作が必要で、スマホに不慣れなユーザーにはハードルが高い。
「文字を読む」という日常的な動作をストレスなくこなすには、OTON GLASSのシンプルさには大きな意味があります。

ひとつ要望を書きますと、撮影するのにテンプルのボタンを押す必要があるのが惜しいと感じました。
少し重い本屋書類を読ませたい時に、両手で持ったまま撮影できると、より確実に対象物を撮影できるのではないでしょうか。メガネが軽いので、ボタンを押す時にブレないかも心配。
ボタンが左側にしか無いのも、左利きのユーザーには不利かも?
ジェスチャや音声コマンドまではいかなくても、ハンズフリーで操作できる無線スイッチなどが使えるようになると便利そうです。欲ヲ言えば、「Seeing AI」のDocument Channelのように本屋書類を自動認識して読んでくれると最高なのですけど。


用途の拡大にも期待


OTON GLASSは文字を認識するのにクラウドを利用します。
ネットワーク接続が必要なのは利用シーンを選んでしまうという欠点はありますが、クラウドでの処理を拡張すれば、文字を読む以外の用途にも使えるのでは?という妄想を書き立ててくれますね。

たとえばマイクロソフトの「Seeing AI」のように物体や紙幣の判別に使ったり、「Be My Eyes」のように、目の前の風景を正眼者に送信して音声サポートを受ける、みたいな使い方も期待できそうです。

説明担当の方に質問したのですが、映像をリアルタイムに送信できるかは不明。もし可能であれば、リアルタイムでの物体認識や、米国の「AIRA」のような人力サポートによるナビゲーションにも使えそうですが…。

また、日常生活を便利にするだけでなく、業務に最適化されたAIと組み合わせるなどすれば、視覚障害者の就労の可能性も広がるかもしれません。素人考えですが……。

Oton Glassはクラウドファンディングを経て、2019年の製品化へ向けて開発が進められているようです。
製品化に当たっては、幅広い用途に応用できる設計になると良いですね。
(デザインも、格好良くなるといいなぁ…)


まとめ


体験の順番待ちをしている間、体験の様子や周囲の反応を聞いていたのですが、「すぐに欲しい」という声が非常に多かったのが印象的でした。
スマートフォンだけでなく、OCRで読み上げできる拡大読書器も存在している中、スマートグラスのインパクトは非常に大きいと感じます。

体験したOTON GLASSはまだテスト機でしたが、ユーザーの手元に届く段階でどのような製品に仕上がるのか、とても期待が膨らみます。今回は体験会ということで触れられる時間も限られていましたが、製品版が登場したら、今度はもっとじっくりと体験して見たいものです。

視覚障害者の情報支援技術といえば、PCやスマートフォン、タブレットといったデジタル端末が中心ですが、OTON GLASSの登場で、ウェアラブルデバイスにも、今後注目が集まりそうです。
欧米ではすでに「OrCam」というウェアラブルデバイスが量産化されています。

これらのデバイスが、視覚障害者をはじめ文字を読むことが困難な人々の一助となることを願ってやみません。

2018年5月25日金曜日

視覚障害者むけ画像認識アプリ「Seeing AI」を試してみました

Seeing AIが日本でも利用可能に



2017年7月に登場し、視覚障害者の間で話題騒然だった、
マイクロソフトのiPhone向けアプリ「Seeing AI」が、
ついに日本でも利用できるようになりマした。
これを書いている時点ではまだ日本語化はされておらず、実用的かと言われると微妙ですが、一刻も早くこのアプリを試したかった方も多いのではないでしょうか。

Seeing AIは、iPhoneのカメラで写した風景や商品、文字や人物などを人工知能(AI)で認識し、音声で読み上げてくれる、視覚障害者のために開発された画像認識アプリです。
2017年12月にはカラーや紙幣、手書き認識機能が追加されました
似たような機能を持つアプリはこれまでにも多数リリースされており、多くの視覚障害者に利用されてきましたが、海外におけるSeeing AIはそれらと比べても軒並み高評価のようです。
これが日本のAppStoreからインストールできるように鳴りましたので、さっそく試して見ることにしました。
なおVoiceoverは常にオンの状態で使用しています。
iOSバージョンは11.3.1、アプリのバージョンは2.1.0です。

○iOS用アプリ
開発 Microsoft Corporation
価格 無料



Seeing AIの使い方とメニュー



アプリを起動し、チュートリアルを終えると、シンプルなメニューが表示されます。Seeing AIでは、認識させたいものに合わせて「Channel」を切り替えて使用します。
まずは、メニュー項目の簡単な紹介から。

・Menu(設定・人物登録)
「People(認識させる人物)」の登録や認識する紙幣の種類、読み上げ音声の設定などを行います。フィードバックもここから。

・Quick help(ヘルプ)
Seeing AIや各Channelの使い方が読めます。

・Take picture(写真の撮影)
「Document」「Handwriting」「Person」「Scene」の各Channelで表示されます。
要するに認識する画像を撮影するためのシャッターボタンです。裏を返すとそのほかのChannelではシャッターすら使わないということでもあります。

・Pause announcements(一時停止)
「Handwriting」「Scene」以外のChannelで表示されます。
、リアルタイム読み上げや音声によるサジェストを停止/再開します。

・Switch to front / back camera(カメラ切り替え)
「Person」Channelで表示されます。
撮影に使用するカメラを選択します。

・Recognizing(紙幣の選択)
「Currency」Channelで表示されます。
認識する紙幣の種類を選択します。

・Channel(Channel選択)
認識させる対象に合わせてChannelを選択します。
スライダでChannelを選択。Voiceoverオンの時は上下スワイプで切り替えます。



各Channelの機能と使い方



Channelは全部で9つ用意されています。各Channelで認識できる対象と、基本的な使い方を紹介しましょう。
Channelによって、リアルタイムで認識するものと、シャッターで撮影が必要なものがあります。なお「Short text」「Currency」「Color」「Light」はオフラインでも動作します。他のChannelはネット接続が必要です。

・Short text(文字)
カメラで認識した文字をリアルタイムで読み上げます。認識したいものにiPhoneをかざすと、自動的に読み上げますが、数秒のタイムラグがある感じ。英語で確認。日本語は認識しません。

・Document(書類)
書類をカメラで撮影して書かれている文字を認識し読み上げます。
iPhoneを書類の前にかざし、書類の輪郭が検出されると音声が鳴り、少し手を止めると自動的に撮影されます。「Take picture」で手動でも撮影可能なので、パッケージのもじなども認識できます。
このChannelでは、英語だけでなく日本語も認識できます。認識されたテキストは他アプリへ共有できるので、文字起こし用途にも活用できそう。

・Product(バーコード)
商品パッケージのバーコードを認識して商品の情報を読み上げます。
商品をiPhoneの前にかざしバーコードが検出されると
「ポポポ」とサウンドが鳴り、そのまま少し手を止めるとスキャンが完了します。
日本のバーコード(JANコード)には対応していません。バーコードは読み取れるのですが、商品名を取得することはできませんでした。
輸入クッキーのバーコード(英国製)は認識できました。商品名やメーカーのほか、アレルギー情報なども調べることができます。

・Person(人物)
人物を認識して、おおよその年齢や髪の色などを説明します。
カメラを選び、人物に向けると認識された人数(またはあらかじめ登録した人物の名前)が読み上げられるので、「Take picture」で撮影すると、詳細な情報を読み上げます。
読み上げた後、その写真を保存・共有することもできます。
あらかじめ「Menu」の「Face recognition」を開き、1人あたり3枚の写真と名前を登録しておくと、認識時にその人物が認識されれば登録した名前を読み上げます。
もちろんフロントカメラを使って自分撮りも可能。撮影した写真は保存もできるので、視覚障害者がセルフィー撮影する時にも使えるかもしれません。

・Currency preview(紙幣)
紙幣をリアルタイムで認識し読み上げます。
日本円には対応していません。よって動作は未確認。

・Scene Preview(風景)
撮影した風景を認識し、おおよその内容を読み上げます。パソコンやキーボード、家具はもちろん、樹木や草花、建造物なども、アバウトながらも認識してくれます。
読み上げた後、その写真を保存・共有することもできます。残念ながら撮影時の音声サジェスト機能が無いので、画面が見えなくても風景写真が撮れる!というわけにはいかないかも。

・Color preview(色)
カメラで認識したものの色を読み上げます。
まだシンプルな機能です。「Preview」なので、将来的には模様なども判別してくれるかもしれません(妄想)。

・Handwriting preview(手書き文字)
手書き文字を撮影して認識し、読み上げます。
あまり試せてませんが、おそらく英数字のみの対応だと思われます。

・Light(照度)
周囲の明るさをサウンドの高さで知らせてくれます



視覚障害者必携アプリになるかも!?



このアプリは人工知能による画像認識の精度に注目が集まっていますが、それ以上に感じたのは、極限まで簡略化され、ユーザビリティを尽くしたインターフェイス。
視覚障害者がこのような認識系アプリを使う場合、認識結果が得られるまでのプロセスが煩雑だったり、対象物をうまくカメラで捉えられないといった問題が発生します。
手順が煩雑だと、使いたい時に手間取ってしまったり、うまく被写体を捉えられずなんども撮り直ししなければ鳴りません。トレーニングである程度は改善されますが、これではせっかくアプリの性能が良くても使いこなすのは難しいですし、使えたとしても時間に余裕がナイト使えないなど制限されるケースもあります。。
Seeing AIは、人工知能で被写体を検知し、サウンドでサジェストしてくれますし、認識も1タップもしくは自動で行なってくれます。これならアプリの操作に慣れていない視覚障害者でも、簡単に使いこなすことができるでしょう。ただシンプルなだけというだけでなく、Voiceover操作でもストレスなく利用できるように、よくアクセスするボタンの位置などにも工夫が感じられます。
余分な機能をそぎ落とし、画像認識に特化することで、メインターゲットである視覚障害者にとって、現時点でもっとも使い勝手の良いアプリに仕上がっています。
評価の高さもうなづけますね。

一点だけ気になるのが、バッテリーの消費がやや激しいということ。長時間試しているとiPhoneの温度がどんどん上がっていくのがわかります(iPhone 7を使用)。基本リアルタイムで認識しているので、こればかりは仕方がないのかもしれませんが、外出先で使うときは注意が必要でしょう。

AIによる認識の真骨頂は「Scene」と「Person」だと思うのですが、この精度も良好。最新の画像認識の世界を手軽に体験できますし、時々やらかす誤認識もご愛嬌と言ったところ。「Person」で認識される推定年齢ゲームなんていかがでしょうか。
このChannelは視覚障害者じゃなくても一見の価値ありです。
「Color」や[Light」「Currency」は単独で高機能なアプリがリリースされていますが、最低限の機能は利用できますしSeeing AI一本で賄える利点は少なくありません。
また「Document」が日本語に対応しているのも嬉しい誤算。普段別のOCRアプリを常用していますが、一般向けのOCRアプリは手順が多いなど不満がありました。Document機能だけでもSeeing AIを使うかちは十分にあるのではないでしょうか。しばらくSeeing AIをメインのOCRアプリとして活用していくつもりです。

ローカライズされていないということで少し不安もありましたが、その実力は十分に体験することができました。これはローカライズ版のリリースが楽しみですね。

「Short text」や「Handwriting」はともかく、インターフェイスと認識結果の翻訳、および「Products」で日本のバーコードが認識できると、視覚障害者の日常に立ちはだかる障壁が少し低くなるのではと思います。
マイクロソフトは、他にも海外で「soundscape」というナビゲーションアプリをリリースしており、こちらのローカライズにも期待が高まります。

他社に目を向けてみると、Googleは「Google Lens」や「Google Lookout」という画像認識アプリを予告していますし、スマートグラスにも画像認識AIを応用した製品が続々と登場しています。何かとダークサイドな面が面白おかしく注目されがちな人工知能ですが、障害者支援技術としては、どんどん進化を続けてほしいものです。

最新の人工知能や障害者支援テクノロジーを手軽に体験できる
「Seeing AI」、体験してみてはいかがでしょうか。


支援技術関連記事まとめ(2022年10月)

※以下のリンクをクリックするとDropboxへ接続し、ダウンロードが自動的に始まります。 ※ダウンロードファイルはHTML形式です。ブラウザで開いてください。 ※正常に表示されない場合は別のブラウザで試すか、エンコード設定を変えて見てくださ い。 ダウンロード: 海外記事 / 国...