2018年5月25日金曜日

視覚障害者むけ画像認識アプリ「Seeing AI」を試してみました

Seeing AIが日本でも利用可能に



2017年7月に登場し、視覚障害者の間で話題騒然だった、
マイクロソフトのiPhone向けアプリ「Seeing AI」が、
ついに日本でも利用できるようになりマした。
これを書いている時点ではまだ日本語化はされておらず、実用的かと言われると微妙ですが、一刻も早くこのアプリを試したかった方も多いのではないでしょうか。

Seeing AIは、iPhoneのカメラで写した風景や商品、文字や人物などを人工知能(AI)で認識し、音声で読み上げてくれる、視覚障害者のために開発された画像認識アプリです。
2017年12月にはカラーや紙幣、手書き認識機能が追加されました
似たような機能を持つアプリはこれまでにも多数リリースされており、多くの視覚障害者に利用されてきましたが、海外におけるSeeing AIはそれらと比べても軒並み高評価のようです。
これが日本のAppStoreからインストールできるように鳴りましたので、さっそく試して見ることにしました。
なおVoiceoverは常にオンの状態で使用しています。
iOSバージョンは11.3.1、アプリのバージョンは2.1.0です。

○iOS用アプリ
開発 Microsoft Corporation
価格 無料



Seeing AIの使い方とメニュー



アプリを起動し、チュートリアルを終えると、シンプルなメニューが表示されます。Seeing AIでは、認識させたいものに合わせて「Channel」を切り替えて使用します。
まずは、メニュー項目の簡単な紹介から。

・Menu(設定・人物登録)
「People(認識させる人物)」の登録や認識する紙幣の種類、読み上げ音声の設定などを行います。フィードバックもここから。

・Quick help(ヘルプ)
Seeing AIや各Channelの使い方が読めます。

・Take picture(写真の撮影)
「Document」「Handwriting」「Person」「Scene」の各Channelで表示されます。
要するに認識する画像を撮影するためのシャッターボタンです。裏を返すとそのほかのChannelではシャッターすら使わないということでもあります。

・Pause announcements(一時停止)
「Handwriting」「Scene」以外のChannelで表示されます。
、リアルタイム読み上げや音声によるサジェストを停止/再開します。

・Switch to front / back camera(カメラ切り替え)
「Person」Channelで表示されます。
撮影に使用するカメラを選択します。

・Recognizing(紙幣の選択)
「Currency」Channelで表示されます。
認識する紙幣の種類を選択します。

・Channel(Channel選択)
認識させる対象に合わせてChannelを選択します。
スライダでChannelを選択。Voiceoverオンの時は上下スワイプで切り替えます。



各Channelの機能と使い方



Channelは全部で9つ用意されています。各Channelで認識できる対象と、基本的な使い方を紹介しましょう。
Channelによって、リアルタイムで認識するものと、シャッターで撮影が必要なものがあります。なお「Short text」「Currency」「Color」「Light」はオフラインでも動作します。他のChannelはネット接続が必要です。

・Short text(文字)
カメラで認識した文字をリアルタイムで読み上げます。認識したいものにiPhoneをかざすと、自動的に読み上げますが、数秒のタイムラグがある感じ。英語で確認。日本語は認識しません。

・Document(書類)
書類をカメラで撮影して書かれている文字を認識し読み上げます。
iPhoneを書類の前にかざし、書類の輪郭が検出されると音声が鳴り、少し手を止めると自動的に撮影されます。「Take picture」で手動でも撮影可能なので、パッケージのもじなども認識できます。
このChannelでは、英語だけでなく日本語も認識できます。認識されたテキストは他アプリへ共有できるので、文字起こし用途にも活用できそう。

・Product(バーコード)
商品パッケージのバーコードを認識して商品の情報を読み上げます。
商品をiPhoneの前にかざしバーコードが検出されると
「ポポポ」とサウンドが鳴り、そのまま少し手を止めるとスキャンが完了します。
日本のバーコード(JANコード)には対応していません。バーコードは読み取れるのですが、商品名を取得することはできませんでした。
輸入クッキーのバーコード(英国製)は認識できました。商品名やメーカーのほか、アレルギー情報なども調べることができます。

・Person(人物)
人物を認識して、おおよその年齢や髪の色などを説明します。
カメラを選び、人物に向けると認識された人数(またはあらかじめ登録した人物の名前)が読み上げられるので、「Take picture」で撮影すると、詳細な情報を読み上げます。
読み上げた後、その写真を保存・共有することもできます。
あらかじめ「Menu」の「Face recognition」を開き、1人あたり3枚の写真と名前を登録しておくと、認識時にその人物が認識されれば登録した名前を読み上げます。
もちろんフロントカメラを使って自分撮りも可能。撮影した写真は保存もできるので、視覚障害者がセルフィー撮影する時にも使えるかもしれません。

・Currency preview(紙幣)
紙幣をリアルタイムで認識し読み上げます。
日本円には対応していません。よって動作は未確認。

・Scene Preview(風景)
撮影した風景を認識し、おおよその内容を読み上げます。パソコンやキーボード、家具はもちろん、樹木や草花、建造物なども、アバウトながらも認識してくれます。
読み上げた後、その写真を保存・共有することもできます。残念ながら撮影時の音声サジェスト機能が無いので、画面が見えなくても風景写真が撮れる!というわけにはいかないかも。

・Color preview(色)
カメラで認識したものの色を読み上げます。
まだシンプルな機能です。「Preview」なので、将来的には模様なども判別してくれるかもしれません(妄想)。

・Handwriting preview(手書き文字)
手書き文字を撮影して認識し、読み上げます。
あまり試せてませんが、おそらく英数字のみの対応だと思われます。

・Light(照度)
周囲の明るさをサウンドの高さで知らせてくれます



視覚障害者必携アプリになるかも!?



このアプリは人工知能による画像認識の精度に注目が集まっていますが、それ以上に感じたのは、極限まで簡略化され、ユーザビリティを尽くしたインターフェイス。
視覚障害者がこのような認識系アプリを使う場合、認識結果が得られるまでのプロセスが煩雑だったり、対象物をうまくカメラで捉えられないといった問題が発生します。
手順が煩雑だと、使いたい時に手間取ってしまったり、うまく被写体を捉えられずなんども撮り直ししなければ鳴りません。トレーニングである程度は改善されますが、これではせっかくアプリの性能が良くても使いこなすのは難しいですし、使えたとしても時間に余裕がナイト使えないなど制限されるケースもあります。。
Seeing AIは、人工知能で被写体を検知し、サウンドでサジェストしてくれますし、認識も1タップもしくは自動で行なってくれます。これならアプリの操作に慣れていない視覚障害者でも、簡単に使いこなすことができるでしょう。ただシンプルなだけというだけでなく、Voiceover操作でもストレスなく利用できるように、よくアクセスするボタンの位置などにも工夫が感じられます。
余分な機能をそぎ落とし、画像認識に特化することで、メインターゲットである視覚障害者にとって、現時点でもっとも使い勝手の良いアプリに仕上がっています。
評価の高さもうなづけますね。

一点だけ気になるのが、バッテリーの消費がやや激しいということ。長時間試しているとiPhoneの温度がどんどん上がっていくのがわかります(iPhone 7を使用)。基本リアルタイムで認識しているので、こればかりは仕方がないのかもしれませんが、外出先で使うときは注意が必要でしょう。

AIによる認識の真骨頂は「Scene」と「Person」だと思うのですが、この精度も良好。最新の画像認識の世界を手軽に体験できますし、時々やらかす誤認識もご愛嬌と言ったところ。「Person」で認識される推定年齢ゲームなんていかがでしょうか。
このChannelは視覚障害者じゃなくても一見の価値ありです。
「Color」や[Light」「Currency」は単独で高機能なアプリがリリースされていますが、最低限の機能は利用できますしSeeing AI一本で賄える利点は少なくありません。
また「Document」が日本語に対応しているのも嬉しい誤算。普段別のOCRアプリを常用していますが、一般向けのOCRアプリは手順が多いなど不満がありました。Document機能だけでもSeeing AIを使うかちは十分にあるのではないでしょうか。しばらくSeeing AIをメインのOCRアプリとして活用していくつもりです。

ローカライズされていないということで少し不安もありましたが、その実力は十分に体験することができました。これはローカライズ版のリリースが楽しみですね。

「Short text」や「Handwriting」はともかく、インターフェイスと認識結果の翻訳、および「Products」で日本のバーコードが認識できると、視覚障害者の日常に立ちはだかる障壁が少し低くなるのではと思います。
マイクロソフトは、他にも海外で「soundscape」というナビゲーションアプリをリリースしており、こちらのローカライズにも期待が高まります。

他社に目を向けてみると、Googleは「Google Lens」や「Google Lookout」という画像認識アプリを予告していますし、スマートグラスにも画像認識AIを応用した製品が続々と登場しています。何かとダークサイドな面が面白おかしく注目されがちな人工知能ですが、障害者支援技術としては、どんどん進化を続けてほしいものです。

最新の人工知能や障害者支援テクノロジーを手軽に体験できる
「Seeing AI」、体験してみてはいかがでしょうか。


0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。

米国マクドナルド、同社のキオスク端末に「JAWS Kiosk]を導入。視覚に障害があっても音声を用いた操作で注文から支払いまでを単独で実行可能に。

画像引用元: TPGi 米国マクドナルドは2021年9月9日、、支援技術ディベロッパーであるVispero社とと提携し、同社が運営する直営店およびフランチャイズ店舗に設置されているキオスク端末に対し「 JAWS Kiosk 」テクノロジーを採用したことを発表しました。 なおここで...