2018年9月1日土曜日

もう一つの視覚障害者向け画像認識アプリ「Envision AI」


iPhoneが視覚障害者の「目」になる


視覚障害者の生活を支援するスマートフォンアプリは数多くリリースされているが、その中でもにわかに注目を集めているのが、AIと深層学習を応用し、画像に含まれる文字や物体、人物を解析して音声で読み上げてくれる画像認識アプリだ。
代表的なアプリとしては、マイクロソフトの「Seeing AI」やGoogleの「Google Lens」「Lookout(リリース予定)」などが挙げられるが、その中でもダークホース的な存在とも言えるのが、Envision Technologiesの「Envision AI」だ。
先日のアップデートで大幅な機能追加がアナウンスされたこともあり、ここで改めてこのアプリをじっくり使って見ることにした。
搭載されている各機能の使い勝手とともに、5月に当ブログでレビューした「Seeing AI」との比較なども行いたい。

○iOSアプリ
開発 Envision Technologies B.V.
価格 サブスクリプション制
評価バージョン v1.5.2
評価環境 iPhone 7 (iOS 11.4.1)

Envision AIの利用にはユーザー登録が必要。GoogleやFacebookアカウントが利用できる。インストールから14日間、全ての機能が無料で試せ、それ以降は一ヶ月あたり10回まで無料で利用可能。
サブスクリプション料金は、550円/月、2,800円/6ヶ月、4,500円/年、23,800円/無制限の4種類のコースが用意されている。
またAndroid版の開発も進行中だ。


Envision AIの機能と使い方


アプリを起動すると画面下部に4つのタブがあり、使いたい機能を選択する。
タブを開くと利用できる機能ボタンが表示されるので、ここからスキャン機能を有効にしたり、写真を撮影して画像認識できる。機能によってリアルタイムで認識するものと、写真を撮影してから認識するものがあり、リアルタイム機能はボタンがオン/オフの切り替えになっている点に注意。

「文字の認識」タブ

・すぐに読み上げを始める
iPhoneをかざした文字をリアルタイムに読み上げる機能。
日本語には対応していないが、英語ならかなり正確に認識して読み上げてくれる。さらに「ヘルプ」タブの設定でオフラインの認識をオンにすれば、認識のスピードがさらに向上する。

・手書き文字の読み上げ/文章の読み上げ
読み上げたい文字をカメラで撮影してから認識し、読み上げる機能。日本語の認識に対応している。こちらも認識精度は高い。
手書きに関しては手元に手書き原稿が見つからなかったので印刷物で認識させたが、日本語も認識できた。
認識したテキストは、エクスポートボタンから他アプリなどへ共有することもできる。

「周りの物の認識」タブ

・風景を説明する

カメラで撮影した風景を画像認識して説明してくれる。
認識精度はSeeing AIの「Scene preview」「と同程度だが、ちゃんと日本語で読み上げてくれるのでわかりやすい。説明は大雑把なのだが、何かしらの手がかりにはなるかもしれない。
また、撮影した写真を説明文付きでカメラロールへ保存することもできる。「写真」アプリで保存した写真を選ぶと、Envision AIで認識した説明が読み上げられるので、後日写真を確認するときに便利だ。

・色を検出する
リアルタイムで、iPhoneをかざした対象物の色を日本語で説明してくれる。
ただ若干タイムラグがあるようで、少しiPhoneをかざしたまま待たないと、正確な説明は得られないようだ。

・バーコードをスキャンする
商品パッケージに記載されているバーコードを検出し、内容を読み上げる。
Seeing AIのようにバーコードを自動で検出せず、バーコードが印刷されている面を撮影できるまで何度か撮影し直さなければならない。
試した範囲では、国内のコンビニで購入した日本製のお菓子のバーコードは「無効」とエラーが帰ってきたが、輸入品ショートブレッドのバーコードはスキャンが成功し、商品名などが読み上げられた。

「スキャンして見つける」タブ

・カスタムオブジェクトの認識
学習させた顔やオブジェクトをリアルタイムに認識させる。
ただ試した範囲では、学習がうまくできず、うまく動作させることができなかった。

・一般的なオブジェクトの認識
iPhoneをかざしたオブジェクトを認識し、リアルタイムで読み上げる(日本語)。
ただ、認識精度はあまり(というか、かなり)良くない。筆者の机上にあるキーボードやノートパソコンを認識させても、「楽器」「まくら」とかなりトンチンカンな答えが帰ってきた。内蔵AIの学習モデルが弱いのだろう。
顔を認識させようとしても「耳」「髪」とパーツで読み上げてしまい、Seeing AIの「Person」のように表情や性別などの認識は行ってくれない。

・Envisionに学習させる
オブジェクト認識の弱さを補うのが、カスタムでAIを学習させる機能。
正確に識別させたい人物の顔やオブジェクトの写真を撮影し、その写真を元にAIを学習させ「カスタムオブジェクトの認識」を使って認識させることができる。
「顔を学習させる」または「オブジェクトを学習させる」を選択し、識別させたい顔や物品を10回撮影。識別名を入力して学習させる。学習データは「ライブラリを開く」から管理できる。
ただ顔を学習させようとして「成功」と表示されても学習データが生成されていなかったり、学習が「処理中」で延々と終わらないなど、まだ動作が不安定な印象だ。
この機能については、後日改めて検証して見たい。

「ヘルプ」タブ

ここではチュートリアル(英語)が読めたり、読み上げスピーチの設定、色認識の詳細どなどの設定の他、アカウントやサブスクリプションの管理などが行える。


Seeing AIとの比較


Envision AIを使っていると、やはりどうしても「Seeing AI」と比較して見たくなるのが人情というもの。AIを活用した視覚障害者向け画像認識アプリというコンセプトは同じものでも、それぞれ特徴が見える。ざっくり並べて見ると、

・Envision AI
○インターフェイスや認識結果が日本語に対応
○リアルタイムのOCRが高速(英語のみ)
○ドキュメントの文字認識の精度も高い
○認識させた風景を説明文ごと保存できる
○エレガントな効果音。読み上げはVoiceoverとは別に設定できる
×オブジェクト認識が非力。AI学習が不安定

・Seeing AI
○全体的にUIがシンプルで直感的
○カメラのオートフレーミングが便利
○紙幣、明るさ、写真ライブラリの識別機能を搭載
○顔認識の学習が簡単で高速
×ドキュメント以外の読み上げが英語

・共通
×リアルタイムOCRは日本語に非対応
×日本のバーコードスキャンには非対応
×風景の認識精度は微妙

というかんじだろうか。
どちらもまだ精密に使い込んでいるわけではないので第一印象での比較であることを留意いただきたいが、やはり日本語で利用できるEnvision AIは親しみやすさを感じる。Seiing AIも、将来日本語化されるはず(たぶん…)なので、それまでにEnvision AIがどこまで独自性を打ち出せるかに注目したい。

それにしても、リアルタイムOCRやバーコードスキャンといった、ずっと欲しかった機能に限って日本語に非対応というのが残念。処理するデータ量が桁違いだとか日本の商品データベースが使えないなど諸問題はあるとは思うが、これは是非対応を望みたいところだ。


まとめ:風景解析とカスタム学習に勝ちを見いだせれば


視覚障害者の目となってくれる画像解析アプリは、AIの進歩とともに最も注目されるジャンルの一つだ。その中でもEnvision AIは、Seiing AIと並び、トップクラスの品質を持っているといっていいだろう。
Envision AIのキモは、風景認識と「スキャンして検索」がどれだけ実用的に使えるか。「風景を説明する」の精度や、カメラ代りに使える点、AIの学習機能を評価できれば、十分にこのアプリを使う意味はあるだろう。逆にこの部分に魅力をかんじないのであれば「OCR」や「色彩ヘルパー」といった無料アプリを使い分けてもさほど困らないかもしれない。個人的には将来性に期待し、開発を支援する意味でも購入を検討する魅力を持ったアプリだと思う。

話題的には「Seeing AI」の後塵を拝している雰囲気を感じる「Envision AI」だが、使って見ると勝るとも劣らない実力を持っている。

iPhone持ちの視覚障害者はもちろん、画像認識AIに興味があるなら、ぜひ一度体験して見てはいかがだろうか。

0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。

米国マクドナルド、同社のキオスク端末に「JAWS Kiosk]を導入。視覚に障害があっても音声を用いた操作で注文から支払いまでを単独で実行可能に。

画像引用元: TPGi 米国マクドナルドは2021年9月9日、、支援技術ディベロッパーであるVispero社とと提携し、同社が運営する直営店およびフランチャイズ店舗に設置されているキオスク端末に対し「 JAWS Kiosk 」テクノロジーを採用したことを発表しました。 なおここで...