2019年6月16日日曜日

[iPhoneアプリ] 画面操作不要。声で操作できるOCRアプリ「Voice」。


スマホ使いの視覚障害者にとって「OCR)光学式文字認識)」技術を搭載したスキャナーアプリは、印刷された文字や商品パッケージなどを読むための定番アプリジャンルだ。
だがしかし、意外なことに視覚障害者、つまりスクリーンリーダーを用いているユーザーを強く意識して開発されたスキャナーアプリは非常に少ない。スクリーンリーダー操作に対応するのはもちろん、「日常的に認識した文字を読み上げる」という視覚障害者のニーズを満たすには、操作はできるだけシンプルであるのが理想といえるが、多くのアプリは翻訳やドキュメント作成などさまざまな付帯機能がてんこ盛りで、単純に文字を読み上げたいユーザーには操作が難しかったりする。。

「Voice: OCR Document Reader(以下Voice)」はそのような状況の中、iOSのスクリーンリーダーであるVoiceoverユーザーの利便性を考えられて開発されたアプリだ。このアプリ、以前から存在はしていたようだが、2019/6/15にリリースされたバージョン4.0で機能も品質も大幅に改善され、全く新しいアプリとして生まれ変わったという。
最大の特徴は、アプリの名前が表すように「声」で操作できる点だ。

開発 Shalin Shah/価格 600円/対応OS iOS 11以上


「Voice」を使うための準備


まず「Voice」を使うための準備をする。
このアプリを利用するにはネットワーク接続が必要。iPod touchなどで利用する場合は注意しよう。また日本語を認識するには最初に「Settings」を操作して設定を開き、「Languages」から「Japanese」を選択しておく必要がある。さらに好みに応じて「Speech speed」から内蔵ボイスの読み上げスピードを調節しておく。
他の画面でも共通しているが、前の画面に戻るには先頭見出しの次にある「Go back
」を操作する。


基本的な操作方法


  1. アプリを起動するとすぐに撮影モードになるので、撮影したい書類などにiPhoneをかざす。アプリが書類の4隅を検出すると「4 corners detected」と読み上げられるのでフレーミングの参考にしよう。「Flash set to」をタップすればフラッシュの「ON/Off/Auto」を切り替え、また「Pick from photo library」から、保存済みの写真をインポートすることもできる。
  2. iPhoneに向かって「Capture」と話すか「Double tap to take a picture」ボタンを操作すれば、シャッター音が鳴り書類を撮影する。
  3. 複数の写真を続けて撮影することもできる。撮影された写真は「Photo number XX」と読み上げる部分にリストアップされ、これをダブルタップすると撮影済みの写真を削除できる。
  4. iPhoneに向かって「Read」と話すか「Read」ボタンを操作すると、テキスト抽出処理が開始される。処理が完了すると抽出されたテキストが内蔵ボイスで自動的に読み上げられる。読み上げの一時停止は「Pause」、先頭からもう一度読み上げるには「Restart page」を操作。テキストフィールドにVoiceoverカーソルをフォーカスして読み上げさせることも可能。
  5. 複数の書類を撮影した場合は「Page XX Loaded」で目的のページへジャンプするか「Previous page」「Next page」を操作して切り替えられる。

かいつまんで説明すると、アプリを起動>4隅を識別したら「Capture」と告げる>「Read」と告げる>結果を読み上げ、という操作が基本。音声コマンドを使えば、画面をタッチする必要はない。

ここで一つ注意。
筆者の環境では、どういうタイミングで発生するかは不明だが、たまに書類を撮影したり「Read」コマンドを実行するとネットワーク接続エラーが出ることがある。この状態になるとテキストの抽出はもちろん音声コマンドも使えなくなるようだ。
エラーが発生したら、iOSのマルチタスク画面を開いて「Voice」を終了し、もう一度起動すれば回復する、と思う。今の所これで回復している…。


テキストの認識品質は?


さてOCRアプリのキモであるテキスト認識能力をみてみよう。
リリースノートによれば、「Voice」は撮影した画像を自動的に補正することで抽出精度を向上させているようだ。
以下に、同じ条件下で「Voice」と定番OCRアプリ「OCR-Pro」で抽出したテキストのサンプルを掲載する。

(「Voice」の抽出結果サンプル)
  ドコモ・ハーティ講座  (iPhone7) 【iPhone を便利に使うための機能や設定】  設定を変更するには、ホーム画面にある  「設定」を開きます。 <設定> ●Wi-Fi(ワイファイ)→「オン」 ※位置情報の正確性が向上します。 (用語説明) Wi-Fi  とは、パソコンなどのネットワーク接  続に対応した機器に、無線(ワイヤレス)でネ  ットワーク接続する技術のことです。  例えば、docomoWi-Fi に接続した場合、携帯電  話の回線を使わずにインターネット接続をする  ので、パケット通信量が節約できます。
(ここまで)

(「OCR-Pro」の抽出結果サンプル)
ドコモ·ハーティ講座
(iPhone 7)
【iPhone を便利に使うための機能や
設定】
設定を変更するには、
「設定」
を開きます。
ホーム画面にある
く設定>
●Wi-Fi(ワイファイ)→「オン」
※位置情報の正確性が向上します。
(用語説明)
Wi-fi とは、パソコンなどのネットワーク接
続に対応した機器に、無線(ワイヤレス)でネ
ットワーク接続する技術のことです。
例えば、docomolWi-Fi に接続した場合、携帯電
話の回線を使わずにインターネット接続をする
ので、パケット通信量が節約できます。
(ここまで)

「OCR-Pro」は文を自動的に判別して開業を入れるため読みやすいが(若干、開業が多すぎる気もしなくもないが)、文字の認識は「Voice」も負けていないレベル。ざっくりと使ってみた感じでは、書類の内容を把握する用途には十分実用的な品質に思えた。


「Voice」の特徴をまとめてみる


まだ短い期間ではあるが、使った範囲で、このアプリの特徴を挙げてみると、

良いと思ったところ
  • 撮影と抽出を音声で操作できる
  • 複数のページをまとめて抽出できる
  • 書類の4隅検出機能を備える
  • 抽出したテキストを自動的に読み上げる

これはイマイチと思ったところ
  • 時々ネットワーク接続のエラーが出る
  • 抽出したテキストの共有ができない
  • インターフェイスが英語

といった感じだろうか。
「音声コマンドによる撮影」は、最初聞いたとき「色物」的な印象を持っていたが、いざ使ってみるとこれが意外にも快適だった。シャッターボタンを操作する時にフレーミングがずれる心配がないので、安心感が強い。
そしてなんといっても、単一ページであれば音声コマンドを用いることで、アプリを起動してから読み上げまで、一切のジェスチャ操作が不要なのだ。これはジェスチャに慣れていないユーザーにも適しているだろう。

まだ(実質的に)ファーストリリースということもあり、ネットワーク接続が不安定だったり機能が少ないなど不満な部分もあるが、開発元からは音声コマンドの追加を含めたバージョンアップが予告されているので、今後の動きが楽しみなアプリだ。

個人的には、iPhone使いの視覚障害者にオススメのOCRアプリは「OCR-Pro」(残念ながら無料版は公開終了)もしくは「Google 翻訳」あたりが定番だったが、Voiceoverユーザーを強く意識して開発されている「Voice」は、これらの牙城を崩すポテンシャルを秘めているアプリと感じた。本当に音声コマンドは楽で良いよ!

関連アプリ:
OCR-pro 開発 Gen Shinozaki/価格 720円/対応OS iOS 8以上
Google 翻訳 開発 Google LLC/価格 無料/対応OS iOS 10以上


※アプリの機能や価格は、記事執筆時点のものです。

0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。

米国マクドナルド、同社のキオスク端末に「JAWS Kiosk]を導入。視覚に障害があっても音声を用いた操作で注文から支払いまでを単独で実行可能に。

画像引用元: TPGi 米国マクドナルドは2021年9月9日、、支援技術ディベロッパーであるVispero社とと提携し、同社が運営する直営店およびフランチャイズ店舗に設置されているキオスク端末に対し「 JAWS Kiosk 」テクノロジーを採用したことを発表しました。 なおここで...