2021年1月16日土曜日

[iPhone] 音声操作できるOCRアプリ「Voice OCR」が大幅アップデート。(Ver 6.1更新)

2019年6月に書いた記事でご紹介したiPhone用OCRアプリ「Voice OCR」がバージョン6.0にアップデートされ、価格や機能が大きく変わりました。

※2020年1月16日にバージョン6.1がリリースされ、価格と無料スキャン回数が変更されました。


Voice OCRはカリフォルニア大学バークレー校でコンピューターサイエンスを学ぶShalin Shah氏によって開発されている視覚障害者向けのテキスト認識アプリです。印刷物や商品パッケージ、パソコンの画面などをカメラで撮影し、OCR(光学式文字認識)技術を用いて含まれているテキストを抽出。音声で読み上げることで視覚障害者の日常生活を支援します。UIは英語ですが日本語も高精度で認識し筆者もよく使わせてもらっています。

このアプリには以下のような特徴があります。


  • 音声コマンド(Capture、Read)を使い画面に触れることなく操作できる。
  • 複数の原稿を連続して撮影しまとめて解析できる。
  • 原稿の端を検出し音声でアナウンスするナビゲーション機能を搭載。
  • 独自のTTSエンジンを用い解析したテキストを自然な音声で読み上げる。


2021年1月13日にリリースされたバージョン6.0からはアプリのダウンロードが無料となり、一ヶ月150回までスキャンが可能になりました。無料スキャンは解析結果が1文字であろうとも撮影が失敗しようとも消費されてしまうので気を付けましょう。

150回をこえる場合は一ヶ月650円もしくは一年間7,500円のサブスクリプションが必要です。主な新機能は以下の通り。


  • リアルタイムでテキストをスキャンし読み上げる機能が追加された。
  • オフラインでテキストをスキャンし読み上げる機能が追加された。
  • 他アプリから共有することでPDFやイメージファイルの解析が可能になった。
  • フォトライブラリからイメージを読み込ませるときに複数選択が可能になった。
  • 解析したテキストのエクスポート機能が強化された。
  • アプリによる音声読み上げでiOS内蔵の音声を選択可能になった。
  • 音声ナビゲーションが「トーン」に変更された。
  • 解析処理中にレトロゲームっぽいBGMが鳴るようになった。


目玉機能であるリアルタイムスキャンとオフラインスキャンは設定から有効にすることで利用できるようになります。

リアルタイムスキャンをオンにしてiPhoneを文字が書かれているものに向けるとトーンが再生され、少し静止するとそのテキストが読み上げられます。この機能では速度を優先する「Fast」と精度を優先する「Accurate」の2つのモードから選択可能。オフラインスキャンはその名の通り、解析処理にネットワーク接続を必要としません。その分処理が高速となり外出先などで素早くテキストを解析することができるようになります。

ただ残念ながらリアルタイムスキャンおよびオフラインスキャンは日本語の解析には対応していないような雰囲気でした。まだじっくりは試せていないのですが、英語や数字は読み上げたのでおそらく英語のみの対応ではないかと思われます。


またフォトライブラリから写真をインポートし解析する機能に加え、他アプリからPDFやイメージファイルをVoice OCRへ送信し解析することもできるようになりました。

例えば「ファイル」アプリからPDFを選び共有メニューからVoice OCRをタップすると自動的に処理が開始され含まれるテキストが読み上げられます。イメージも同様で、Twitter公式アプリの画像を解析することもできました。


さて今回のアップデート。リアルタイム識別とオフラインで日本語が読めなかったのは残念でしたが、PDFの解析が可能になったのはEnvision AIを持っていない身分にはありがたい限りです。ただ買い切りからサブスクリプションに変更されたのは良いのですがちょっと料金設定が強気かな?というのが正直な感想です。

音声コマンドや複数ページ解析など独自の魅力もあるのですが、日本語への対応もまだ不完全ですしひとまず無料スキャンで様子を見るのが無難かなと感じました。ずっとメインで使っていたのですが、またしばらくは「OCR-pro」と使い分けることになりそうです。

リリースノートによると「perhaps one of the best in the world」と胸を張るOCRエンジンも改良(- Huge OCR engine improvements for better accuracy.)されているらしいのでその精度に期待というところでしょうか。近々テキスト解析精度について他のOCRアプリと比較などしてみようかと思います。


0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。

米国マクドナルド、同社のキオスク端末に「JAWS Kiosk]を導入。視覚に障害があっても音声を用いた操作で注文から支払いまでを単独で実行可能に。

画像引用元: TPGi 米国マクドナルドは2021年9月9日、、支援技術ディベロッパーであるVispero社とと提携し、同社が運営する直営店およびフランチャイズ店舗に設置されているキオスク端末に対し「 JAWS Kiosk 」テクノロジーを採用したことを発表しました。 なおここで...