2018年6月28日木曜日

視覚障害者に便利なiPhone用OCRアプリ (2) 検証編


それぞれのOCRアプリの実力をチェック


前回のエントリーで、視覚障害者がテキストを読むのに使えるiPhone用OCRアプリについてご紹介しました。

※前回のエントリー(紹介編)はこちら

個人的にピックアップした5つのアプリについて、基本的な機能と操作方法について書きましたが、本エントリーでは、それぞれのアプリのテキスト認識精度や使い勝手などについて比較・検証して見たいと思います。
ちなみに使用した端末は、iPhone 7)128 GB)、iOS 11.4です。
検証した内容は以下の4項目。

・テキスト抽出の精度
・操作性
・テキストのエクスポート
・屋外での利用

※このエントリーは筆者の環境下での結果を元に執筆しています。全ての状況において検証内容を保証するものではありません。あくまでも参考としてお読みください。


気になるテキスト認識の精度を検証


OCRアプリである以上、テキストの認識精度は真っ先に気になるポイントでしょう。
今回検証に使用した原稿は、株式会社ラビットが輸入・販売する計測器「テープキング」のパンフレットです。昨年秋のサイトワールドでゲットしたもの。
(多分)同じものがPDFで後悔されています。音声だけで確認しましたので若干改訂されているかもしれません。
まとまった文章の塊ではあまり差が出ない可能性があるので、ややイレギュラーなレイアウトのものを選びました。日本語、英語、記号、数字が混在しているのもポイントです。

スキャンには自作の撮影台を使用。窓からの自然光と蛍光灯デスクライトを補助光として当て、3回スキャンし、もっとも精度がでた結果で比較しました。
では各アプリで抽出したテキストを見て見ましょう。
抽出テキストは、出力されたまま、無加工で掲載しています。

・Seeing AI
<抽出文字数:279字>

他アプリと比べると、精度はやや低い印象です。取り込めない文字も多く、認識ミスも目立ちます。
原因として考えられるのは、まだ正式に日本向けのローカライズが施されていないため。チューニング不足なのかもしれません。むしろ、ローカライズされていない状態でここまで認識してくれるのが凄いと考えることもできるでしょう。

抽出結果ここから─────────
計水契日常生活用具補品
【標準小売価格】
27.000円(税別) 【仕様:
【機能】
・測定( Imm••5rn)
・ケースを含む測定
・メモリー合計
(第人18n1) 定・履歴(10回分)
・差貨測定斜計/水平器
(0~ 180度)
・水平器角度補正
・音量(1~ 10段階)
・電池残量(%)
【製造元】Care Tecはd.

【輸人販売元】株式会社ラヒット
〒169-00/5 東京都新宿区高田馬場1-29-7 スカイバレスヒル401
「「日! 03 -5292-5544 [FAX] 03-5292-5 5 ぽ- Mail]曰gyo@尾ししト【okyo.(o.jp ハ択いhttp :〃いhしt -:okyo.(0.ル
抽出結果ここまで─────────

・OCR
<抽出文字数:452字>

認識精度は非常に高く、改行が適切に挿入されるので、聞き取りやすいテキストが生成されています。表の内容が少しわかりにくいですが、文字の認識ミスも少なく、抽出したテキストを再利用する用途でも十分実用的に使えそうです。

抽出結果ここから─────────
テープキング
Tape King
傾斜計/水平器
音声メジャー
日常生活用具候補品
「長さ」と「角度」を
音声で読み上げます
Tape K
【標準小売価格】
27,000円(税別)
【仕様】
1本体寸法/質量
!高さ75mm ×横幅103mm ×奥行33mm
280g (電池含めず)
メートル法
測定(1mm~5m)
·ケースを含む測定
·メモリー合計
測定単位
測定誤差
測定最大距離
(最大100m)
5m
単4形乾電池(2本)
1年間
テープキング本体、単4形乾電池(2本)ポーチ、
測定値履歴(10回分)
差異測定
·傾斜計/水平器
(0~180度)
水平器角度補正
·音量(1~10段階)
電池残量(96)
保証期間
取扱い説明書
(墨字·デイジーCD)
保証書
【製造元】 Care Tec Ltd
【輸入販売元】株式会社ラビット
〒 169-0075
東京都新宿区高田馬場1-29-7
お問い合わせ
ご用命は
·
スカイパレスビル40
[FAX] 03-5292-5645
[E-Mail) eigyo@rabbit-tokyo.co.jp
[URL] http://rabbit-tokyo.co.jp

抽出結果ここまで─────────

・Google翻訳
<抽出文字数:479字>

こちらも認識精度はかなり性格。ただ、抽出された文字が改行なしで出力されるため、内容によってはVoiceoverでの読み上げに影響する場合があります。また、内容を理解するには支障ありませんが「OCR」と比べ、いくつかの文字が誤認識されています。

抽出結果ここから─────────
テキングTape King傾斜計/水平器音声メジャー日常生活用具候補品「長さ」と「角度」を音声で読み上げますTape king【標準小売価格】27,000円(税別)【機能】・M定(1mm~5m)・ケースをau測定メモリー合計【仕様】本体寸法/質量|高さ75mm x横幅103mm x奥行33mm測定単位測定誤差280g(電池含めず)メートル法±1mm(最+大100m)測Emme(10回分)1:測定最大距離!5m電源保証期間付属品【製造元】Care Tec Ltd.【輸入販売元】株式会社ラピット単4形乾電池(2本)1年間テープキング本体、単4形乾電池(2本)ポーチ取扱い説明書差異測定usa計/水平器(0~180度)器角度補正l(1-10段匍池ul(%)1(墨字・デイジーCD)保証書、お問い合わせ・ご用命は169-0075東京都新宿区高田馬場1-29-7スカイパレスビル401 ITEL] 03-5292-5644 [FAX1 03-5292-5645 E-Mail] eigyo@rabbit-tokyo.co.jp TURL] http://rabbit-tokyo.co.jp

抽出結果ここまで─────────

・スキャナー&翻訳者
<抽出文字数:487字>

こちらも性格。一部文章が前後している部分もありますが、内容を把握するには十分の品質で認識しています。一部の文字で認識ミスが見られますが許容範囲。重箱の隅を突くようでアレですが、誤認識は「Google翻訳」より若干多いかも…。

抽出結果ここから─────────
テープキング Tape King 音声メジャー 傾斜計/水平器 日常生活用具候補品 「長さ」と「角度」を 音声で読み上げます ㄇㄇ Tape K 横幅 奥行: 【標準小売価格】 27,000円(税別) 【仕様】 本体寸法/質量 測定単位 測定誤差 | 高さ75mm ×横幅103mm ×奥行33mm 280 g (電池含めず) メートル法 【機能】 ·測定(1mm~5m) ケースを含む測定 メモリー合計 ± 1mm (最大100m) 測t値履歴(10回分) 差異測定 "傾誠計/水平器 |測定最大距離 15m 1電源 単4形乾電池(2本) 1年間 テープキング本体、単4形乾電池(2本)ポーチ 取扱い説明書(墨字·デイジーCD) 、保 書 保証期間 (0~ 180度) ·水平器角度補正 |付属品 音量(1-10段匍 電池残. (96) 【製造元】 Care Tec Ltd. ( お問い合わせ· ご用命は ゜売元】株式会社ラビット 〒 169-0075 東京都新宿区高田馬場1-29-7 スカイパレスビル401 [TEL] 03-5292-5644 [FAX) 03-5292-5645 [E-Mail] eigyo@rabbit-tokyo.co.jp URL] http://rabbit-tokyo.co.jp  
抽出結果ここまで─────────

・Text Grabber 6
<抽出文字数:375字>

筆者が試した範囲では、認識時に必ず「Unable recognize image」の警告メッセージが表示されます。そのまま「Continue」をタップしてテキスト抽出を行いました。その影響があるかどうかは不明ですが、文字の認識ミスも多く、内容全体を把握するのは難しい感じです。設定や撮影環境のチューニングが足りない可能性も考えられるため、参考データとしてお考えください。

抽出結果ここから─────────
プキンン 

びグぬパ 

音声メジヤー傾斜計/水平器 

れ活尾具―參 

【ゆ卜ほ1 

27,000円(税別う 【―1 

’ほれの》 

.ケースをほ 

’ 乂モジー, 1) 

.,僵―じ0.) 

まぽ縱 

・め/氷平謹 

(卜1肋度) 

, 水平器角度補正 

‘音龍じ~10ゆ》 

.の陶 

幽 

【仕様】 

本体寸法/質置 

覇定単位 

覇定誤差 

覇定―祖維 

探.園 

付飄參 

高さフ5口①X横幅103ロロ X奥行33の口 2809 (電池含めず)一 

単4形乾―じ本) 

テープキング本体、単4形乾電池ね本)ポーチ 取极い説明書僅字’デイジー〔り)、保証書 

む『6て6 1株式会社: 

:ラピツト 

【輪入販売元】: 

〒169-0075 

―都新宿区高田―レ29-フ 

スカイノ【レスピル恥1 

口し】03-5292-5… 

げぐ03-5292-5ね5 

【6’”8”】6か0@巧ゆ改-―0’ 口‘ル 牌し】ね如://口じ滅’ま0’ゆル 

お問い合わせ’ご用命は 

辟 

る 

ル'ハ. 

徐り 


抽出結果ここまで─────────

○感想 性格さと読みやすさで優れている「OCR」

テキストの認識精度は「OCR」「Google翻訳」「スキャナー&翻訳者」の3アプリはほぼ同等レベルの結果となりました。微妙な違いは、照明の微妙な当たり方や、撮影時の手ブレなどの影響もあるため、OCR性能の違いかどうかの判断は難しい気がします。
この中でも「OCR」は、抽出されたテキストに適切な改行が入れられており、Voiceoverで読み上げても読み崩れが少なく内容を理解しやすいと感じました。他の2アプリは抽出した文字をつなげて、一定の文字数で改行が入るため、行の切れ目で読みがおかしくなるケースがあります。
「Seeing AI」はまだローカライズされていないため、この結果だけで実力を判断するのは早計でしょう。一方「Text Grabber 6」も、変換する時にメッセージが表示されたため、この結果がベストパフォーマンスかどうか、判断が難しいところです。

OCRアプリの一般的な用途は「文字おこし」ですが、視覚障害者にとっては、重要な情報が漏れていなければ多少文字化けしていても意味がわかればオーケー。そういう意味では、冒頭に挙げた3アプリなら困ることはないでしょう。Voiceoverで読みやすいという点で「OCR」が一歩リードといったところでしょうか。


快適に使うためのアプリの操作性


せっかく高性能なアプリも、操作性が悪ければそのポテンシャルを生かすことができません。「視覚障害者が文字を認識させる」という使い方に絞って、各アプリの操作性を検証して見ましょう。
アプリを起動してからテキストを抽出するまでの工程数を比較しつつ、Voiceoverで快適に操作できるかを、あくまでも筆者の主観ではありますが比較して見ます。

・Seeing AI
<起動から抽出:1~2タップ 撮影に戻る:1タップ 再撮影:0~1タップ>

操作性では群を抜いて使いやすいアプリです。起動時に「Channel」を「Document」に設定して仕舞えば、自動的に撮影してくれるのはとても快適です。若干、ナビゲーションがへんてこな時もありますが、これはAIの学習が進めば解決するでしょう。
一般向けのOCRアプリは撮影した後に、写真を確認したり切り抜きする画面に遷移することが多いのですが、視覚障害者をターゲットにした文字認識に特化したことで、そのプロセスが省略されています。
長時間使うとiPhoneが熱くなるのを除けば、理想的な操作性です。

・OCR
<起動から抽出:3タップ 撮影に戻る:1タップ 再撮影:3タップ>

OCRアプリとしては、オーソドックスな操作性です。操作が引っかかることもなく、スムーズに使えます。
ただ、必要なボタンまでVoiceoverカーソルを動かすのに手間取る(位置が微妙)ことがあるため、位置を覚えてスプリットタップで使う方法が便利かもしれません。

・Google翻訳
<起動から抽出:3タップ 撮影に戻る:1タップ 再撮影:2タップ>

こちらもテキスト抽出までのプロセスはスムーズです。「スキャン」をタップしてテキストを抽出した後、なかなか「全てを選択」ボタンにフォーカスしないことがあるので、この点は慣れが必要かもしれません。

・スキャナー&翻訳者
<起動から抽出:3タップ 撮影に戻る:2タップ 再撮影:2タップ>

手順そのものは特別難しいことはありませんが、写真を解析するボタンにラベルがついていないので注意。カスタムラベル(2本指ロングタップ)を付けておきましょう。
また保存しているデータが増えてくるとアプリの動作が重くなったり、データを消しても動作が重買ったりと安定性に少し不安が残ります。

・Text Grabber 6
<起動から抽出:2~4タップ 撮影に戻る:2タップ 再撮影:2~3タップ>

タップ数に幅があるのは、筆者が試すと、「Done」ボタンをタップした時に、警告画面が出ることが多かったためなのです。
操作性は、起動時にVoiceoverカーソルがシャッターボタン(ファインダー)に位置付けされており、Cameraモードに設定されていればすぐ撮影できます。また編集画面の「Done」ボタンもカーソルを動かさずに押せます。Voiceoverユーザーに優しい作りですね。でも抽出結果から撮影画面に戻るのにスクラブが使えないのはちょっと不便。この辺りの徹底が望まれます。

○感想 理想形に近い「Seeing AI」

もともと視覚障害者向けとしては開発されていないアプリが多いため、操作性についてはユーザーの慣れが必要かもしれません。その中でも「OCR」と「Google翻訳」は、Voiceover環境でもストレスが少ないように感じます。「Text Grabber 6」もVoiceoverユーザーを意識している雰囲気はあるのですが、なにぶん筆者の環境ではエラーが出まくるので素直に判断できないのが悩ましいところです。
そう考えると、視覚障害者の利便性を最大限に考慮した「Seeing AI」は、別次元の操作性を実現しています。一般向けのアプリでここまで割り切った仕様にするのは難しいとは思いますが、編集画面をスキップできるようになるだけでも格段に使いやすくなると思うのですけれど…。どうでしょうかね?


抽出したテキストをメールで送る


アプリで抽出したテキストを、ほかのアプリやパソコンで使用するための「共有」機能を比べて見ましょう。
ここでは、テキストをメールで送信するケースに絞りました。

・Seeing AI

テキストが抽出できたら「Share」ボタンをタップし、イメージもしくはテキストを他のアプリなどへ共有できます。
テキストをメールで送信すると、「Document.html」というファイルが添付され、これを開いて抽出したテキストを利用できます。見出しが自動的に判別されタグがつけられるので、まとまった文章を取り込むのに便利でしょう。

・OCR

テキストが抽出されたら「保存」をタップし、名前をつけて保存します。するとメール送信ボタンが出現。これをタップしてメールを送ると、抽出されたテキストが、プレーンテキスト形式で添付されます。

・Google翻訳

このアプリには、抽出されたテキストを共有する機能はありません。テキストを全選択してコピーするか、Voiceover読み上げの間に「3本指4回タップ」でテキストをペーストボードにコピーし、メール本文にペーストして送信します。

・スキャナー&翻訳者

抽出できたら「BTN Sharing」をタップして、コピーもしくはメールで送信、またはDropbox保存(アプリ連携が必要)できます。メール送信は、本文にテキストがそのまま入る形式。2回目以降は前回送信したアドレスが記憶され自動的にセットされるのが何気に便利です。

・Text Grabber 6

「Share」をタップして、各種アプリなどへ共有できます。メール送信は、本文に抽出されたテキストが入る形式。

○感想 長文の取り込みなら賢い「Seeing AI」

あまり使う機能では無いかもしれませんが、この記事執筆にあたり一通り使って見たのでまとめて見ました。
「Seeing AI」と「OCR」が、抽出したテキストを添付ファイルで送ってくれるのは、テキストを再利用する上で結構便利では無いかと感じます。
特に「Seeing AI」で、自動的にタグ付けしてくれるのは、スキャンするドキュメントの内容によってはかなり使えるのでは無いでしょうか。


外出先で使うのにベストなのは?


視覚障害者の目の代わりとして活躍してくれるOCRアプリ。外出先でも、お店で商品を確認したり、表示板の内容を読むなど、便利に活用することができます。
Text Grabber 6以外のアプリは、画像を解析するためにネットワーク接続が必要。外出先では必ずしもWi-Fi接続が可能ではありません。Wi-Fiが使用できない場合は、モバイルデータ通信(4G)接続で使用することになります。そこで、各アプリの4G接続でのレスポンスを調査して見ました。
テストした場所は、電波強度が4本中2本とあまり良い環境では無いため、場所によってはもう少しレスポンスは早いかもしれません。上記のテキスト抽出で使用したパンフレットを3回スキャンし、画像解析にかかった時間を計測しました。
なお4G接続で使用するには、「設定」にある各アプリの設定にある「モバイルデータ通信」を有効にします。

・Seeing AI
<やや長い:18 ~ 28 秒くらい>

意外と処理に時間がかかります。30秒くらいでタイムアウトになるため、通信環境によっては使えない可能性があります。

・OCR
<長い:35 ~ 50 秒くらい>

かなり処理に時間が必要でした。テキスト抽出の品質が高いのは、送信しているデータ量がそれだけ大きいということなのかもしれません(想像です)。実用的に使うにはWi-Fi接続が必須という印象を持ちました。

・Google翻訳
<短い:8 ~ 15 秒くらい>

今回検証した中では、最もレスポンスが高速。翻訳アプリの性格上、屋外での利用がしっかり考慮されているのかもしれません。

・スキャナー&翻訳者
<やや短い:15 ~ 24 秒くらい>

Google翻訳ほどではありませんが、意外とレスポンスは高速。4Gで使う場合、処理開始時に1回だけ確認画面が表示されるので「却下」をタップします。このくらいの処理時間なら、なんとか実用できそう。
ただインターフェイスがもたついてタイムロスすることもしばしば。

・Text Grabber 6
<Wi-Fi環境と同様>

このアプリはオフラインでテキスト抽出を行うため、外出先でもレスポンスは変わりません。

○感想 外出先なら「Google翻訳」

体感的には、4G接続で実用的なのは「Google翻訳」と「スキャナー&翻訳者」。でした。「OCR」は極端に時間が掛かる印象。最近はコンビニなどでWi-Fi接続サービスを提供しているので、そちらと併用する方法もアリでしょう。この検証で、OCR専用アプリと翻訳アプリでは、想定されている使い方が異なっていると感じました。
また、Wi-Fiも4Gも使えない場所なら「Text Grabber 6」一択です。

外出先で使用する場合、もうひとつチェックしたいのが、スキャン時のシャッター音。「Google翻訳」以外のアプリでは、撮影時にシャッター音が鳴り、イヤホン使用時でもiPhone本体からシャッター音が鳴り響きます。多少ざわついた場所なら気になりませんが、静かな店内などで使う場合は「Google翻訳」が向いています。

商品の確認に限れば、「Seeing AI」のバーコードスキャンが日本対応してくれれば、かなり便利になるのではと期待しています。


結局、TPOに合わせて使い分けるのが良いという結論


ここまで、視覚障害者が便利に使えるOCRアプリについて紹介・検証してきました。
結論として、どのアプリが一番なの?という疑問もあるかと思いますが、ここまでお読みいただければわかるように、それぞれのアプリに得手不得手があリマス。
使用目的や環境に合わせてアプリを使い分けるのが現状ベターかなと思います。
紹介した5アプリの特徴を一言でまとめると、

・Seeing AI
手軽さが魅力。自宅でのちょっとした書類判別に。

・OCR
認識精度は抜群。自宅でじっくりOCR処理するのにピッタリ。

・Google翻訳
屋外での文字認識では色々な意味で便利。

・スキャナー&翻訳者
クラウド経由で画像を取り込み、テキスト抽出できる。

・Text Grabber 6
オフラインで使える強み。いざという時にあると安心。

…という感じになるでしょうか。
iPhone持ちの視覚障害者で、まだOCRアプリを使ったことがない方、他のOCRアプリを試して見たい方の参考になりましたら幸いです。
長文おつきあいいただき、ありがとうございました。

※この記事はiOS 11.4で執筆しました。


0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。

米国マクドナルド、同社のキオスク端末に「JAWS Kiosk]を導入。視覚に障害があっても音声を用いた操作で注文から支払いまでを単独で実行可能に。

画像引用元: TPGi 米国マクドナルドは2021年9月9日、、支援技術ディベロッパーであるVispero社とと提携し、同社が運営する直営店およびフランチャイズ店舗に設置されているキオスク端末に対し「 JAWS Kiosk 」テクノロジーを採用したことを発表しました。 なおここで...