2020年8月7日金曜日

OrCamの新機能「Smart Reading」はOCRの利便性を大きく向上させる。


イスラエルのスタートアップOrCam Technologiesは2020年7月末、同社が販売中の視覚障害者向けウェアラブルデバイス「OrCam MyEye2」およびポータブル読書支援デバイス「OrCam Read」に、新機能「Smart Reading」を提供すると発表した。まずは米国からアップデートが配信され、数週間以内に日本を含む世界各国で利用できるようになる。

これは2020年1月に開催されたCES 2020で予告されていた機能。
MyEye2およびReadには、印刷されている文字をカメラで撮影し、OCR(光学式文字認識)を用いテキストを抽出、その内容を音声で読み上げることで視覚障害者やディスレクシアの人々の読書を支援する機能が搭載されている。Smart Readingは、音声認識と自然言語処理(natural language understanding)によりこれをさらに進化させたものだ。

目でテキストを読むことができない視覚障害者にとって、OCRはとても有用な技術だ。近年はカメラ性能の向上やコンピュータビジョンの進化により認識精度も高くなっており、読書を初め郵便物や商品パッケージの確認、パソコンやゲーム機に表示されているテキストの認識に至るまで、視覚障害者の情報取得を支えている。OrCamのデバイスだけでなく、スマートフォン向けにも多くのOCRアプリがリリースされている。
ただ従来のOCRでは、認識されたテキストを先頭から末尾まで順番に音声で読み上げる必要があり、知りたい情報をピンポイントでピックアップすることは難しかった。
例えばイベントの告知チラシがあったとしよう。目が見えていれば開催日時や場所が書かれている場所を即座に見つけることができる。だがOCRで抽出したテキストを音声で読み上げる場合、それらの情報が書かれた部分まで待たなければならず、とても効率が悪い。
Smart Readingは、この「知りたい情報」を即座にピックアップして読み上げてくれる機能だ。テキスト全体の構造をAIにより解析しタグ付けすることで、音声コマンドによる情報のコントロールを実現している。


Smart Readingのチュートリアル動画によると、使い方は以下の通り。
タッチバーをダブルタップし「interactive reading」と告げるとデバイスのカメラが原稿を撮影し、音声コマンド待機状態になる。引き続き読み上げたい情報を音声コマンドでリクエストすれば、デバイスがその情報を抽出し読み上げる。例えばこのようなコマンドが使えるようだ。

read the dates(日付を読んで)
read the phone numbers(電話番号を読んで)
read the headlines(見出しを読んで)

他にも請求書の金額や飲食メニューから特定のカテゴリだけをピックアップするなど様々な情報に対応。複数の情報がある場合はその項目数とともに各項目をナンバリングする。文章を解析しセンテンスやアーティクル単位で読み上げを制御したり、リピートや全文読み上げなども音声でコントロールできるようだ。音声での操作になるため、デジタル機器に不慣れなユーザーでも簡単に使いこなせるだろう。
どこまで細かいコマンドが使えるかは不明だが、使いこなすことができれば、かなり効率的に情報を取得できるようになるだろう。もしかしたら目で読む時よりも素早く必要な情報にたどり着けるようになるかもしれない。健常者以上のパフォーマンスが得られるとしたら、これはなかなか痛快な話だ。

AIをOCRに応用するというと、手書き文字の認識や書式の判別といった、より正確さを追求するアプローチに向きがちだ。だがさすがOrCam、視覚障害者のニーズを常に探求している同社だからこそ、Smart Readingのアイデアが生まれたのではないだろうか。
願わくばこんな機能が他のOCRアプリにも採用されて欲しいな。MyEye2はなかなか手が出ないから……。


0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。

米国マクドナルド、同社のキオスク端末に「JAWS Kiosk]を導入。視覚に障害があっても音声を用いた操作で注文から支払いまでを単独で実行可能に。

画像引用元: TPGi 米国マクドナルドは2021年9月9日、、支援技術ディベロッパーであるVispero社とと提携し、同社が運営する直営店およびフランチャイズ店舗に設置されているキオスク端末に対し「 JAWS Kiosk 」テクノロジーを採用したことを発表しました。 なおここで...