2021年1月16日土曜日

[iPhone] 音声操作できるOCRアプリ「Voice OCR」が大幅アップデート。(Ver 6.1更新)

2019年6月に書いた記事でご紹介したiPhone用OCRアプリ「Voice OCR」がバージョン6.0にアップデートされ、価格や機能が大きく変わりました。

※2020年1月16日にバージョン6.1がリリースされ、価格と無料スキャン回数が変更されました。


Voice OCRはカリフォルニア大学バークレー校でコンピューターサイエンスを学ぶShalin Shah氏によって開発されている視覚障害者向けのテキスト認識アプリです。印刷物や商品パッケージ、パソコンの画面などをカメラで撮影し、OCR(光学式文字認識)技術を用いて含まれているテキストを抽出。音声で読み上げることで視覚障害者の日常生活を支援します。UIは英語ですが日本語も高精度で認識し筆者もよく使わせてもらっています。

このアプリには以下のような特徴があります。


  • 音声コマンド(Capture、Read)を使い画面に触れることなく操作できる。
  • 複数の原稿を連続して撮影しまとめて解析できる。
  • 原稿の端を検出し音声でアナウンスするナビゲーション機能を搭載。
  • 独自のTTSエンジンを用い解析したテキストを自然な音声で読み上げる。


2021年1月13日にリリースされたバージョン6.0からはアプリのダウンロードが無料となり、一ヶ月150回までスキャンが可能になりました。無料スキャンは解析結果が1文字であろうとも撮影が失敗しようとも消費されてしまうので気を付けましょう。

150回をこえる場合は一ヶ月650円もしくは一年間7,500円のサブスクリプションが必要です。主な新機能は以下の通り。


  • リアルタイムでテキストをスキャンし読み上げる機能が追加された。
  • オフラインでテキストをスキャンし読み上げる機能が追加された。
  • 他アプリから共有することでPDFやイメージファイルの解析が可能になった。
  • フォトライブラリからイメージを読み込ませるときに複数選択が可能になった。
  • 解析したテキストのエクスポート機能が強化された。
  • アプリによる音声読み上げでiOS内蔵の音声を選択可能になった。
  • 音声ナビゲーションが「トーン」に変更された。
  • 解析処理中にレトロゲームっぽいBGMが鳴るようになった。


目玉機能であるリアルタイムスキャンとオフラインスキャンは設定から有効にすることで利用できるようになります。

リアルタイムスキャンをオンにしてiPhoneを文字が書かれているものに向けるとトーンが再生され、少し静止するとそのテキストが読み上げられます。この機能では速度を優先する「Fast」と精度を優先する「Accurate」の2つのモードから選択可能。オフラインスキャンはその名の通り、解析処理にネットワーク接続を必要としません。その分処理が高速となり外出先などで素早くテキストを解析することができるようになります。

ただ残念ながらリアルタイムスキャンおよびオフラインスキャンは日本語の解析には対応していないような雰囲気でした。まだじっくりは試せていないのですが、英語や数字は読み上げたのでおそらく英語のみの対応ではないかと思われます。


またフォトライブラリから写真をインポートし解析する機能に加え、他アプリからPDFやイメージファイルをVoice OCRへ送信し解析することもできるようになりました。

例えば「ファイル」アプリからPDFを選び共有メニューからVoice OCRをタップすると自動的に処理が開始され含まれるテキストが読み上げられます。イメージも同様で、Twitter公式アプリの画像を解析することもできました。


さて今回のアップデート。リアルタイム識別とオフラインで日本語が読めなかったのは残念でしたが、PDFの解析が可能になったのはEnvision AIを持っていない身分にはありがたい限りです。ただ買い切りからサブスクリプションに変更されたのは良いのですがちょっと料金設定が強気かな?というのが正直な感想です。

音声コマンドや複数ページ解析など独自の魅力もあるのですが、日本語への対応もまだ不完全ですしひとまず無料スキャンで様子を見るのが無難かなと感じました。ずっとメインで使っていたのですが、またしばらくは「OCR-pro」と使い分けることになりそうです。

リリースノートによると「perhaps one of the best in the world」と胸を張るOCRエンジンも改良(- Huge OCR engine improvements for better accuracy.)されているらしいのでその精度に期待というところでしょうか。近々テキスト解析精度について他のOCRアプリと比較などしてみようかと思います。


2021年1月8日金曜日

SAMSUNG、2021年モデルのスマートテレビに新しいアクセシビリティ機能を追加。

SAMSUNGのスマートテレビはアクセシブル?(画像引用元


SAMSUNGは米国時間1月11日から開催されるCES 2021に先駆けオンラインイベントを開催し、同社のディスプレイ事業戦略とともに、量子ドット+ミニLED「Neo QLED」採用製品などスマートテレビの2021年モデルを発表しました。

スマートテレビの性能については他報道にお譲りするとして、ここでは内蔵ソフトウェアに追加された新しいアクセシビリティ機能に注目してみます。


新しいスマートテレビにはアクセシビリティ機能として、映像の邪魔にならない位置にキャプションを移動させる機能や手話ウィンドウを最大200%までズームする機能、そしてロービジョンユーザーの視認性を向上させるインターフェイスのカラー反転機能などが追加されています。

これらの機能はユーザーからのフィードバックを反映し開発されたものとのこと。加えて発表イベントではカラー反転機能を実現するため、スマートテレビに搭載されているチップセットが再設計されたことも明かされました。


また一部の報道では音声フィードバックを備えた学習リモコン複数オーディオ出力が可能になったとの記載があります。もしかして後者は副音声を分離して出力する機能なのでしょうか? 筆者は展示会へ出向くたび家電メーカーの方に対し副音声の分離出力機能をリクエストし続けてきました。これが実現すれば副音声を聞きたくない人と一緒にテレビを見る時でも気兼ねしなくてすみますね。違っていたらすみません。

新しい機能の詳細についてはCES 2021でもう少し明らかになるかもしれません。


SAMSUNGは2013年以来、英国の視覚障害者支援団体であるRNIBと協力しスマートテレビのアクセシビリティ向上に取り組んできました。

現在同社の主なスマートテレビには画面上のテキストやリモコンの情報を音声で読み上げる「Voice guide」やロービジョンむけのテキスト拡大機能、Galaxyスマートフォンと組み合わせたデジタル拡大鏡などの視覚アクセシビリティ機能が組み込まれています。

これらの取り組みが評価され2020年モデルのSAMSUNGスマートテレビは、視覚障害者むけの製品を認定する「RNIB Approved」マークを取得しています。2021年モデルにおける機能追加で、より幅広いユーザーに対する利便性の向上が期待されます。


SAMSUNGはさらに2022年までに「Voice guideを備えたスマートテレビのラインナップ拡充の計画を発表。またテレビに内蔵されたカメラで手話を認識しテレビを操作するといった、AIを用いた新しいアクセシビリティ機能の開発にも取り組んでいるとのことです。

スマートテレビは多くのメーカーから販売されてはいるのですが、残念ながら一部のユーザーにとってアクセスできない製品が大多数であり、まだまだ障害者の選択肢は限られているというのが現状。他のメーカーにも特に低価格帯の製品のアクセシビリティ向上に取り組んでいただきたいものです。


参考:Samsung makes its 2021 TVs more accessible for people with vision or hearing disabilities


2021年1月6日水曜日

Google、合成音声によるオーディオブックをPlay Booksで無償提供。

音声合成技術の進歩はめざましいものがあり、特にAIの技術が導入されたことでその表現力は飛躍的に向上しました。「棒読み」と揶揄された平板で機会的な声のイメージは過去のものとなりつつあります。

メジャーな製品としてはAmazonのPolly、Microsoft AzureのText to Speech、東芝などによるコエステなどが思いつきますが、検索するとそれこそ数多くのサービスを見つけることができます。


音声合成の技術は幅広い分野へ応用されています。ATMや自動販売機といった電子機器はもちろん、テレビやラジオのニュース読みといったこれまで人間の声でなければ不自然と思われていた分野でも合成音声が採用されるようになってきました。

そんな中クラウド型音声合成サービスText-to-Speechを提供しているGoogleは、この技術をオーディオブックへ応用する取り組みを始めています。

AmazonのAudibleaudiobook.jpなどで配信されているオーディオブックは声優や俳優の肉声による録音が基本となっていますが、これを最新の音声合成技術によるナレーションで制作してしまおうというわけです。


9to5Googleの記事によると同社が運営する電子書籍ストア「Play Books」では、すでに8冊のフィクションと12冊のノンフィクション作為品が合成音声による自動生成でオーディオブック化され、無償で公開されているとのことです。これらの無料オーディオブック(Auto-narrated audiobook)の販売元はGoogle Play Public Domainとなっており、ナレーターとしてAlistairなどの合成音声の名前がクレジットされています。なお現時点では英語版のみで日本から購入・試聴することはできないようです。


Play Booksのヘルプには自動生成オーディオブックについて以下のようなエクスキューズが記載されています。

  • Mispronounced words(言葉の読み間違いがあるかも)
  • Pauses in places that don’t make sense(変なタイミングで間が空くかも)
  • A mismatch between the tone or emotion of word pronunciations and the content(内容とマッチしていない声のトーンや感情表現があるかも)

やっぱりまだ完璧という感じではなさそうですね。今後もしこれらのオーディオブックが有料で販売されるようになると、どこまで読み上げ品質が保証されるのかちょっと気になります。でも多少読み上げが不自然でもクセのある肉声と比べ合成音声の方が、意外と聴きやすくて好評だったりするのかもしれません。


海外ではオーディオブックの需要が高まっている一方、制作に必要な時間とナレーターのコストが負担となり供給が追いついていない状態が続いていると言われています。

自動生成できるようになればこれまでコスト回収が見込めなかった作品もオーディオブック化される道が開けてくるでしょう。電子書籍ではちょっと影が薄いPlay Booksですが、これでラインナップを拡充し巻き返しを狙っているのかもしれませんね。

Googleは現在パブリッシャー向けにオーディオブック変換ツールを開発しており(現在ベータ版)、2021年中にも正式リリースする予定とのことです。

視覚障害者としては「合成音声でオーディオブック」と聞くと、どうしても録音図書にも応用できないもんか?と考えてしまいます。


参考:Free Play audiobooks using Google auto-generated narrators - 9to5Google


2021年1月1日金曜日

2020年を軽く振りかえってみる。

新年最初といゆことで2020年、筆者がチェックしたトピックスをまとめてみました。

こうして眺めるとCovid-19感染拡大の甚大な影響、ゲームアクセシビリティの進化、AIとLidarを活用した支援技術の進歩などが目立ちました。

また米国では障害を持つアメリカ人法(ADA)が制定から30年、英国では障害者差別禁止法(DDA)が制定から25年という節目を迎え、それを記念した様々な映像作品や記事が公開され活発な議論が行われていたのが印象的でした。国内でも日本点字制定から130年でしたね。サイトワールドの中止は残念でした。

2020年12月の記事まとめはこちら。2020年全体の記事アーカイブ(ZIP圧縮)はこちらからダウンロードいただけます。アーカイブは2021年1月いっぱいまでの公開です。


1月


1/4 世界点字デー。

1/7-10 米ラスベガスでCES 2020開催。

Microsoft、Hololensを活用した「Project Tokyo」発表。

英国RNIB、Amazonと提携しALEXAで視覚障害者へ情報提供。

スマートコンタクトレンズ「Mojo Lens」、まずはロービジョン支援に。

Microsoft、新しい「Edge」正式版をリリース。

インド準備銀行、紙幣識別アプリ「MANI」リリースするも不評。

国内:Xbox アダプティブ コントローラー発売。


2月


Twitter、GIF画像に画像説明文を追加する機能を発表。

「Canute 360」出荷間近。

脳インプラントによる人工視覚実験がスペインで実施される。

Raspberry PI向けLinux「 Raspbian」でOrcaスクリーンリーダーが利用可能に。

AIRAが南カリフォルニア投資グループに買収される。

米ロサンゼルス、ユニオン駅でNavilensの実証実験が始まる。

SoundScapeがBose Framesをサポート。

国内 日本IBMなど5社、視覚障害者を誘導するAI搭載スーツケース開発を発表。

国内 京セラ、RFIDとスマート白杖を用いる視覚障がい者歩行支援システムを開発。

国内 聴覚障害者向け手話電話サービスの制度化法案を閣議決定。

国内 読書バリアフリー計画案まとまる。

国内 ANA、京急電鉄など「Universal MaaS」の社会実装に向け連携。

国内 シチズン、インクルーシブデザインの視覚障害者向け腕時計を発表。


3月


CSUN支援技術カンファレンス開催。

Covid-19感染、世界中に拡大。障害者へも大きな影響

→関連情報まとめ。https://bit.ly/2DmteGI

AIRA、Horizonグラスのサポートを3月いっぱいで終了

Netflix、米国の障害者運動を記録したドキュメンタリー「Crip Camp」公開

Apple、LiDARスキャナを搭載したiPad Pro 2020年モデル発売。

マドリードで開催予定のWorld Blindness Summit、2021年に延期

ドイツ無形文化遺産に「ドイツにおける点字の使用と伝達」登録

Google、PodcastアプリのiOS版リリース

国内 大都市型MaaS「my! 東京MaaS」始動

国内 iPhone用アプリ「これなにメモ」リリース。

国内 バリアフリー整備ガイドラインの改訂を検討

国内 視覚障害者向けデバイス「みずいろクリップ」発売。


4月


4/29 国際盲導犬の日

Apple、第二世代「iPhone SE」発売。

英国、米国の4つの視覚障害者団体がBe My Eyesと提携。

オーストラリア。携帯電話のアクセシビリティ機能について情報の開示をルール化。

Be my eyes、世界的オンラインライブイベント「One World」の音声解説を提供。

Switch、10.0.0アップデートでシステムレベルでのボタンマッピングが可能に。

Google、AndroidのTalkbackに点字キーボードを追加。

米国Second Sight、事業縮小で人工視覚事業に影響か。

国内 静岡、視覚障害者にスマホで信号の情報を伝える機器を設置

国内 日本科学未来館、次期館長にIBMフェローの浅川智恵子氏を選任


5月


5/21 GAAD 2020。世界各地でリモートイベント開催。(関連ニュースまとめ

Google ChromeにLive caption機能が登場。

Twitter、画像の説明文の上限を420文字から1000文字に拡張。

Twitter、画像の説明文機能をデフォルトで有効に。

国内 サイトワールド2020、開催中しを発表。

国内 改正バリアフリー法が成立。


6月


6/27 世界盲ろう者デー

Twitter、音声ツイート機能をリリースするもアクセシビリティに非難の声

Apple、WWDC 2020開催。アクセシビリティ関連の新機能も多数発表。>記事まとめ

PS4ゲーム「The Last of Us Part II」のアクセシビリティが話題に

BOSE、音声AR事業から撤退

国内 改正バリアフリー法施行

国内 改正著作権法が成立

国内 ローソンPBの新デザインの視認性が議論に。

国内 国会ネット中継に手話通訳導入を決定

国内 東急電鉄、全駅にホームドア/固定柵を設置完了


7月


7月は障害者プライド月間

7/26 米国。ADA法署名から30年。→関連情報まとめ。https://bit.ly/3i24WRz

ロービジョン支援グラスの最新モデル「eSight 4」発表。

Orcam、英語圏でスマートリーディング機能を提供開始

盲導犬のように視覚障害者を導くガジェット「Theia」

AIRA、英国で正式サービス提供開始。

Chrome、バージョン85でタグ付きPDFのエクスポートが可能に

国内 読書バリアフリー法の基本計画を公表

国内 2020年版障害者白書を閣議決定


8月


LEGO、米国などてBraille Bricksを提供開始。

視覚障害者支援技術イベント「Sight Tech Global」12月に開催決定。

2021年のCSUN支援技術カンファレンス、オンラインでの開催を決定。

Amazon Fire TVのアクセシビリティ機能「Text Banner」発表。

コンピュータビジョン技術を手軽に試せる「OpenCV AI Kit」。

Google、Lookoutをアップデート。

AIRA、5分間の無料アクセスの条件を変更。

国内 「ダイアログ・ミュージアム「対話の森」オープン。

国内 新神戸駅で「shikAI」の実証実験を開始。


9月


Apple、iOS14など最新OSとiPad、Apple Watchの新機種を発表。

英国、公的機関のWebアクセシビリティ準拠が義務化。

Game accessibility conferenceがオンラインで開催。

12月開催のゲームイベントTGAにアクセシビリティ部門を新設。

Be My Eyes、盲導犬団体や選挙支援団体と相次いで提携。

Twitter、2つのアクセシビリティ専門チームを組織。

YouTube、コミュニティキャプション機能を廃止へ。

YouTube、一方でマルチ音声の切り替えに対応。

Instagram、IGTVにビデオの自動キャプション機能を提供。

メッシがOrcamのアンバサダーに就任。

米アカデミー、作品賞候補の多様性基準を公表。

国内 iPS視細胞の移植手術、実現へ。

国内 障害者雇用率の引上げ、来年3月1日に延期。


10月


10/8 世界視力デー。

10/10 目の愛護デー。

10/15 国際白杖のひ。

iPhone 12発売。ProにはLIDARスキャナを搭載。

米SIE、PlayStation 5本体のアクセシビリティ機能を紹介。

Microsoft、人力を超えるスコアを出す画像キャプションAIを開発。

国内 警察庁、スマホによる信号の色伝達システムの導入を促進。

国内 iPS視細胞、世界初の移植手術実施。

国内 セイコー、視覚障害者向け音声デジタルウオッチをリニューアル。


11月


Apple、M1チップを搭載したMac3機種をリリース。

Apple、macOS X1 Big surリリース。

Apple、iOS14.2でLidarスキャナを用いた人物けんち機能を追加。

PlayStation 5とXbox Series X/S発売。アクセシビリティも話題に。

Google、視覚障害者のランニングを支援する「Project Guideline」。

Envision Glass、一般向けに正式発売。

Logitech Adaptive Gaming KitがTIME誌の年間発明100に選出。

国内 日本ライトハウス展、オンラインで開催。

国内 日本点字、制定から130年を迎える。

国内 視覚障害者向けAIスーツケース、実証実験を開始。

国内 HORI、Switch版適用コントローラー「Flex Controller」発売。

国内 ポニーキャニオン、読書支援サービス「YourEyes」発表。


12月


12/3 国際障害者デー

12/10 国際人権デー

AIによる視覚障害者支援を扱うイベントSight Tech Global開催。

The Game Awards 2020開催。「TLOU2」がA11Y賞を獲得。

Apple、国際障害者デーに合わせアクセシビリティサイトを全面リニューアル。

Google、視線で音声コマンドを読み上げるアプリ「Look To Speak」リリース。

Amazon、ALEXAにグループ通話と自動キャプション機能を追加。

Amazon、Voiceittと提携し非定型発話ユーザーの利便性を向上。

スマートコンタクトレンズのMojo Visionとメニコンが技術提携。

GoodMaps、Orcam ReadがCES2021のイノベーション賞を受賞。

NYCの障害者歴史博物館がCovid-19の影響で閉館。

Netflix、オーディオ専用モードをリリース。

Lidarによる物体検知機能を追加した「Seeing AI 4.0」リリース。

国内 神戸でnavvilensの実証実験が始まる。

国内 障害者差別解消法、改正法案提出を検討。

国内 三井物産ら6社、ロービジョン支援プロジェクト「With My Eyes」発表。



支援技術関連記事まとめ(2022年11月)※お知らせあり。

※以下のリンクをクリックするとDropboxへ接続し、ダウンロードが自動的に始まります。 ※ダウンロードファイルはHTML形式です。ブラウザで開いてください。 ※正常に表示されない場合は別のブラウザで試すか、エンコード設定を変えて見てくださ い。 ダウンロード: 海外記事 / 国...