Drafts about A11Y: 9月 2018

2018年9月24日月曜日

BIOSが　アクセシブルで　あったらな

単刀直入に書くと、BIOSのアクセシビリティ無視されすぎ。

確かにOSレベルでのアクセシビリティは着実に進化しており、障害者を取り巻く情報環境は向上しているが、デバイスの全般を眺めてみると、BIOSレベルでアクセシブルな例をほとんど見たことがない。

プライオリティ的にはOSのアクセシビリティが優先されるべきだが、だからと言ってBIOSのアクセシビリティをないがしろにしていいはずはない。

あまつさえ2016年以降のMacでは起動を知らせるサウンドが廃止されてしまい、むしろアクセシビリティが低下しているとすら言える。

BIOS設定メニューはもちろん、起動や終了音、起動プロセスのメッセージなどの情報にも読み上げや音声フィードバックのオプションが用意されて然るべきだと考える。

提供されている視覚情報に対応する音声フィードバックが用意されて初めて、そのシステムはアクセシブルだと言えるのではないか。

iPhoneをレニすると、端末の電源オフや電源オン、OSアップデートのプロセス（プログレスバー状況）、リカバリモードの状態などを耳で確認できないのは、無駄にストレスを感じる。全盲だとそもそも電源がちゃんと入っているのかすら判断できない。例外としてiPhone 7 / 8はホームボタンのフィードバックで電源が入ったかを確認できる。

また以前筆者のPCとAndroid端末が起動しなくなり、周囲に手伝いを以来できる人物もいなかったため、結局別のスマホのOCRアプリを駆使して切り抜けた経験がある。為せば成ると言えるものの、非常に時間も労力も消費してしまった。

何かしらの音声フィードバックがあれば、ここまで苦労はしないだろう。

英語のスペル読みレベルでも（最初は）構わない。ノーヒントで解読しなければならない現状に比べればはるかにマシだ。いやいや、なんならGBoardよろしくモールスコードでもいい。

一般的な用途であればBIOSを意識して利用するケースは少ないかもしれないが、いざという時にアクセスできないと困るのも確か。

よほど特殊な例は別として、よく発生するトラブルの原因調査やリカバリーくらいは、どんなユーザーでも単独で対処できるのが当たり前の世界であって欲しいと思うのだった。

2018年9月22日土曜日

お家で眠ってるスマホ、寄付しませんか？〜カナダ「Phone it forward」

視覚障害者が抱える大きな問題の一つ「情報のバリア」を超えるためにも、スマホなどの情報機器は非常に重要な存在である。

スマホと音声読み上げ機能を組み合わせることで、電話やメッセージ、メールといった通信手段にとどまらず、インターネットからの情報収集やアプリを利用して文字や色、紙幣、照明などを認識したり、外出先でのナビゲーションなどに活用できる。また音声アシスタントや音声認識による文字入力なども、視覚障害者には非常に有用な機能だ。

視覚障害者が情報を得る手段としては他にも音声パソコンを用いる方法があるが、キーボード操作などを習得するのに時間もかかり、自宅にネット環境が必要などハードルが高い。むろん就労を目指すならパソコンスキルは極めて重要だが。

そのような意味でも、筆者は視覚障害者へのスマホ普及が進むことを望むし、それにつながる活動も進めている。

現状、少しずつ視覚障害者のスマートフォン所有率は向上しているが、社会全体から見て見るとまだまだ低い。特に年齢が高くなればなるほど、ガラケーをずっと使っているケースが見られるようだ。

参考：

[PDF] 視覚障害者の携帯電話利用状況調査 - 電気通信普及財団

筆者も近隣地域でのIT支援に協力する中で話をきくが、新しい端末は操作方法を覚えられるのかが不安、という話とともに「スマートフォンは高額」というイメージが強く、あまり積極的に乗り換えようとしない傾向があるようだ。

確かにガラケーと比較してスマホはデータプランのデフォルト設定が高額で、月額利用料が跳ね上がるのは否定できない。ただMVNOに乗り換えたり、ガラケーはそのままにデータ専用のMVNOでスマホを使う方法もある。

だがそれに輪をかけて「スマホは高い」というイメージを補強しているのが、スマホの本体価格である。それこそ新iPhoneがもろもろ入れれば20万円知覚なるなんてニュースを聞けば、所得が低い障害者にとっては縁のない世界にしか思えないだろう。

スマートフォンを当事者に広く普及させるためには、周知活動や使い方などのサポートとともに、経済的な負担をどれだけ軽減させるかも重要となってくる。

一部の自治体ではタブレット端末を支援アプリと組み合わせることで補助対象としているケースもあるが、スマホへの対象拡大や他地域への広まりという動きには繋がっていないのが残念なところだ。

そんな中、海外からきになるニュースが飛び込んできた。

カナダで100年以上もの歴史を持つ、視覚障害者を支援する非営利団体「CNIB（Canadian National Institute for the Blind）」はこの秋、「Phone it Forward」というキャンペーンを開始した。

これは、機種変更などで不要になったスマートフォンを視覚障害者のために寄付できるプログラム。

寄せられた端末は、スマホの修理・メンテナンスを行うFixt Wireless社がリフレッシュ、個人情報などを消去した上で、視覚障害者に便利なアプリ（文字や色の認識アプリなど）をインストールして利用者に渡される。

寄付者には領収書が発行され、税金の控除が受けられるという。

詳しい内容は伝わっていないが、おそらく通信料などは利用者が負担すると思われる。しかし端末の費用負担がなくなるだけでも、視覚障害者のスマートフォン利用のハードルは大きく下がるに違いない。

カナダにおける中古スマホの扱いがどうなっているかはよくわからないが、寄付文化が根付いている国だからこそ成立するキャンペーンなのかもしれない。

日本では機種変更でキャリアが古い端末を下取りしたり、中古市場も活発なため、なかなか寄付というサイクルに繋がりにくいイメージがあるが、日々中古のスマホが発生しているのは間違いないし、どの家庭にも使い道のない古い端末が眠ってイタリしがちではないだろうか。そんな不遇の端末の有効活用法としても、このような活動はヒントになるかもしれない。

・Phone it Forward | CNIB

2018年9月20日木曜日

「音のレイヤー」が目の代わりになる。〜スマートグラス「Eyesynth」

いま世界中で、視覚障害者の「目」の代わりになる、さまざまなウェアラブルデバイスが開発されている。

その中でも、少し変わり種な存在「Eyesynth」を紹介しよう。

「Eyesynth」は、スペインのスタートアップが開発したメガネ型のウェアラブルデバイス、いわゆる「スマートグラス」にカテゴライズされる製品だ。

メガネには２つのカメラが搭載されており、カメラで捉えた映像を、ケーブルで接続された本体ユニットに送り、解析された結果をメガネに搭載されたイヤホンへフィードバックする仕組みだ。

この仕組みだけを見ると、複眼カメラ搭載という特徴はあるものの、最近続々と登場している視覚障害者向けスマートグラスと大差ないようにも思える。

このデバイスでできることも、基本的に「障害物の探知」のみというシンプルなものだ。障害物を丹地するデバイスは、すでに超音波と振動で障害物を発見するハンディデバイス「パームソナー」や、スマート白杖などで実現している。

この「Eyesynth」の最大かつ随一の特徴が、探知した障害物を「3D音響」でフィードバックする点にある。

探知レートは秒間役60フレーム。目の前にある障害物だけでなく、移動する物体にもリアルタイムに対応するという。

たとえば看板に向かって歩くと、Eyesynthは看板の位置や距離を音の強弱や左右の音空間に変換して伝える。。ユーザーはその音をヒントに、看板の横をすり抜けて歩くことが可能だ。その間、向こうから歩行者が向かってくればそれも同時にフィードバックされ、衝突のリスクを軽減できるという寸法である。パームソナーなどと異なるのは、空間を3Dで認識し、それを音空間として翻訳する部分だろう。探知する範囲は、ジェスチャーで切り替えられるので外出先、屋内どちらにも対応できる。

視覚障害者が障害物を回避するためには、通常白杖を使うが、それでは白杖が届く範囲かつうまく杖先が当てられなければならない。例外として停車中の自動車やおしゃべりしている通行人など「音」のヒントが得られれば避けられるわけだが、Eyesynthはその「音」のヒントを、画像認識を用いて静的物体に適用させる。

音声は骨伝導デバイスで伝えられるため、通常の環境音も同時に聞こえる。つまり、普段聞いている音に、Eyesynthが生成したもう一つの「音のレイヤー」が加わることで、視覚障害者の知覚を拡張するイメージだ。

おそらく現在の技術をもってすれば、これらの障害物を「言葉」で伝えることもできるだろう。おそらくそちらの方が、直感的に使い始められるはずだ。

だがこれでは複数の障害物を重複して伝達するには向いていないし、読み上げられた言葉を聞いてそれを理解するには必ずタイムラグが発生するため、安全な歩行を担保するのは難しいと想像できる。

Eyesynthも、この音によるフィードバックを理解するまでには、ある程度のトレーニングが必要だとアナウンスしている。一方で、経験を積むことで音による確実な空間認識が可能になるとも述べている。

あえて訓練が必要なデバイスを製作したというのは、裏を返せばそれだけ効果的であるという自信の表れなのかもしれない。

なお、このデバイスはあくまでも目の前の障害物を認識するためのもので、白杖や盲導犬との併用を強く勧めている。

数ある視覚障害者向けデバイスの中でも、ひときわ個性的な存在である「Eyesynth」。

2018年秋～冬にはプレオーダー分の出荷が開始される予定だ。

関連リンク：

・Eyesynth

・Eyesynth, las gafas 3D ‘made in Castellón’ que traducen lo que ven en sonidos comprensibles para per

2018年9月19日水曜日

道順は「足」に聞く時代。〜スマート靴「」LeChal」

視覚障害者が抱える大きな問題のひとつに「移動」がある。

ガイドヘルパー（同行援護）サービスや歩行訓練といった支援策は存在するものの、ガイドは利用に制限があったり、外出先が増えるたびに訓練を受けるわけにはいかない。結局、家族や知人に依頼して同行してもらうことになる。

これは万人が持ちうる「移動の自由」とはかけ離れた状態ではないだろうか。

いつでも好きな場所に人りで行ける。

そんな当たり前のことが、目が不自由というだけで制限されるのは悲しいことだ。

だがスマートフォンに代表される電子機器や通信環境の進化により、位置情報をもとに視覚障害者をナビゲートする技術が普及し、その状況は少しずつ改善されつつある。

スマートフォンの位置情報サービスを活用したナビゲーションとしては、ナビアプリを用いて音声や振動で歩行ルートを案内する方式が主流だが、どうしても手が塞がったり、イヤホンを用いなければならず、使用する機器や状況によっては安全面での懸念がある。

そこでスマートフォンと無線接続し、振動などの触覚で安全な誘導を目指す技術が続々と登場している。

例えば方向を振動で伝える「スマート白杖」やスマートブレスレット、ヘルメットやベルト、さらには衣服が振動するものまで、ありとあらゆるウェアラブルデバイスが開発され、すでにいくつかのデバイスは製品としてリリースされている。

その中でも、実感として比較的実用的かな、と思っているデバイスが「足まわり」、つまりスマートフットウェアだ。

「LeChal」は、インドのスタートアップDucere Technologies社が開発したスマートシューズ。好みの靴でも使えるよう、インソールタイプの製品もラインナップされている。

日本でも、国内Amazonで輸入品が購入可能のようだ。

LeChalは振動モーターと各種センサー、通信モジュール、バッテリーなどを内蔵し、BluetoothでペアリングしたスマートフォンとGoogleマップなどの連携アプリを用いて、ユーザーをターン・バイ・ターンでナビゲーションする。交差点などに近づくと目的地の方向を左右の靴が振動して案内してくれる仕組みだ。振動のパターンや強さは好みのものにカスタマイズできるという。

他のデバイスと異なり、靴は自分の歩く方向を常に向いているため、歩行ナビにもっとも向いている。もちろんハンズフリーというのも重要なポイントだ。

視覚障害者にとって、足元は白杖と並びとても重要な情報源。横断歩道や階段の手前にある警告ブロックを確認したり、段差や路面の材質・状況などを感じながら歩行する。歩行中は、白杖と足裏の感覚にかなりの神経を集中させている。そう考えると、ナビゲーションをスマート靴に担当させるのは情報を集中させるという意味でも理にかなっていると言えるのかもしれない。スマホなど手に持つデバイスだと、振動や音声に気をとられ足元の安全確認がおろそかにもなりかねない。

ただなれるまでは足裏の感覚に変化があるため、注意が必要になるかも……。

また測位はスマホの精度に左右されるため、環境によっては数メートル単位で誤差が発生したり、屋内では使えないなどの制限が考えられる。

試してはみたいのだが、貧困ライターには高価なので……。

ちなみにLeChalにはフィットネストラッカー機能も搭載されており、AppleやGoogleのフィットネスアプリと連携して移動距離や歩数なども管理可能らしい。

近年ではウェアラブル市場の盛り上がりに乗り、スマートフットウェアにも注目が集まっているが、多くはフィットネストラッカー用とのもので、ナビゲーション機構を備えたものは見かけない。

だが視覚障害者以外でもスマホのナビは一般的に利用されているし、歩きスマホが問題視されている昨今、むしろ一般向けのデバイスのようにも思えるのだがどうだろうか。

それこそ音声で目的地を伝えたら、あとはくつに案内してもらうことも簡単に実現できるはず。

たしかにLeChalの開発のきっかけは視覚障害者のサポートなのだが、その結果生まれた製品が番人にも便利であることが照明されれば、マーケットが広がり価格も下がるだろう。「障害者向け」というフィルターを外せば、そこに大きな何かが待っているかも？

新しい製品やサービスのヒントは、このようなところにも隠されていると思うのだが……。

2018年9月18日火曜日

スクリーンリーダーは「遅読」なのか？を検証

スクリーンリーダーは、視覚障害者がWebから情報を入手するための必須アイテム。Webに含まれる文字情報を音声に変換して読み上げることで、情報を耳から得る仕組みだ。

ところで、この「スクリーンリーダーで読む」という行為に対し、皆さんはどのようなイメージをお持ちだろうか？

声が不自然だとか、読み間違えが気になりそう、という感想は、実にごもっとも。AI隆盛の昨今、テクノロジーで解決できることは早く対応していただきたいものである。

ただ「目で読むよりも、読むのに時間がかかりそう」というイメージには疑義の念を抱かずにはいられない。本当にスクリーンリーダーでの情報取得には時間がかかるのだろうか？

気になったので調べて見ることにした。

一部のニュースサイトには、各記事に、文字量から想定された「読了時間」が記載されている。おそらく平均的な数値を目安として表記していると考えられるが、この読了時間とスクリーンリーダーでの読み上げ時間を比較して、どれだけ差が発生するか調べてみた。

検証はmacOS 10.13.6のVoiceover、ブラウザはSafariを使用した。

今回調査したのは以下の記事。読了時間は「約10分」。

【PR】富士フイルムがCVR最大21.4倍を達成した理由：日経クロストレンド

見出しを見つけるのも「読む」一部

さて、記事へアクセスしたとしても、スクリーンリーダーでは、すぐに本文を読むことはできない。カーソルをナビゲートして、記事のタイトルを探さなければならない。この「本文へ到達するまでの手間と時間」も、スクリーンリーダーでの読了時間に含まれると考えるのが自然。ということで、まずはその時間を調べる必要がありそうだ。

上記の記事において、Voiceoverを使った場合の、記事タイトルへ到達するまでの工程と要した時間を調べてみた。

(1) VO ＋矢印キーのみを使う場合

見出しレベル１の記事タイトルまで26回のキー操作。13.51秒。

(2) Webローターの見出しジャンプを使う場合

VO＋Command＋左右矢印で「見出し」を選び、VO＋Command＋下矢印2回で到達。6.42秒。

(3) １文字クイックナビで「見出しレベル１」へジャンプする場合

左右矢印を同時押しし、「１」を2回で到達。4.92秒。

（事前に「VO＋’Q’ 」で１文字クイックナビを有効にしておく）

タイトルまでどれだけスムーズに移動できるかは各サイトの構造によって大きく異なるが、一般的には１文字クイックナビゲーションで「見出しレベル１」を探す方法が最も早い。サイトによっては記事タイトルの見出しレベルが「２」だったり「３」だったりするので、その辺りは臨機応変に行こう。このブログも記事タイトルは「み出しレベル３」だったりするので……。

なおどれが記事タイトルか判別できないときは「VO＋F2」でSafariのウィンドウ情報を読み上げさせよう。たいてい記事タイトルがウィンドウの名前に指定されていることが多いからだ。

本文の読み上げ時間を調べる

ではいよいよ、本文を読み上げる時間を計測して見る。

見出しレベル１のタイトルを読み上げたら「VO＋’A’」で記事の末尾）この記事の場合はプロフィールの最後）まで読み上げさせ、その時間を計測した。

なおVoiceoverのボイス速度は「85％」に設定している。

結果：6分53.1秒

なんと、結構早いではないか。

目安の読了時間よりも、役31％早く読むことができた。

速度85％は慣れないと聞き取りにくいかも知れないが、使いこなしている視覚障害者の中では、まだ遅い方である。

それにしても、タイトルの見出しを探す時間を考慮しても、少なくとも目安の読了時間よりスクリーンリーダーの方が早く読み終わるのは、正直意外な結果だった。ただ、タイトルをなかなか探せずにもたついていると、あっという間に時間を消費してしまいそうなので、その辺りはWebナビゲーションの習熟度が大きく影響思想だ。

続いて、Safariの特徴的な機能である「リーダー」を使った場合。

記事にアクセスして「Command＋Shift＋’R’」を押す。

即座に「VO＋’A’」でキジラストまで読み上げた時間を計測。

結果：6分40.7秒

目安である読了時間よりも役33％早読みである。

今回の記事では、リーダーで省略されるコンテンツが共有ボタンとタグくらいだったのであまり差は出なかったが、広告が多く含まれる記事ならさらに短縮が期待できる。

リーダーで記事本文を一発抽出できれば、Webナビゲーションの技術は関係ない。

ただリーダーが必ずしも有効なサイトばかりではないので、頼りすぎずにナビゲーション操作もしっかり覚えておいた方が良いだろう。

追加調査とまとめ的なもの。

流石にサンプルが１記事ではどうかと思うので、別サイトで調べてみた。調べたのはこの記事。読了時間は「約3分」。

Apple、Mac版「Pages 7.2」「Numbers 5.2」「Keynote 8.2」をリリース | 酔いどれオヤジのブログwp

計測結果は「2分14.6秒」（リーダー使用）だった。

リストの項目数を報告したり、「・」を「行頭記号」と読んだりする部分で少しロスはあったものの、これも目安の読了時間よりも約26％早く読むことができた。

記事によっては、冗長なURLや画像に意味なく長い代替テキストやファイル名が指定されているとタイムロスの要因になるだろう。

というわけで、スクリーンリーダーの読み上げは、決して「だだ遅い」わけではないことがわかる。今回はMacを使用下が、Windows ＋　NVDAでも読み上げスピード次第で同様の結果になると想像できる。あとは、いかにスムーズにWebをナビゲートできるかが時間効率をあげるポイントではないかと思う。

もちろん、基準となる読了時間が実態に即しているかはよくわからないし、視覚と聴覚から得られる情報の性質には大きな相違点が存在するので単純な比較はあまり意味はないのかも知れない。

ただもしスクリーンリーダーを使うことがハンデのひとつと感じているのであれば、少なくとも「数字の上」では、スクリーンリーダー使いも晴眼者と互角に情報を入手できるのだ、という自負を持つのも悪くないのではと思うのだった。

無論、まだまだWebにはバリアは多い。

そのあたりは突っ込みつつ情報生活を楽しんでい行きたいものである。

2018年9月17日月曜日

「Imaginary Soundscape」で「音」で「絵」を見る未来を妄想

「共感覚」という言葉を聞いたことはあるだろうか。

視覚や聴覚といった単一の刺激に対して、通常では感じない別の感覚が発生する能力だ。有名な例としては、特定の文字に色が見えたり、耳にしたメロディーによって色が見えるといったものがある。

これは一部の人々が持つ「特別な能力」と思ってしまうが、もっと広く考えれば、多かれ少なかれ誰もが持っている感覚ではないかと筆者は思っている。例えば写真に写っている風景や色調、明るさなどによって、記憶の奥底にひっそりと保存された「音」が想起された経験は、誰にでもあるだろう。

・真夏のビーチの写真なら波や海水浴客のざわめき

・晩秋の街路樹の写真なら、乾いた枯葉を踏む音

・クリスマスのイルミネーションならそれっぽい音楽

……といったように。風景から音をイメージしたり、匂いから風景を思い出すといった感覚の連鎖は、日常的に行われている。

ここではイメージから音の想起を例に挙げたが、当然ながら逆、つまり音からイメージを連想することも可能だろう。「花火」や「楽器」といった聴覚と視覚がダイレクトにつながるものはもちろん、風景や抽象的なイメージも、特定の「音」をきっかけに脳内に「絵」を浮かび上がらせることも可能かも知れない。

もしそのようなテクノロジーが確立したとしたら、資格に障害を持つ人々にイメージを伝える手段の一つになるだろう。

やっとここでアクセシビリティにつながった！

なぜこのようなことを書いたかというと、非常に興味深いサイトに出会ったからである。

それが「Imaginary Soundscape」である。

これはAIなどのテクノロジーを用いてさまざまな表現活動をおこなうQosmo, Inc.の徳井直生氏が公開しているWeb作品。

Web上の画像やアップロードしたイメージを元に、AIがそれに最もマッチした音を選んでくれるというものだ。なおMacのSafariではうまく音が再生されなかった。Chromeなら問題なく楽しめる。

これまでも画像や色を、何かしらのアルゴリズムで音楽や効果音に変換するようなソフトウェアを見たことがあるが、あくまでもそれらは偶然性やランダム性を楽しむものだった。だがImaginary Soundscapeは、機械学習によりイメージと音楽の「意味」を結びつける。

サイトにはサンプル作品として内外の名画が登録されており、筆者の記憶に残っているものがあったので試して見たが、雨や水音などの環境音が選ばれ、これならスクリーンリーダーと併用しても邪魔にならない。

正直なところ、音からイメージを想像できるか？と言われると、現時点では難しいと言わざるを得ないが、Webのメインイメージが記事全体の雰囲気を的確に表現しているのなら、そのイメージから生成されたサウンドは、記事が伝えたいメッセージを補強する要素になるに違いない。

AIの学習が進めば、その精度はより人間の感覚に近づいていくはずだ。

イメージの情報を視覚障害者に伝えるには、現時点で代替テキストがほぼ唯一の手段だが、もしかしたら「音」が加わる未来がくるのかも知れない。

そんな妄想を掻き立ててくれる作品だった。

ぜひ体験あれ！

関連リンク：

・Imaginary Soundscape

・1枚の画像に人工知能がソレっぽい音をつけるWebサイト｢Imaginary Soundscape｣ | ギズモード・ジャパン

2018年9月16日日曜日

スクリーンリーダーとリンクにまつわるあれこれ

今回もスクリーンリーダー使いの立場から、Webアクセシビリティのお話を軽く。

お題は「リンク」問題。

ハイパーリンクはWebのもっとも特徴的な機能の一つ。リンクは一般的に、テキスト中でのカラー変更やアンダーライン、メニューやアイコン、イメージといった要素で視覚的に明示されている。

だが音声を手掛かりにWebbbを探索するスクリーンリーダーユーザーにとっては、リンクを自由自在に扱うにはさまざまな問題が発生する。

そこで、スクリーンリーダー使いの筆者が、最近個人的にちょっと感じたリンクに関するアレコレについて書いて見たい。

「リンク地獄」。そして、地獄から生還する方法

何はともあれ、以下の記事を見ていただきたい。

「HONDA NSX」を忠実に再現　ワイヤレスマウス | ニコニコニュース

この記事の本文にある、おびただしいリンク攻撃。

この記事に限らず、ニコニコニュースのオリジナル記事はこういう、とにかく細かく用語ページへリンクが張られているパターンが多いため、芸風というか、そういう編集方針で掲載されていると想像できる。

是非はともかく、というか筆者的にはこのしつこいくらいの徹底ぶりは嫌いではないのだが、デフォルト設定でスクリーンリーダーを使っているユーザーにとっては、この記事はまさに「リンク地獄」以外の表現しか見つからない。

というのも、スクリーンリーダーでWebを読み上げていく道中、リンクを発見すると、初期設定ではアンカーテキストとともに「リンク」と読み上げ、その位置にリンクが存在していることを知らせてくれる。これは、うっかりリンクを見逃してしまうミスを防いでくれる親切設計なのだが、この記事のような本文中にリンクが頻出する記事では、「リンク」という報告音声も頻出してしまい、内容を理解する妨げになってしまう。下手すると、本文よりも「リンク」と読まれた文字数の方が多いなんてことにもなりかねない。

気持ち的には本文中のリンクは程々に……とお願いもしたくなるが、スクリーンリーダーの設定で、このリンク報告を止めることができるので設定方法を記載しておこう。

・iOS（11.4.1）

1.設定を開き、「一般」＞「アクセシビリティ」とタップ。

2.「Voiceover」＞「詳細度」＞「埋め込みリンク」とタップ。

3.「読み上げる」以外に設定する。

・macOS（10.13.6）

1.「VO ＋　F8」を押してVoiceoverユーティリティを開く。

2.カテゴリから「詳細度」を選び「テキスト」タブを洗濯。

3.「リンク/添付ファイルが存在するとき」の設定を「読み上げる」以外に設定する。

・NVDA（2018.2.1jp)

1.「NVDAキー　＋　Control ＋　D」を押して「書式とドキュメント情報」を開く。

2.「要素」グループにある「リンク」のチェックを外す。またはAlt ＋　Kをおす。

これでリンク要素の報告がされなくなる。

もちろん本文だけでなく全てのリンクでこの設定が有効になるため、リンクの場所がわかりにくくなってしまう弊害もある。

音声のトーン変更やサウンドで報告したり、要素ジャンプ機能でナビゲートすることもできるので、聞きやすさと利便性のバランスを考えつつ設定しよう。

アンカーにURLってどうなんだろう…

例えばこんな例。

「HONDA NSX」を忠実に再現　ワイヤレスマウス | ニコニコニュース

http://news.nicovideo.jp/watch/nw3881553?news_ref=watch_accessRank_nw3800153

またニコニコニュースさんを例にしてしまって申し訳ないが、あくまでも例なので。

このように、URLをアンカーテキストにしているリンクがいまだに結構見られるのだけれど、この長いURLも、スクリーンリーダー使いを苛立たせる要因の一つなのである。

筆者は記事の本文を冒頭から連続読みさせ、ハンズフリーで読むスタイルなのだが、途中で冗長なURLが読み上げられると、それまでの内容が一気に吹っ飛んでしまう。URLそのものには情報が含まれないためだ。ページに１～２箇所くらいなら我慢してスキップさせるが、頻繁に遭遇すると、なかなかのストレスである。晴眼者にとってはURLはサクッと読み飛ばせるが、スクリーンリーダーはそうもいかない。生真面目に記号とアルファベットの羅列を延々と読み上げ続けてしまう。

リンクを張らずにURLを記載する場合は別として、あえてURLをアンカーにする必要は少ないように思うのだけれど、そのあたりのセオリーはよくわからない。

アンカーテキストにはページタイトルが望ましいし、どうしてもURLを明記するのであればならドメインレベルで止めていただきたいというのが、いちスクリーンリーダー使いの本音だ……。

とはいえ、、URLがアンカーになっていないと騙しリンクが不安……という声もあるかもしれない。だが、そもそもリンク先とアンカーテキストが同一であるという保証はないわけで、どちらかといえば、怪しいリンクやページに遭遇したら、こまめに現在アクセスしているURLを調べるクセを身につける方が安全なのではないだろうか。

macOSのVoiceoverなら、リンクにVOカーソルを合わせて「VO ＋　Shift ＋　U」コマンドで、クリックする前にリンク先のURLを調べることができる。

また各種Webブラウザで、Macなら「Command ＋　L」、Windowsなら「Control ＋　L」もしくは「Alt ＋　D」「F6」でアドレスバーに移動して、現在アクセスしているアドレスを調べられる。

スマートフォンやタブレットなら、アドレスバーへVoiceoverやTalkbackカーソルを移動させるか、直接タップして調べれば良い。

細かい話で恐縮しつつ。

あと最近は減ってはいるものの、音声だけではリンク先が広告なのか判別できなかったり、イメージがアンカーになっている場合に代替テキストが設定されておらずリンク先の情報が得られないなど、リンクにまつわるバリアはまだまだ多い。

スクリーンリーダー側でも外部リンクの通知などの対応が必要かも知れない。

とにかく、リンクはセキュリティにも直結する要素。

視覚障害者の情報生活をより快適かつ安全にするためにも、もっと議論されるべきテーマかもなと思うのだった。

2018年9月14日金曜日

代替テキストについて、漠然かつ不完全な考察

先日Twitterを眺めていたら、このようなエントリーが流れてきた。

・ニュースサイトにおける画像の代替テキストについて | アクセシビリティBlog | ミツエーリンクス

・自治体サイトWebアクセシビリティ調査 – 有限会社ユニバーサルワークス

とても共感と興味を抱かせる記事である。それとともに、日常的にWebから情報を得ている視覚障害者として、画像の代替テキストにどう向き合っているのかを、いっちょ考えてみようかと思ったりもしたのであった。

Webアクセシビリティで重要な要素と言われている「代替テキスト（Altテキスト）」。

HTMLタグでいうところの「<IMG SRC=‘画像ファイル名’ ALT=‘代替テキスト’>」ってやつである。代替テキストの機能や意味などについては調べていただくとして（例えばここやここなどが参考になるかも）、ほぼ全盲、スクリーンリーダー使いの筆者の立場で代替テキストについて、つらつら書いて見タイと思う。

なおここではスクリーンリーダー使いの一人としての個人的な見解を示すもので、一般的なセオリーとは外れているかもしれないが、その辺りは適当に流していただきたい。

現状と視覚障害者にとって代替テキストの持つ意味

正直なところ、Webを読んでいて代替テキストで画像の情報がしっかり伝割ってくると感じるケースは、かなり少ない。まず第一に、

・代替テキストが省略され、画像ファイル名を聞かされる

・代替テキストが空やブランクで「イメージ」としか読まない

・記事タイトルなど画像の説明になっていない内容で埋められている

……といったページが今だに、圧倒的に多い。

そもそもスクリーンリーダー使いにとって、代替テキストはどのような意味を持つのか。それは、晴眼者がWebを読むとき、イメージがコンテンツに与える影響と原則的には変わりない。

美しい風景写真が掲載された旅行記なら、そのようなイメージを思い浮かべて記事を読み癒されたりするし、クールなガジェットの紹介記事も、スタイリッシュな新製品を手にしている自分を思い浮かべながら記事を読みたいのである。

それはイメージを目で見るのと、説明文を音声を通じて聞き、脳内にイメージを展開させるだけの差でしかない。

すべてのイメージが失われたWeb記事を想像してみて欲しい。それはとても味気ないものだ。スクリーンリーダー使いにとって、代替テキストが用意されていない記事は、とても退屈だ。

もちろんテキストだけで心を動かされる記事もたくさんあるのはいうまでもない。あ、筆者のブログのことでは決して無い。

大前提として勘違いして欲しくないのは、視覚障害者は、そのイメージの「正解」を求めているのではない。そもそもそのようなことは無理だし、正解を確認する手段は皆無だ。

知りたいのは、その記事が何を伝えようとしているか。そのメッセージを余すことなく受け取りたい。他の読者と体験を共有したいのだ。

説明すべきイメージを乱暴に分類してみる

代替テキストについて考えるにあたり、Webで扱われるイメージを、乱暴ではあるが３種類に分類してみた。もちろん、あくまでも筆者の独断と偏見によるものであることをお断りしておく。

1.意味を持たないイメージ

2.見れば意味が伝わるイメージ

3.みただけでは説明不足なイメージ

以下、それぞれのイメージについて、どのような代替テキストがベターなのかをぼんやり考えてみたい。

1.意味を持たないイメージ

罫線や飾りボタンなど、情報を持たないイメージ。これはセオリーとしてALTを空にするよう推奨されている。

個人的には、そもそもこのようなイメージはあまり入れて欲しくないのだが。

また、主に記事の冒頭にアイキャッチ的に使われるイメージで、ストックフォトからの写真やロゴマークなどの本文とは直接的に関連性が低いものも、意味を持たないイメージと考えている。

正直スクリーンリーダー使いには混乱の元になる。「これはイメージ画像です」みたいな代替テキストを入れておいてほしい。

2.見れば意味が伝わるイメージ

人物や風景など、見た目一発で情報が伝わるイメージ。

メニューや共有ボタンのイメージなどもこれに含まれるだろう。

ボタン類は別として、記事中にあるイメージで、本文やキャプションで説明すると「くどい」感じになるもの、要するに晴眼者にしてみれば「見ればわかるし。」的な説明は、代替テキストでの説明が効果的だしアクセシブルと言える。

例えばインタビューの記事では、たいていインタビュー対象者の写真やインタビュー中の様子が掲載されている。このような場合、どのような代替テキストが入っているとわかりやすいか。もちろん筆者の個人的な印象であるが。

これが「男性の写真」や、セオリーとも言える「肩書きと名前」だと、あまりイメージはわかない。特に肩書きは記事本文で記載されることが多いため、代替テキストとしては余分な情報に感じてしまう。

ではイメージが膨らむ情報とは？

それはその人物の佇まいの説明ではないかと思う。例えば「スーツ姿でチェックのネクタイ、黒縁の眼鏡」や「デニムに黒のニット、明るいカラーのロングヘアー」など、その人物の写真から得られる特徴を説明してくれると、以後のインタビュー記事で、どのような人物が話しているかを想像することができ、記事の内容に膨らみが生まれてくる。ちょっとした情報でも、有るのとないのとでは、記事の印象は大きく変化する。

もちろんこのような説明は最初の写真だけに含まれればよく、以降は名前に加え表情など記事の流れに即した説明がされていれば良い。

この手法は、ラジオ番組ではよく用いられる。ゲストを呼ぶコーナーでプロフィール紹介をした後に、その人物の服装や特徴をふんわりと説明すれば、リスナーは、以後その人物を思い浮かべながら放送を楽しめる。テレビならみればわかる情報も、ラジオではあえて説明することでイメージが膨らむのである。ましてやWebは「声」という手がかりも無い訳で、画像の説明はより重要となってくる。

もちろん、何でもかんでも説明すれば良いというわけではない。背景の壁紙の模様やテーブルに乗っている飲み物の種類、窓から見える風景など、記事と関連性の無いものの説明はむしろノイズにもなりうる。繰り返すが、視覚障害者は写真の正解は求めていない。

もう一つ付け加えるなら、イメージを脳内再生するにあたり、それがどのような種類のイメージなのかを説明することも重要ではないかと思う。

「写真」なのか「イラスト」なのか、それとも「スクリーンショット」？　「表」や「グラフ」など。

同じ猫のイメージでも、写真とイラストでは、印象は大きく変わってくるからだ。

3.みただけでは説明不足なイメージ

被写体そのものを説明するのではなく、ある状況を切り取ったイメージは、一見しただけでは意味が伝わりにくい。たとえばイベントのステージ写真や、PCやスマホのスクリーンショット、ガジェットのギミックを説明する写真などは、イメージだけでは意味が伝わりにくい。写真のどこに注目すべきなのか判別しにくいためだ。

Web記事ではこのようなイメージの説明を本文中に入れ込む場合が多いが、その内容をイメージの代替テキストに入れてしまうと、本文と代替テキストで同じ文章が繰り返し読まれ、非常にわかりにくくなる。

解決策の一つとして考えられるのは、本文での説明を簡略化して、イメージの意味伝達をキャプションで行う手法だろう。イメージにキャプションが添えられていれば、視覚障害者、晴眼者にかかわらず意味が的確に伝わりやすくなる。

もちろん先述のように本文と代替テキストが被るといった現象も軽減するだろう。本文とキャプションが被っていたら、一般読者にもくどい記事になるからだ。

キャプションを使う場合のイメージの代替テキストは、可能であれば前項（2.）に即していれるのが望ましいが、「○○イベントのステージ写真」「設定画面のスクリーンショット」「○○ガジェットの製品写真」のようなシンプルな表記の方が、場合によっては理解しやす苦なるかもしれない。

要するに、代替テキストで「何が写っているのか」を、キャプションで「写っているものの状況」を説明する感じだ。

今の所、Web記事を読んでいて、イメージの情報が的確に伝わってくるのは、やはりキャプションを使用したものが多い印象を持っている。

まとまらなかったが、まとめ。

どうも、思いつくまま代替テキストについて書いたが、まとまらなくなってしまった。もう眠い。

スクリーンリーダー使いの一人として、どのようなコンテンツが理想的なのだろう。考えれば考えるほどわからなくなってくる。

どこまで細かく説明すべきか、表やグラフなどの説明はどうあるべきか、抽象的なイメージは？　など、イメージをテキストで説明するのは非常に難しい問題だ。

スクリーンリーダーのユーザーでも年齢層や、視覚障害を持った時期によっても代替テキストから受け取る情報は異なるはずだ。

一つ言えるとしたら、代替テキストは、ただ「ALT=」に何かを入れればアクセ渋るになるものではなく、むしろ情報をいかに伝えるかといったコンテンツ制作側のセンスによって、その効果が大きく左右されるもののような気がする。

そう考えると、一筋縄ではいかないジャンルであることだけはわかった。

冒頭でも述べたが、現状では、的確な（もしくは情報を伝える意思を感じる）代替テキストは、まだまだ少ない。

より良い代替テキストとは何か？　コンテンツ提供サイドに頼るだけでなく、スクリーンリーダー使いの立場からも、常に考えながらWebと接していく必要があるのかもしれない。

今後は機械学習による自動テキスト付与などの技術も普及しつつあり、そちらとの兼ね合いも注目だ。

視覚障害者の脳内に、Webの豊かな世界が少しでも多く注ぎ込まれますように。

2018年9月13日木曜日

iPhone発表会の全盲的インプレッション

毎年9月のお祭り、アップルのiPhone発表会が今年も開催された。事前には新しいiPadやMacのラインナップが一新されるのでは、といった噂が飛び交ったが、蓋を開けてみると、iPhone XS / XRとApple Watch 4で打ち止めという結果に。

iPhoneについては、リークされていた情報から大きく外れず、２モデル３機種の発表となったが、いろいろな意味で今後のiPhoneの流れを示唆する内容だった。

詳しいスペックや価格などはIT/ガジェットニュースで山ほど報告されているのでそちらに譲るとして、視覚障害者（ほぼ全盲（のiPhoneユーザーの視点から、いくつかキーワードを挙げて雑感を綴って見る。

パフォーマンスと表現力

2018年版iPhoneには、最新プロセッサ「A12 Bionic」が採用されており、処理性能の向上が期待できる。具体的なパフォーマンスは発売後のベンチマーク結果を待たなければならないが、性能は良いに越したことはないだろう。

視覚障害者的にはOCRや物体検出などの画像解析に代表されるAI分野のアプリを利用することが多いため、性能はきになるポイントだ。現状ではさほど不便を感じることは無いが、今後ハイエンド端末を前提とした画期的なアプリが出現しないとも限らない。しないかもしれないけど。

またXS seriesにはSuper Retinaディスプレイが採用され、デュアルカメラによる撮影昨日も強化されているが、視覚障害者でこのポイントを重視するユーザーはそう多くはなさそう。AIを用いた撮影支援機能などが出現してくれると魅力的になるのだが、それはどちらかといえばソフトウェアの領域かもしれない。

風前の灯、ホームボタン

昨年のiPhone Xの登場ですでにホームボタンの消滅は予感されていたが、今年のイベントでホームボタン搭載iPhoneの新モデルが発表されなかったことで、この慣れ親しまれたボタンの運命は風前の灯となってしまった。

視覚障害者の間でも、ホームボタンの先行きに暗雲が立ち込めたことに悲嘆の声が上がっている。やはり物理ボタンの存在は安心感があるし、ホームボタンの触覚でiPhoneの裏表や上下位置を判別できるのは視覚障害者には重要なポイントだ。

ただiPhone Xの操作も慣れて仕舞えばさほど違和感は無いというユーザーも多く、Siriやアクセシビリティのショートカットなどは引き続きサイドボタンでの操作になるので、そこまで大きな障壁にはならないのではと考えている。

ただ個人的にはiPhone 7 / 8の振動フィードバックのホームボタンは、iPhoneの電源が入っているかを判断するのに便利だったので、そこは残念だ。

Touch IDとFace ID

ホームボタンよりも悩ましいのが、生体認証システムがFace IDになってしまう点だろう。iPhoneをしっかり見ることができない視覚障害者は、注視オプションを無効にして使用することになるが、この設定では寝ている顔でロック解除できる可能性が高くなるなどセキュリティ的な弊害が発生してしまう。

無論Touch IDでも寝てる間に指紋をスキャンされるリスクはあるが、Face IDは基本的に晴眼者の使用スタイルを前提に設計されているように思えてならない。

また筆者がそうなのだが、Voiceover使いは、結構フリースタイルでiPhoneを使う。

カバンやポケットにiPhoneを入れたまま、横になりつつiPhoneはお腹の上に置いたまま。そんな態勢でもTouch IDならiPhoneを動かさずにロックを解除し、そのままVoiceoverでiPhoneを操作できる。これに慣れてしまうと、いちいちロックを解除するためにiPhoneを顔の前に持って行くのが面倒に思える。

新iPhoneの「TrueDepth」カメラは機能が強化されているとのことで、どれだけ問題点が解消されているか興味ぶかいが、将来的にはTouch IDが併用できるようになることが望ましい。

意外だった3D Touchの扱い

何気に衝撃的だったのが、iPhone XRに「3D Touch」機能が搭載されないという事実。

これを、XRの価格を下げるための苦肉の策なのか、今後この機能をフェードアウトさせる予告なのかは判断できないが、これまで出来ていたことが出来なくなるのは、ちょっとApple大胆ですなという印象である。

まあ、登場からかなり経過するのに、あまり浸透していないのも事実なわけで、筆者も画面左端プッシュでApp Switcher起動するくらいにしか使っていない。

旧モデルの運命やいかに

新機種の発表に伴い、iPhone XとiPhone 6S、iPhone SEが販売終了隣、iPhone 7 / 8シリーズは値下げされ販売継続となる。

このサイクルで自然に考えると、iPhone 7は2019年、iPhone 8は2020年に終了するという計算になるが、果たしてどうなるのか。そもそも今後ホームボタン搭載のiPhoneは登場しないのか。知ってるのはAppleの中の人だけである。ただ新しいiOSが対応する限り現役、とも取る考え方もあるため、ホームボタン派も、まだしばらくは安泰と考えた方が精神衛生上よろしいかと。

むしろiPhone 7 / 8が値下げになることで、iPhoneに乗り換える視覚障害者にとっては悪いニュースでは無いかもしれない。

それにしても、docomoはWithラインナップにiPhone 6Sを追加したばかりなのに。この仕打ちは織り込み済みだったのか期になるところだ。

まとめ的ななにか

今回のiPhone発表会で思ったことを、いくつかポイントを挙げて書いてみた。

全体的な感想としては、目新しい技術は無いものの、明らかにラインナップの整理にかかっているように思える。今後はLightning端子やオーディオのワイヤレス化なども進められると予想されているが、視覚障害者的には、センサーや触覚の進化などに期待している。

例えば9軸モーションセンサーを使ったトラッキングや、GNSS、QZSSシステムに対応した位置情報取得、触覚ディスプレイや3Dバイブレーションなどが使えるようになれば、一気に夢が広がりそうなのだが。

スマートフォンの新製品というと、処理性能とカメラ、ディスプレイの進化がメインで面白みが無くなっている。そろそろ新しい何かが欲しいと思うのは、筆者だけだろうか。

2018年9月10日月曜日

タッチスクリーンの障壁を越える技術

現代社会はタッチパネルで溢れている。

銀行ATM、駅の切符売り場、牛丼屋、コンビニに入ればレジ横には確認用のタッチパネルが待ち構えているし、コピー機やチケットなどを扱う情報端末に至るまで、タッチパネルに遭遇しない方が難しい。あ、自動販売機でもタッチパネル式のものがあるな。最近では家電製品でもボタンではなくタッチパネルで操作するものも増えてきた。

しかしこのタッチパネルは視覚障害者との相性がすこぶる悪い。

確かにATMにはハンドセットで音声操作ができたり、点字が添えられた物理ボタンを併設している場合もあるが、端末のすべての機能をカバーしていない場合がほとんどで、不便なことこの上ない。例えばiOSのVoiceoverやAndroidのTalkbackのように、タップして読み上げ、ダブルタップで実行、といった操作に対応してくれればいいのだが、すでに普及している端末をアップデートするのは困難だしプライバシーの問題もある。結局現状では視覚障害者が一人でタッチパネル端末を使用するのは「ほぼ無理」と言わざるを得ない。

そのような悲しい現実を変えてくれるかもしれないデバイスが開発されている。

カナダ、ウォータールー大学で機械工学を学ぶCraig Loewenらが率いるチームが開発中の「WatVision」は、指に装着するリングとスマートフォンアプリを使用し、視覚障害者のタッチパネル操作を支援する。

大まかな操作方法は、

1.WatVisionアプリを起動して、スマホのカメラでタッチスクリーン全体が収まるように構える。この時アプリは、タッチパネルのエッジを検出し、音声でナビゲートする。

2.指にリングを装着し、タッチパネルの上にかざすと、その位置の文字を読み上げる。

つまりリングはトラッキングの役割を担い、アプリがリングの位置を検出して操作を支援する仕組みのようだ。厚みを持ったリングは3Dプリンターで出力され、指に装着してタッチパネルの上をスライドさせても誤動作しないような素材で製作されている。タッチしたいボタンが見つかったら、指を少し傾ければタッチ操作を実行できる。将来的には振動モーターをしようした触覚フィードバックの追加も計画されているようだ。

WatVisionはまだ開発まもないプロジェクトのため、画像を用いたボタンなどが認識できないなど多くの課題がある。だがタッチパネルの問題をつまびらかにし、実現可能なプロダクトとして公開したことは、視覚障害者にとっても大きな意味のあるプロジェクトだろう。

チームはアプリをオープンソースとしてGitHub上に公開。世界中の開発しゃにタッチパネルに潜む深刻な問題の解決を呼びかけている。

それにつけても、タッチパネルのアクセシビリティは、もう少しどうにかならないものか。音声対応は時間が掛かるとしても、色反転やコントラスト調節、拡大文字などは難しくないようにも思えるのだけれど。

不特定多数が利用する可能性のある端末だからこそ、障害者や高齢者にも配慮した製品が望まれている。

関連リンク：

・WatVision

・University of Waterloo students' award-winning project helps the visually-impaired navigate touch screen

2018年9月9日日曜日

MLBで開催される「Blind night」に注目。

野球観戦は、視覚障害者の間でも特に人気のあるスポーツだ。

シーズン中はラジオ中継を欠かさず放送しているし、守備と攻撃がはっきりしているルールは、音声だけでも状況を把握しやすい。ラジオ実況を聞きながら、脳内のスタジアムでは白熱したゲームが展開されるのである。

だが多くの野球ファンは、そのような視覚障害を持つ野球ファンのことをどれだけ知っているのだろうか？

米国の盲人連盟（NFB ～　National Federation of the Blind）と、MLB、アメリカンリーグ東地区に所属するボルチモア・オリオールズは、2018年9月18日、視覚障害について理解を深め、NFBの40周年を祝うためのイベントゲーム「Blind night」を開催する。

（対戦相手はトロント・ブルージェイズ）

ゲーム当日、選手は背中の名前と正面の「Orioles」を点字で印刷したユニフォームを着用。米国のプロスポーツでこのような試みは初めてのことだという。試合終了後、ユニフォームは選手のサインを添えてチャリティーオークションに出品される。

6つの点で文字を表現する点字がユニフォームになるのは、想像するだけでインパクトがあるし、エレガントだ。多分凹凸は無いとは思うが。

また15,000枚の点字アルファベットカードが観客に配布される他、盲人の歌手・ピアニストのCarlos Ibay氏が国歌斉唱を担当。NFB代表のMark Riccobono氏が始球式を務める。もちろん彼も視覚障害者であるため、どのようなピッチングを披露するのか注目だ。

これは想像だが、観客は手元の点字アルファベットカードを使って、選手のユニフォームに印刷された点字を解読する楽しみもあるのかもしれない。これは子供にも楽しい仕掛けでは無いだろうか（妄想）。

これらの模様しは、多くのMLBファンに視覚障害について関心を持ってもらうのと同時に、障害の有無にかかわらずスポーツを楽しむ素晴らしさを改めて共感するきっかけになるだろう。

筆者は環境が無いためチェックできないが、CSなどMLB中継を視聴できる環境があれば、もしかしたら日本からこのゲームを楽しめるかもしれない。

国内でもチャリティーイベントは開催されているが、ここまで規模の大きなものは聞いたことはないし、押し付けがましく無いスマートでユニークな演出は、さすが米国といった印象だ。

2020年のパラリンピック開催が迫る中、障害者への理解を深める手段として、こういうのもアリな気がしなくも無いのである。

2018年9月4日火曜日

スマートグラスのニューウェーブ「AMAL Glasses」

AIによる画像認識技術の進歩により、視覚障害者の「目」の代わりとなるテクノロジーが続々と登場している。

このブログでも紹介したスマートフォンアプリ「Seiing AI」や「Envision AI」がその一例だが、これをもういっぽ進めたメガネ型ウェアラブル・デバイス「スマートグラス」は、視覚障害当事者の間でも大きな関心を集めているデバイスだ。

代表的なものには、イスラエルのスタートアップが開発した「Orcam My Eye」や、米国の遠隔支援サービス「AIRA」が採用している「Horizon」、日本でも文字認識に特化した「Oton Glass」などがある。

アラブ首長国連邦（UAE）、ドバイに本拠地を奥くMIH Systemsが現在開発を進めているスマートグラス「AMAL Glasses」は、そのような視覚障害者向けスマートグラスの中でもひときわユニークな存在だ。

AMAL Glassesは、軽量なサングラス型のウェアラブルデバイスと、ポケットに収まるコントローラーで構成され、これらはケーブルで接続される。グラスにはHD品質のカメラを搭載、高感度マイク、オンセイフィードバックを聞くためのスピーカー、GPSなどの各種センサーを内蔵する。

操作はグラスのテンプル（つる）のタッチジェスチャ。将来的には音声コマンドによる操作にも対応予定とのことだ。

ではAMAL Glassesではどのようなことができるのだろうか。

公式サイトでは、現時点で25もの機能が予告されている。

文字を読み上げるOCRや、色・紙幣・風景・人物などの認識といった定番の画像認識機能はもちろん、オーディオブックの再生やボイスレコーダー、リマインダー、さらに音声でプレイできるゲームまで用意されている。道に迷ったときに現在地を取得してヘルプを呼び出せる「SOS」機能も心強い。

中東発のプロダクトらしく、ムスリムのために、礼拝の時間をリマインドしたり、キブラの方角を知らせてくれる機能も用意されている。

機能をざっと見渡してみると、スマートグラスとスマートフォンが合体したような印象を感じる。いや、どちらかといえば画像認識もできるウェアラブルなスマートスピーカーというべきだろうか。

単なる文字や物体検出だけでなく、日常生活で役立つ機能を盛り込むことで、読書や買い物といった限定的なシーンだけでなく常に身につけて視覚障害者をサポートするデバイスを目指して開発されていると感じた。

AMAL Glasse最大の特徴は、アプリを追加インストールして機能を拡張できる「Application Store」だろう。無償配布予定のSDKを利用して誰でも視覚障害者のためのアプリを開発でき、専用のアプリストアから配布できるようになるとのことだ。

たとえば音声を使ったナビゲーションやAIRAのような遠隔サポート、画像や音声認識を活用したさまざまな用途が考えられる。もちろん、ゲームやスポーツ支援なども楽しそうだ。視覚障害者支援プラットホームとしての、スマートグラスの可能性を感じさせる。

同じ視覚障害を持っていても、個人のニーズは微妙に異なる。ユーザーのライフスタイルや行動範囲に合わせてカスタマイズしたり、就労や教育現場にマッチしたアプリケーションを開発することもできるだろう。

AMAL Glassesはアラビア語、英語など7言語に対応（日本語には非対応）。

早ければ2018年内にも出荷が開始される予定だ。

関連リンク：

・AMAL Glasses | MIH Systems

・Amal Smart Glasses launched in UAE for blind and visually-impaired people | ZAWYA MENA Edition

2018年9月1日土曜日

もう一つの視覚障害者向け画像認識アプリ「Envision AI」

iPhoneが視覚障害者の「目」になる

視覚障害者の生活を支援するスマートフォンアプリは数多くリリースされているが、その中でもにわかに注目を集めているのが、AIと深層学習を応用し、画像に含まれる文字や物体、人物を解析して音声で読み上げてくれる画像認識アプリだ。

代表的なアプリとしては、マイクロソフトの「Seeing AI」やGoogleの「Google Lens」「Lookout（リリース予定）」などが挙げられるが、その中でもダークホース的な存在とも言えるのが、Envision Technologiesの「Envision AI」だ。

先日のアップデートで大幅な機能追加がアナウンスされたこともあり、ここで改めてこのアプリをじっくり使って見ることにした。

搭載されている各機能の使い勝手とともに、5月に当ブログでレビューした「Seeing AI」との比較なども行いたい。

○iOSアプリ

Envision AI

開発　Envision Technologies B.V.

価格　サブスクリプション制

評価バージョン　v1.5.2

評価環境　iPhone 7 (iOS 11.4.1)

Envision AIの利用にはユーザー登録が必要。GoogleやFacebookアカウントが利用できる。インストールから14日間、全ての機能が無料で試せ、それ以降は一ヶ月あたり10回まで無料で利用可能。

サブスクリプション料金は、550円／月、2,800円／6ヶ月、4,500円／年、23,800円／無制限の４種類のコースが用意されている。

またAndroid版の開発も進行中だ。

Envision AIの機能と使い方

アプリを起動すると画面下部に４つのタブがあり、使いたい機能を選択する。

タブを開くと利用できる機能ボタンが表示されるので、ここからスキャン機能を有効にしたり、写真を撮影して画像認識できる。機能によってリアルタイムで認識するものと、写真を撮影してから認識するものがあり、リアルタイム機能はボタンがオン／オフの切り替えになっている点に注意。

「文字の認識」タブ

・すぐに読み上げを始める

iPhoneをかざした文字をリアルタイムに読み上げる機能。

日本語には対応していないが、英語ならかなり正確に認識して読み上げてくれる。さらに「ヘルプ」タブの設定でオフラインの認識をオンにすれば、認識のスピードがさらに向上する。

・手書き文字の読み上げ／文章の読み上げ

読み上げたい文字をカメラで撮影してから認識し、読み上げる機能。日本語の認識に対応している。こちらも認識精度は高い。

手書きに関しては手元に手書き原稿が見つからなかったので印刷物で認識させたが、日本語も認識できた。

認識したテキストは、エクスポートボタンから他アプリなどへ共有することもできる。

「周りの物の認識」タブ

・風景を説明する

カメラで撮影した風景を画像認識して説明してくれる。

認識精度はSeeing AIの「Scene preview」「と同程度だが、ちゃんと日本語で読み上げてくれるのでわかりやすい。説明は大雑把なのだが、何かしらの手がかりにはなるかもしれない。

また、撮影した写真を説明文付きでカメラロールへ保存することもできる。「写真」アプリで保存した写真を選ぶと、Envision AIで認識した説明が読み上げられるので、後日写真を確認するときに便利だ。

・色を検出する

リアルタイムで、iPhoneをかざした対象物の色を日本語で説明してくれる。

ただ若干タイムラグがあるようで、少しiPhoneをかざしたまま待たないと、正確な説明は得られないようだ。

・バーコードをスキャンする

商品パッケージに記載されているバーコードを検出し、内容を読み上げる。

Seeing AIのようにバーコードを自動で検出せず、バーコードが印刷されている面を撮影できるまで何度か撮影し直さなければならない。

試した範囲では、国内のコンビニで購入した日本製のお菓子のバーコードは「無効」とエラーが帰ってきたが、輸入品ショートブレッドのバーコードはスキャンが成功し、商品名などが読み上げられた。

「スキャンして見つける」タブ

・カスタムオブジェクトの認識

学習させた顔やオブジェクトをリアルタイムに認識させる。

ただ試した範囲では、学習がうまくできず、うまく動作させることができなかった。

・一般的なオブジェクトの認識

iPhoneをかざしたオブジェクトを認識し、リアルタイムで読み上げる（日本語）。

ただ、認識精度はあまり（というか、かなり）良くない。筆者の机上にあるキーボードやノートパソコンを認識させても、「楽器」「まくら」とかなりトンチンカンな答えが帰ってきた。内蔵AIの学習モデルが弱いのだろう。

顔を認識させようとしても「耳」「髪」とパーツで読み上げてしまい、Seeing AIの「Person」のように表情や性別などの認識は行ってくれない。

・Envisionに学習させる

オブジェクト認識の弱さを補うのが、カスタムでAIを学習させる機能。

正確に識別させたい人物の顔やオブジェクトの写真を撮影し、その写真を元にAIを学習させ「カスタムオブジェクトの認識」を使って認識させることができる。

「顔を学習させる」または「オブジェクトを学習させる」を選択し、識別させたい顔や物品を10回撮影。識別名を入力して学習させる。学習データは「ライブラリを開く」から管理できる。

ただ顔を学習させようとして「成功」と表示されても学習データが生成されていなかったり、学習が「処理中」で延々と終わらないなど、まだ動作が不安定な印象だ。

この機能については、後日改めて検証して見たい。

「ヘルプ」タブ

ここではチュートリアル（英語）が読めたり、読み上げスピーチの設定、色認識の詳細どなどの設定の他、アカウントやサブスクリプションの管理などが行える。

Seeing AIとの比較

Envision AIを使っていると、やはりどうしても「Seeing AI」と比較して見たくなるのが人情というもの。AIを活用した視覚障害者向け画像認識アプリというコンセプトは同じものでも、それぞれ特徴が見える。ざっくり並べて見ると、

・Envision AI

○インターフェイスや認識結果が日本語に対応

○リアルタイムのOCRが高速（英語のみ）

○ドキュメントの文字認識の精度も高い

○認識させた風景を説明文ごと保存できる

○エレガントな効果音。読み上げはVoiceoverとは別に設定できる

×オブジェクト認識が非力。AI学習が不安定

・Seeing AI

○全体的にUIがシンプルで直感的

○カメラのオートフレーミングが便利

○紙幣、明るさ、写真ライブラリの識別機能を搭載

○顔認識の学習が簡単で高速

×ドキュメント以外の読み上げが英語

・共通

×リアルタイムOCRは日本語に非対応

×日本のバーコードスキャンには非対応

×風景の認識精度は微妙

というかんじだろうか。

どちらもまだ精密に使い込んでいるわけではないので第一印象での比較であることを留意いただきたいが、やはり日本語で利用できるEnvision AIは親しみやすさを感じる。Seiing AIも、将来日本語化されるはず（たぶん…）なので、それまでにEnvision AIがどこまで独自性を打ち出せるかに注目したい。

それにしても、リアルタイムOCRやバーコードスキャンといった、ずっと欲しかった機能に限って日本語に非対応というのが残念。処理するデータ量が桁違いだとか日本の商品データベースが使えないなど諸問題はあるとは思うが、これは是非対応を望みたいところだ。

まとめ：風景解析とカスタム学習に勝ちを見いだせれば

視覚障害者の目となってくれる画像解析アプリは、AIの進歩とともに最も注目されるジャンルの一つだ。その中でもEnvision AIは、Seiing AIと並び、トップクラスの品質を持っているといっていいだろう。

Envision AIのキモは、風景認識と「スキャンして検索」がどれだけ実用的に使えるか。「風景を説明する」の精度や、カメラ代りに使える点、AIの学習機能を評価できれば、十分にこのアプリを使う意味はあるだろう。逆にこの部分に魅力をかんじないのであれば「OCR」や「色彩ヘルパー」といった無料アプリを使い分けてもさほど困らないかもしれない。個人的には将来性に期待し、開発を支援する意味でも購入を検討する魅力を持ったアプリだと思う。

話題的には「Seeing AI」の後塵を拝している雰囲気を感じる「Envision AI」だが、使って見ると勝るとも劣らない実力を持っている。

iPhone持ちの視覚障害者はもちろん、画像認識AIに興味があるなら、ぜひ一度体験して見てはいかがだろうか。

登録: 投稿 (Atom)