2020年2月2日日曜日

「Seeing AI/Envision AI」でカメラ以外からのイメージを解析する方法。


Seeing AI」および「Envision AI」」は、いずれもスマートフォンのカメラを通じて紙に印刷された文字や人物の顔、街の風景や室内のようすなどを音声で説明してくれるという、画像認識AIを応用した視覚障害者必携のアプリだ。

これらのアプリはスマートフォンのカメラを用いて認識したいものを撮影するのが基本となっているが、実はカメラ以外の画像を読み込ませて、その内容を調べることもできる。この機能を使えば、Twitterのタイムラインに流れてくるテキストが含まれる画像や、パソコンに保存してある昔撮影した写真などの内容を(大まかに)確認できるようになる。

なおEnvision AIはAndroid版もリリースされているが、ここでは諸事情のためiOS版に限定して解説する。


Twitterに投稿された画像を解析する。


おそらく最も使用頻度が高いと思われるのが、Twitterのタイムラインに流れてきた画像の解析だろう。
Twitterには手動で画像に説明文(代替テキスト)を追加する機能が提供されてはいるのだが、説明文が入った画像に出会すことはかなり稀だ。
ツイート本文だけを読んでも意味が通じず、かつ画像が添付されている場合は、かなりの確率で画像に何かしらの情報が含められている可能性が高い。視覚障害者としては忸怩たる思いだ。140文字という制限を超えて情報を伝える手段として編み出された「テキストの画像化」だが、それは画像を見ることができない人々にとっては単なる「バリア」である。このところ情報の記録や共有にスクリーンショットを用いる慣習がスマートフォンユーザーの間に浸透しているという。また、あえて記事を画像化してSNSへ配信するメディアも登場しており(@buzzfeedkawaiiなど)、このような流れはアクセシビリティを重視する近年のWebトレンドに逆行する流れのように思う。画像説明文機能の啓蒙やFacebookのような自動代替テキスト機能の実装が急がれるだろう。

話が少しそれた。
まあ今のところは、そのようなツイートは読み飛ばしてしまえば良いのだが、Buzってるツイート、ちょっとどんなものか知りたいというのが人情ってものである。

そこで役立つかもしれないのが、「Seeing AI」や「Envision AI」の画像認識機能だ。Twitterの画像をこれらのアプリへ送信することで、その画像に含まれるテキストやオブジェクトを知ることができる。もちろん目で見る場合と比べると得られる情報は限られてしまうが、ざっくりと雰囲気を味わうことはできるだろう。
ここではTwitter公式アプリからの解析手順を紹介しよう。

  1. 公式Twitterアプリで画像を含むツイートを開く。
  2. 画像を開く。(風景 イメージや、人物画像 イメージと読み上げられる部分)
  3. 画像が開いたら「その他のアクション」をタップする。
  4. 共有アクションシートから「Seeing AIで認識する」もしくは「Envision It」をタップ。
  5. 各アプリが開き、画像の内容が解析される。

Voiceoverでツイートを開き画像をタップすると、なぜか返信画面になることがある。これはTwitterアプリの不具合なのかな。2本指トリプルタップで項目セレクタを開き指定する方法もある。
なおSeeing AIもしくはEnvision AIがインストールされており、正常に起動するにもかかわらず共有アクションシートに「Seeing AIで認識する」もしくは「Envision It」が表示されない場合は「アクションを編集…」をタップしこれらの機能を有効にする。


パソコンにある画像を解析する。


パソコンに保存されている画像の内容を解析して音声で内容を知りたい場合、テキストだけであればOCRソフトやGoogle Chromeのイメージ取得機能、Windows 10であればNVDAを使って画像からテキストを抽出することができる。だがオブジェクト認識、つまり「何が写っている」かを解析する手軽な方法は、今のところなさそう。
Chromeのイメージ解析機能がオブジェクト識別に対応してくれると良いのだけど、筆者の環境ではまだ使え無いみたい。もしかしてウチだけ?

ということでSeeing AIもしくはEnvision AIを使い、パソコンに保存されている画像に何が写っているかを調べてみる。何かしらの方法で画像ファイルをiPhoneへ送信し、Seeing AIやEnvision AIに渡してやれば良い。
一例としてここではiCloud Driveを経由してiPhoneの「ファイル」アプリから各アプリへ共有する手順をご紹介しよう。
前準備として、macOSではiCloud環境設定からiPhoneと同じApplle IDを登録。Windowsの場合はWindows用ICloudをインストールし、iPhoneと同じApple IDでログインする。

  1. 認識させたい画像をパソコンのiCloudドライブへ同期する。
  2. iOSの「ファイル」を起動し同期した画像ファイルを開く
  3. 「共有」をタップする。
  4. 「Seeing AIで認識する」もしくは「Envision It」をタップ。
  5. 各アプリが起動し画像が認識される。

iCloudの代わりにDropboxを使用する場合は、パソコンからファイルを同期しiOSアプリ側で解析したいファイル名にフォーカス。カスタムアクション(上下フリック)を開き「エクスポート」を選択。アクションシートから「別のアプリで開く」をタップして、各アプリへ共有する。「共有」ではなく「エクスポート」を選ぶのがポイントだ。

またMacの場合はAirDropを使う方法もある。
Finderから画像のコンテキストメニューを開いて「共有」>「AirDrop」を開き送信先のiPhoneを指定する。iPhone側のファイル受診画面から「共有」をタップし、「Seeing AIで認識する」もしくは「Envision It」をタップすレバ画像が認識される。Macならこの方法が最も簡単だろう。


iPhoneのSafariで表示された画像を解析する。


Twitterと同様、Web上の画像も、まだまだ代替テキストが的確につけられているものは少ない。代替テキストが設定されていなければ、視覚障害者は画像から得られるはずの情報を受け取ることはできない。これも本来ならコンテンツ提供者が用意すべきものなのだが、致し方ない。これもアプリを使って解析するほかない。

ただiPhoneのSafariで表示された画像を認識するには、ちょっと手間がかかる。Safariの共有アクションシートに「Seeing AIで認識する」と「Envision It」が表示され無いためだ。
そのためSafariから一旦、iPhoneのフォトライブラリもしくはストレージに画像を保存してから、保存先でSeeing AIやEnvision AIに画像を共有する必要がある。
これは標準メールアプリでも同様で、画像の共有アクションシートからSeeing AIやEnvisionが選べ無い場合はこの方法を用いる必要がある。
Safariで画像を保存する方法は以下のとおり。

  1. Safari上の画像をダブルタップ&ホールドしコンテキストメニューを開く。
  2. 「写真に追加」をタップすると画像がフォトライブラリへ保存される。
  3. または「共有」をタップして「ファイル」や「Dropbox」などに保存する。

「ファイル」や「Dropbox」へ画像を保存した場合は先述の手順で各アプリから画像をSeeing AIもしくはEnvision AIへ共有して認識させる。
フォトライブラリへ保存した場合は「写真」アプリを起動し、先ほど保存した画像を開き「共有」からSeeing AIやEnvision AIを選択し画像を解析する。

またSeeing AIを用いる場合はフォトライブラリに保存されている画像を直接ブラウズして解析処理を実行することができる。手順はこちらのほうがシンプル。
Seeing AIを起動し「メニュー」>「写真の参照」を開くと、フォトライブラリに保存されている画像が新しい順番にリストアップされる(表示する順番は設定から変更可能)。
画像をタップして開くと解析処理が実行され、画像に含まれるオブジェクトやテキストが説明される。保存した画像が複数ある場合はこのまま3本指で左スワイプすれば次の画像が読み込まれ処理される。
内容を確認するだけが目的であれば、後で混乱し無いためにも「削除」をタップして画像を削除しておこう。


0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。

米国マクドナルド、同社のキオスク端末に「JAWS Kiosk]を導入。視覚に障害があっても音声を用いた操作で注文から支払いまでを単独で実行可能に。

画像引用元: TPGi 米国マクドナルドは2021年9月9日、、支援技術ディベロッパーであるVispero社とと提携し、同社が運営する直営店およびフランチャイズ店舗に設置されているキオスク端末に対し「 JAWS Kiosk 」テクノロジーを採用したことを発表しました。 なおここで...