2019年3月17日日曜日

代替テキストを補完するChromeの実験機能「get image descriptions」を試す。

※この機能はバージョン: 75.0.3756.0(Official Build)canary (64 ビット)で無効になっている模様。

2019年3月14日、Google AccessibilityチームはChromeに新しい視覚アクセシビリティ機能「get image descriptions(画像の説明を取得)」の追加をTwitterでアナウンスした。これは画像説明文がつけられていないWebbコンテンツ上のイメージをGoogleが解析し、その結果得られた説明をスクリーンリーダーで読み上げる機能だ。
現在この機能はChromeの実験バージョン「Chrome Canary」の最新版で公開されており、2019年の後半には正式リリースされる予定という。

代替テキストがつけられていない画像をAIによる画像解析技術を用いて説明する試みとしては、拙ブログでも紹介したMicrosoftの「Caption Crawler」や、AlibabaのECサイト「淘宝網」の例があるが、いよいよ本命の登場!といったところか。
というわけで、ワクワクしつつ、試して見ることにした。


Chrome Canaryのセットアップと機能の有効か


まずはChrome Canaryをダウンロードしてインストールする。
筆者はMac版をダウンロードした。実行環境はmacOS 10.14.3である。
起動してセットアップを終えたら、適当なページを開き、スクリーンリーダーのカーソルを画像にフォーカスしてコンテキストメニューを開く。Voiceoverなら「VO+Shift+’M’」。マウスが使えれば画像を右クリックでもOK。

するとメニューの中に「Google から画像の説明を取得」という項目があることに気づくはずだ。サブメニューから「常に使用」もしくは「今回のみ」を選択する。
「常に使用」を選択すると読み込まれたページに含まれる該当するイメージが自動的に処理される。画像単位で手動で処理する場合は「今回のみ」を用いる。

メニューを選択するとこの機能の説明と有効化を促すダイアログが表示されるので「有効にする」をクリック。これで準備完了だ。なおここでは「今回のみ」で実験している。


実際に画像解析を試してみる


代替テキストが含まれない画像にスクリーンリーダーのカーソルを合わせると通常は画像のファイル名が読み上げられるところを、

「ラベルのない画像
画像の説明がない場合に取得するには、コンテキスト メニューを開きます。」

と読み上げるようになる。
ここで画像のコンテキストメニューを開き、「Google から画像の説明を取得>「今回のみ」」を選択する。すると、

「イメージ 説明を取得しています…」

と読み上げる。
すこし待てば、イメージの解析結果が報告される。
ここではこのページで試してみた。楽天のスター・ウォーズ特集ページだ。
取得された画像の説明はこんな感じ。

イメージ R2-D2 , Darth Vader の画像のようです.
入園入学に ! スクールグッズ特集
& Lucasfilm Ltd . というテキストのようです

イメージ Water bottle の画像のようです.
- 3PO
STAR WARSSTAR WA
遠足やおでかけに ! スター ・ ウォーズ 水筒コレクション というテキストのようです

なんとびっくり。オブジェクトの認識だけでなく、画像に含まれる文字をOCR(光学式文字認識)でテキスト化してくれている。オブジェクト名はまだ英語だが、OCRはしっかり日本語に対応している。これは素晴らしい。
なおローカルのイメージをChrome Canaryで開いてイメージの説明を取得することも可能だ。ただ現時点ではまだセキュリティの問題が心配なので、実験する場合は画像の選定には注意しよう。

試した範囲では、オブジェクトの認識の精度はそこそこ。日本のランドマーク、例えば「スカイツリー」などは誤認識された(富士山は認識できた)。これは正式リリースまでにはしっかり学習されると期待したい。
またOCRは抽出される文字数に制限があるようだ。あまり長い文章は途中で切れてしまう。そのためOCRツール代わりに使うには厳しいかもしれない。それでも画像にしか含まれない情報の存在に気づかされるなど、かなりのパワーを感じた。

画像の説明を取得できるイメージは、原則として「代替テキストがないもの」に限られる。そのため代替テキストが設定されているイメージでこの処理を実行しても読み上げる内容は変わらない。だがしかし、イメージを別のタブで開いてフォーカスすると解析可能だ。そしてAIで解析した方が情報量が多かったりする。なんか微妙な気持ちになる。

なおこの機能を無効化するには、環境設定を開き「詳細設定」>「ユーザー補助機能」にある「Google から画像の説明を取得」をオフにすレバいい。


すでに実用レベルという印象


突如として公開されたChromeの画像解析機能だが、その機能はすでに実用的なレベルと感じる。もちろん説明されない画像も多いが、それは時間が解決してくれる問題だろう。
今まで知る由もなかった「代替テキストなしのイメージ」が一つでも多く説明され、さらにテキストまで抽出してくれる。情報ゼロの状態から一歩進められる意義は大きい。
まあ本当はコンテンツ提供者が代替テキストを用意してくれるのが一番なんだけどね。

それにしても先日の「Seeing AI 3.0」のExplore photo機能と立て続けに、視覚障害者にとってインパクトのある技術が、しかもすぐに体験できる形で提供され、筆者はとても感動している。視力が戻ったわけではないのに、明らかに「今まで見えなかったものが見えた」感覚を覚えている。まさにテクノロジーが身体を補完する瞬間だ。

さて、すっかり気に入ってしまったこの機能。Chrome Canaryは流石に常用はきついので、Safariと併用してみようと考えている。何かまた気がついたらこちらで報告したい。

関連リンク:


0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。

米国マクドナルド、同社のキオスク端末に「JAWS Kiosk]を導入。視覚に障害があっても音声を用いた操作で注文から支払いまでを単独で実行可能に。

画像引用元: TPGi 米国マクドナルドは2021年9月9日、、支援技術ディベロッパーであるVispero社とと提携し、同社が運営する直営店およびフランチャイズ店舗に設置されているキオスク端末に対し「 JAWS Kiosk 」テクノロジーを採用したことを発表しました。 なおここで...