2022年3月10日木曜日

Microsoft Edgeに画像説明取得機能が追加。AIで解析した画像に含まれる物体の概要、および抽出したテキストをスクリーンリーダーで読み上げ。

MicrosoftはスクリーンリーダーでWebをブラウズするユーザーに向け、同社が開発するChromiumベースのWebブラウザ「Microsoft Edge」に、画像の説明を取得する機能を追加しました。

この機能は画像認識AI(おそらくAzure AI)を用い、Web上の画像にどのような物体が含まれているのかを解析し説明文を生成、また画像に含まれるテキストを抽出して画像のAlt(代替テキスト)を置き換える機能です。

これにより画像を目視で確認できないスクリーンリーダーユーザーが、代替テキストが含まれていないWeb画像の意味を(ちょっとだけ)理解できるようになる(かもしれません)。確認したMicrosoft Edgeのバージョンは99.0.1150.36(macOS版)です。


スクリーンリーダーを用いてMicrosoft Edge上の代替テキストが入っていないイメージをフォーカスすると、

「不足している画像の説明を取得するには、コンテキスト メニューを開きます。 ラベル付けされていない画像」

と読み上げられます。

画像説明を取得するには、


  1. 画像のコンテキストメニューを開く。
  2. 「Microsoft から画像の説明を取得する」を開く。
  3. 「常に表示」もしくは「一度だけ」を実行する。


これで画像にフォーカスすると、取得された画像説明が読み上げられます。「常に表示」を選ぶと、以降は設定から無効にするまで自動的に画像説明が取得されるようになります。画像説明がうまく取得されない場合は、その画像のコンテキストメニューから、画像を新しいタブもしくは新しいウィンドウで開くことで取得される可能性が高くなります。ただ画像の内容によっては説明文の生成に失敗する場合もあるようです。


またEdgeの設定でこの機能を有効/無効にすることもできます。少なくとも私のMacではEdgeのコンテキストメニューがうまくVoiceoverで操作できない場合があったのでこちらの方法で設定しました。

Edgeの設定を開き「説明」で検索すると

「スクリーン リーダー用に Microsoft から画像の説明を取得する」

というチェックボックス項目がヒットします。このオプションにチェックを入れることで、画像説明が自動的に取得されるようになります。


では実際にどのような感じで画像説明がつくのでしょうか。試しにずいぶん昔にストックフォトで購入した東京タワーのお写真の画像ファイルをMicrosoft Edgeで開いて認識させてみました。


たぶん東京タワーが写ってる画像。

Edgeはこのような説明文を返してきました。

「次のようです: a large tall tower with a sky background with 東京タワー in the background」

現状説明文は英語になるようです。翻訳すると「東京タワーと空を背景にした、大きくて高いタワー」という感じでしょうか。ちょっと文法がアレですがちゃんと東京タワーは識別してくれました。固有のランドマークとしては他にもスカイツリーやレインボーブリッジなんかも認識します。富士山はダメでした(山と認識)。全体的な正解率はそこそこ高いという印象です。

また物体認識のほか、画像に含まれる文字列もOCRにより説明文として出力されます。スクリーンショットなんかを放り込むとどのような文字列が含まれているかが分かります。ちなみにテキストの認識は日本語にも対応します。


画像認識AIによる代替テキスト生成がどこまで実用的であるかは議論の余地はありますが、個人的には情報ゼロ状態から比べると1万倍マシだけど代替テキストの代わりにはならないよねという印象です。まあヒントというか手がかりくらいには役立つでしょう。AIがコンテンツの文脈から画像を説明できるくらいに進化すれば、少しは実用的になるのかもしれません。今後に期待です。

0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。

支援技術関連記事まとめ(2022年11月)※お知らせあり。

※以下のリンクをクリックするとDropboxへ接続し、ダウンロードが自動的に始まります。 ※ダウンロードファイルはHTML形式です。ブラウザで開いてください。 ※正常に表示されない場合は別のブラウザで試すか、エンコード設定を変えて見てくださ い。 ダウンロード: 海外記事 / 国...