2020年10月27日火曜日

[iPhone]「Sullivan+」:さまざまなイメージをAIで認識し音声で読み上げるアプリ。


ヘレン・ケラーの家庭教師であるアン・サリヴァン先生にちなんで名付けられた「Sullivan+」はスマートフォンで撮影したイメージを画像認識AIで解析し、ユーザーに音声で教えてくれる、視覚障害者に向けて開発されたアプリです。

開発したのは韓国に本拠地を置くTUAT Inc.。iOS版のほかAndroid版もリリースされており、いずれも無料で利用することができます。


このアプリはスマートフォンのカメラで撮影した文字、顔、風景やオブジェクト、色、明るさなどを解析し音声で読み上げます。一回の操作で3種類の認識を同時に実行する「AIモード」が特徴。またiPhoneに保存されている写真を読み込み解析することもできます。

インターフェイスや解析結果は基本的に日本語化されており、3つのボタンによる操作もシンプル。スマートフォン初心者でも簡単に使い始められる設計になっています。

なお一部の機能を除き利用にはインターネット接続が必要。念のためプライバシーには十分に注意して利用しましょう。


ではこのアプリの使い方をざっくり紹介していきます。

ここではiOS版をVoiceoverオンの状態で使っています。アプリのバージョンは1.3。

Voiceoverがオフの場合、一部の操作方法が異なるので注意が必要です。


インターフェイスと基本的な使い方。


アプリを起動し、インストラクション画面とカメラへのアクセス許可を終えると、メインの画面が表示され、画面の下部に左から「メニュー」「キャプチャ」「機能」という3つのボタンが並んでいることがわかります.


基本的な操作は

  1. 「メニュー」から使いたい認識機能を選ぶ。

  2. 「機能」からオプションを設定。

  3. 「キャプチャ」で選択した認識機能を実行。

という流れになります。


認識結果は「キャプチャ」を実行した直後に音声で読み上げられる他、画面の上部に表示されている認識結果をタップすることでも確認できます。

では各ボタンの使い方を紹介しましょう。


「メニュー」ボタンの使い方。


このボタンからアプリの認識機能を選んだり、設定やヘルプ画面などを利用することができます。なおホーム画面のアイコン長押しでコンテキストメニューを開き、認識機能を選んでアプリを起動することもできます。


  1. 「メニュー」にフォーカスしたら、一本指で上下スワイプします。

  2. 使いたい機能が読み上げられたらダブルタップで決定します。

  3. もしくは「アクティベート」(デフォルト)を実行するとメニューの一覧画面が開き、ここから使いたい機能にアクセスすることもできます。


以下、各機能の簡単な説明です。


  • AIモード 文字認識、顔認識、イメージ描写を同時に行います。

  • 文字認識 テキストを認識して読み上げます。カメラが文字を識別すると音声で通知します。

  • 顔認識 人物の顔を認識して特徴を読み上げます。カメラが顔を識別すると音声で通知します。

  • イメージ描写 画像に何が写っているのかを説明します。

  • 色認識 中央に写っているものの色を識別します。2つのモードがあります。

  • 光の明るさ フロントカメラで捉えた光の強さをリアルタイムに通知します。

  • 拡大鏡 画像を拡大して見ることができます。

  • ノート 保存したノートを閲覧したり、共有できます。

  • PDFリーダー PDFおよびTXTファイルを開き、文字を抽出して読み上げます。

  • コミュニティ Sullivan+の関連情報を参照できます。

  • ヘルプ Sullivan+のヘルプを参照できます。

  • 設定 Sullivan+の設定画面を開きます。

  • テキストスキャン リアルタイムの文字認識。日本語には非対応?


「機能」ボタンの使い方。


このボタンからフラッシュライトの切り替えやフォトライブラリからのイメージ読み込みなど、いくつかのオプション機能が利用できます。メニューから選んでいる認識機能によって表示される項目は若干異なります。


  1. 「機能」にフォーカスしたら、一本指で上下スワイプします。

  2. 使いたい機能が読み上げられたらダブルタップで決定します。

  3. もしくは「アクティベート」(デフォルト)を実行すると機能の一覧画面が開き、ここから使いたい機能にアクセスすることもできます。


以下、各項目の簡単な説明です。


  • ビデオ通話 アドレス帳から選択した電話番号にビデオ通話を発信します。

  • フラッシュ フラッシュライトのオン/オフを切り替えます。

  • ギャラリー iPhoneに保存されている写真を選択しモードに応じて解析します。

  • ノートを保存 文字認識結果をノートに保存します。

  • シェア 文字および顔認識結果を共有します。

  • 自動保存 オンにすると文字認識結果が自動的にノートに保存されます。

  • タグを表示/隠す イメージ描写で解析されたタグの表示を切り替えます。

  • 全体カラー/シングルカラー 色認識でカラー識別のモードを切り替えます。

  • 反転オン/オフ 拡大鏡で画面の色を反転するか切り替えます。


「キャプチャ」ボタンの使い方。


「キャプチャ」をダブルタップすると写真を撮影し「メニュー」から選んだ機能に従って認識処理が実行され、結果を音声で読み上げます。

光検出を除き撮影には背面カメラが用いられます。一部の認識機能でカメラ切り替えが可能なようですが……現在調査中です。


認識結果は画面上部に表示されており、内容をもう一度確認したい場合はその部分をタップすることで確認できます。

また「キャプチャ」ボタンにフォーカスして上下スワイプし確認したい項目が読み上げられたらダブルタップすることでも読み上げることができます。このジェスチャは片手で操作しているときに便利です。


使っている機能によっては、画面上部の結果表示エリアに「ノートに保存」「シェア」と読み上げられるボタンが出現します。このボタンから、認識されたテキストをアプリに保存して「メニュー」の「ノート」から参照・管理したり、他アプリへ送信して利用することができます。この2つのボタンは「機能」から実行することも可能です。

また認識結果にフォーカスし日本指でダブルタップすると、その内容がペーストボードにコピーされます。


アプリの機能をカスタマイズする。


メニューから「設定」「を開くと、アプリをカスタマイズすることができます。

よく使う認識機能を「基本モード」に設定したり、ボタンを上下スワイプして選べる項目を変更、文字認識や顔認識の音声通知のオン/オフ、画面の明るさなどを変更することができるようです。

ようです、と書いたのは筆者の環境(iPhone 7,iOS14.1)では設定を開こうとするとアプリがクラッシュしてしまうためです。最新バージョンではカメラの切り替えも可能とありますがどこから操作するのか不明……。iOS14でいくつか不具合が発生している事は開発側も確認しているようなので修正され次第、加筆する予定です。


0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。

米国マクドナルド、同社のキオスク端末に「JAWS Kiosk]を導入。視覚に障害があっても音声を用いた操作で注文から支払いまでを単独で実行可能に。

画像引用元: TPGi 米国マクドナルドは2021年9月9日、、支援技術ディベロッパーであるVispero社とと提携し、同社が運営する直営店およびフランチャイズ店舗に設置されているキオスク端末に対し「 JAWS Kiosk 」テクノロジーを採用したことを発表しました。 なおここで...