画像認識アプリ「Envision AI」の英語版チュートリアルをざっくり翻訳し、ちょっと補足を加えたものです。iPhone版をベースにしています。本家の翻訳が出るまでの繋ぎとしてお使いください。
──────────
概要
Envisionは、あなたの周りにある視覚的な情報をキャプチャして、それを意味のある音声に翻訳し、読み上げるアプリです。Envisionの機能は、「文字の認識」「周りの物の認識」「スキャンして見つける」の3つのタブに収められています。
文字の認識
テキストの認識に関する機能は、すべてこのタブの中にあり、いつでも簡単にアクセスすることができます。このタブには、以下の機能が含まれます。
すぐに読み上げを始める
このボタンをタップすると、Envisionはカメラが捉えている短いテキストをリアルタイムに読み上げます。このボタンをもう一度タップすると、読み上げが停止します。
オランダ語またはその他のラテンベース言語のみを読む場合は、「ヘルプ」タブにある「オフラインでの文字認識」の設定をオンにして、さらに読み取りを高速にすることもできます。
また、Envisionは自動的に言語を検出することもできます。日常生活で複数の言語のテキストに遭遇することが多い場合は、設定にある「言語の自動認識」をオンにすることをお勧めします。1つの言語しか読まないのであれば、オフにしておくとよいでしょう。
文書の読み上げ
このボタンをタップして、この機能を有効にすると、Envisionは、ドキュメントの撮影位置を調節するための音声ガイダンスを提供します。ドキュメントの端が検出されると「全ての端を認識」とアナウンスされ、自動的に写真がキャプチャされます。また、画面中央をタップして手動で撮影することもできます。
テキストが認識されると新しい画面に表示され、以下の操作を実行できます。
- VoiceOverコマンドを使用してテキスト内をナビゲートします。
- 「再生」ボタンをタップしてドキュメントを読み上げます。
- 「文章をエクスポートする」ボタンをタップしてドキュメントを共有します。
- 「文字のサイズを変更」ボタンをタップしてフォントサイズを調整します。
その他のアクション
このボタンをタップすると、以下のオプションが表示され、複数ページの文書やPDF、画像からテキストを抽出することができます。
複数のページを読む:
このオプションをタップすると、端検出を使用して複数のページを連続してスキャンできます。
PDFをインポート:
アプリ内からPDFをインポートできます。このオプションをタップすると、iOS標準の「ファイル」アプリが開き、そこからPDFを読み込むことができます。
画像をインポート:
このオプションをタップすると、フォトライブラリから認識したい画像を直接選択して読み込むことができます。
拡大鏡
ロービジョンのユーザーであれば、この機能を使用して認識されたテキストを拡大して読むことができます。画面をピンチしてズームするか、左上の「拡大」アイコンをタップして拡大率を指定します。また、テキストをより高いコントラストで読みたい場合は、色を反転するオプションも用意されています。
周りの物の認識
風景や色といった、テキスト以外の認識機能は、このタブの中から見つけることができます。このタブでは、以下の機能が提供されています。
風景を説明する
このボタンをタップして、説明する写真を撮影します。Envisionは、その写真を解析し、最も可能性が高い説明を読み上げます。写真に写っている家族や友人の顔が、すでにEnvisionに学習されていれば、その人物の名前が説明に含まれます。
Envisionでは、風景に応じた説明も提供されます。時計を撮影すると時刻を読み上げますし、窓の写真を撮ると今の天気を教えてくれます。
解析された写真は、「画像を説明付きで保存する」をタップして、カメラロールにVoiceOverで読み上げ可能な状態で保存できます。
色を検出する
このボタンをタップして、色を認識したい物体または衣服にカメラを向けます。Envisionは、検出した色をリアルタイムに読み上げます。このボタンをもう一度タップすると、色の検出が停止します。
「ヘルプ」タブにある「色の認識」設定では、認識できる色の数を「基本(30色)」または「詳細(950色)」から選択できます。
バーコードをスキャンする
このボタンをタップして、認識したい製品にカメラを向けます。バーコードが検出されたことを示す「ピッ」という音がするまでゆっくりと移動もしくは回転させてください。効果音の鳴る間隔を参考にして、バーコードにフォーカスを合わせます。バーコードが正常にスキャンされると、「カチッ」という音が聞こえ、製品名が読み上げられます。また[詳細]をタップして、製品の詳細情報を表示することもできます。製品がデータベースに登録されていない場合は「プロダクトは見つかりませんでした」とアナウンスされます。
スキャンして見つける
このタブでは、リアルタイム認識を使用して、周囲の人や物を見つけることができます。
このタブには、以下の機能が含まれます。
人をみつける
このボタンをタップすると、Envisionは周囲をリアルタイムにスキャンし、フレーム内に人物の顔が検出されると、効果音とともに軽い振動を感じます。Envisionに人物が学習されていれば、フレームに顔が検出されるたびに人物の名前が読み上げられます。カフェや懇親会などで友人を探すときに役立ちます。
ものをみつける
この機能は、オブジェクトの場所を見つけるのに役立ちます。このボタンをタップし、「もののリスト」から探したいオブジェクトの種類を選択します。周囲をリアルタイムにスキャンしましょう。Envisionがフレーム内に選択したオブジェクトを見つけると、効果音が鳴り軽い振動を感じます。
また、頻繁に検索するオブジェクトを「お気に入り」に登録(リスト上で上下スワイプ)したり、一番下にある「何かが足りませんか?」をタップしてオブジェクトの登録をリクエストすることもできます。
Envisionに学習させる
この機能を使えば、人物の顔を学習させ、後に「人を見つける」および「風景を説明する」機能で利用できます。「顔を学習させる」ボタンをタップすると、顔を撮影する画面が開きます。デフォルトではiPhoneの背面カメラが有効になっていますが、自撮りをする場合は画面内のボタンでフロントカメラへ変更できます。この画面では、顔を正しく配置するためのガイドも提供されます。
最低でも5枚の写真を撮影する必要がありますが、より正確に認識できるように、10枚程度の写真を撮影することをお勧めします。また、これらの写真を異なる角度や背景で撮影すると、精度が向上します。
写真を撮影したら「撮影が完了しました」をタップします。ユーザーの名前を入力するよう求められます。名前を入力すると、Envisionは数秒で学習を始め、処理が成功すると「学習が成功しました」とアナウンスされ「スキャンして見つける」タブに戻ります。
「Envisionに学習させる」の画面には、[ライブラリを開く]オプションもあります。学習したすべてのデータがここに表示されます。ここではEnvisionに検出させたくない顔を削除することができます(Voiceoverローターから操作できます)。
他のアプリにある画像を認識させる
写真、Twitter、WhatsAppなどのアプリで見かける画像に含まれるテキストを読んだり認識したりするために、Envisionを使うことができます。この機能を利用するには、そのアプリ内で「共有」ボタンをタップし、アクションシートに表示されるアクションのリストから「Envision it」を選択します。
このオプションを初めて使う時は、共有シートの右下隅にある「その他」オプションをタップして、アクティビティリストから「Envision It」を追加する必要があります。
ヒント
Envisionは常に進化し続けるアプリであり、私たちはその機能と能力を改善し続けています。そのため、自動更新を有効にしておくか、新しい更新があるかどうかを毎週確認してください。ここでは、Envisionの経験を向上させ、機能を最大限に活用するために、ユーザからクラウドソースされたヒントをいくつか紹介します。
Envisionの機能の多くは、まだインターネットに依存しています。より高速な処理を目指していますが、安定したインターネット接続環境でご利用ください。お客様が撮影した画像や情報は一切保存されません。
Envisionに関するフィードバックがあれば、「ヘルプ」タブの「フィードバックを送る」から送信できます。ヘルプや説明が必要な場合は、「通話をリクエストする」からお電話をいただくこともできます。できる限り早くご連絡いたします。
Envisionのテキスト認識機能では、デフォルトでテキストの言語が自動的に検出され、読み上げられます。ただし、1つの言語のテキストしか扱わない場合、Envisionを混乱させないよう、設定から「言語の自動認識」をオフにすることができます。
設定の「スピーチ」では、VoiceOver以外のすべてのスピーチの読み上げ速度と音声を調整することもできます。これらの変更は、VoiceOverの設定には影響しません。
0 件のコメント:
コメントを投稿
注: コメントを投稿できるのは、このブログのメンバーだけです。