2019年5月30日、Blind Bargainsが伝えているところによると、視覚障害者必携のクラウド画像認識アプリ「TapTapSee」や画像検索アプリ「CamFind」で知られている米国ロサンゼルスに本拠地をおくCloudSight社が、同社のこれまで蓄積してきた画像解析データをもとにした新しい画像認識APIを発表した。
画像認識とは、画像に含まれている物体や風景をAIにより解析し、何が写っているかをテキストでフィードバックする技術。CloudSightにはTapTapSeeやCamFindを通じてこれまでに12億5000万枚以上の画像がアップロードされており、この膨大な画像データによって新しい画像認識APIが開発された。このAPIはクラウドを用いず完全にオフラインで動作するオンデバイスモデルを採用しているのが大きな特徴とのこと。
従来はコンピュータビジョン専用モデルで約1秒、人力による画像解析モデルで8~12秒程度の処理時間が必要だった。新APIのオンデバイスモデルではこれを平均250ミリ秒(1/4秒)にまで短縮したという。これにより同社は、これまでのように写真を撮影してから解析というプロセスを用いずに、リアルタイムによるストリーミング画像認識の可能性にも言及している。例えば認識させたいものにスマートフォンをかざし、静止した瞬間に物体認識を行う、といったイメージだ。またオンデバイスモデルのメリットは処理速度だけではない。この種のアプリで懸念されるプライバシーの問題も、オフラインで処理されることで払拭されると同社は語っている。
だがいくら高速で安全でも、肝心の認識精度が低ければ魅力は半減してしまう。同社のページを見る限り、その心配はなさそうだ。と言うよりTapTapSeeの人力認識処理よりも格段に具体的で的確な認識が行われているようにも見える。例えばこんな感じ。
- oval cut amethyst ring with diamond halo(ダイヤモンドハローが付いた楕円形にカットされたアメジストリング)
- pair of volkswagon diecast cars(2台のフォルクスワーゲンのミニカー)
- 3x3 Rubik`s cube(3X3のルービックキューブ)
- black and gray DSLR camera(黒とグレーのデジタル一眼レフカメラ)
- black Xbox 360 console with controller(コントローラー付きの黒いXbox360コンソール)
おお、かなり詳細な説明をしているではないか。画像に含まれる要素をフィルタリングし、単純なオブジェクトの名前にとどまらず、自然な文体で写真の説明文を生成するようだ。もしこのクオリティが保証されるなら、GoogleやMicrosoftの画像認識エンジンにも引けを取らないだろう。これは期待が高まる!
視覚障害者としてはこのまま画像認識アプリとしてリリースして欲しいが、同社はこのAPIをライセンス販売し、様々なアプリに組み込むことでeコマースサイトで商品をカテゴリわけしたり、ビデオ映像を解析してタグをつける、Webの画像に代替テキストを付与してアクセシビリティを向上させるといった用途を提案している。なおこのAPIがTapTapSeeやCamFindに組み込まれる予定はなさそうだ。残念。
ここで妄想を膨らませると、このAPIを組み込んで全盲でも的確な写真を撮影できるカメラアプリとか、洋服や持ち物を整理して見つけられるデータベースアプリなんかが欲しいなあ。あと日本でちゃんと使えるかどうか。TapTapSeeは日本のユーザーも多いので大丈夫、と思いたい。
とにかく、またひとつ今後の動向が木になる技術が登場したようだ。