ボイステックは革命ではなく同時多発イノベーション

2021年のはじめに音声SNS「クラブハウス」ブームがありました。
熱狂は短期間で終わりましたが、音声技術を応用したビジネスへの関心が高まりました。
それらをボイステック市場とよび、スマホ以来の大きな市場になると言う人もいます。
しかしながら「ボイステック」もなかなかバズワード臭があります。
その理由と自分の期待値を整理してみました。

参考：
「ボイステック革命　GAFAも狙う新市場争奪戦」緒方憲太郎著（日経BP）
「日経業界地図2022年版」「2020年版」（日経BP）
「ITロードマップ2022年版」野村総研（東洋経済）
　Web記事「音声テック」ほか

ボイステックの解釈

この数年、スマートスピーカーの登場や、高機能ワイヤレスイヤホンの普及、音声コンテンツ配信の増加や発信者向けサービスの登場など、音声に関するビジネスが急成長しています。
それらを背景に、音声ビジネスを手掛ける人たちが、クラブハウスブーム以降に自分たちの追い風として「ボイステック革命」「ボイステック市場」と言うようになりました。

言葉を整理しておこうと思います。

１）「ボイステック」は音声（voice）とテクノロジー（technology）であり技術のこと。

２）音声データに付加価値をつける技術（実質はＡＩでも）はボイステックに含めることにします。

３）音声技術を駆使した新しい付加価値のあるビジネスを「ボイステック市場」と捉えることにします。

誤解を招く言葉である点に気を付けてください。
フィンテック、アグリテック、フードテックなど巨大市場のＤＸの仲間のように聞こえますが、それらは業界や分野とテクノロジーの掛け合わせですが、ボイスは手段なだけです。
「ボイステック市場」が具体的に何を指しているのか、共通の認識が確立していない曖昧さがあります。
狭義の市場は、ＡＩ開発者が導入先にＡＩを売るのがＡＩ市場であるように、音声技術を売る先です。
広義にとると、音声に関する既存のプロダクトやサービス（例えばラジオ、ニュースや本の読み上げ）まで全部含みます。後者は規模感を盛りたい人にはよいですが発散しますので、バランスを考えて上記３）にしました。

ボイステックの概況

「日経業界地図2022年版」で「2030年のテクノロジー期待度番付」をみると音声テクノロジーに関連するのはＡＩのみですが第1位にあります。世界の主要業界70（2020年統計）として具体的に数字があるのは「音楽ソフト・配信（231億ドル）」「スマートスピーカー（1億2千万台）」です。

また「2030年の仕事と職種」で音声認識やセンサーとＡＩによる業務プロセスの変革が挙げられていることから、音声アシスタントが様々な業界で社内業務や対人窓口に使われるなど応用が進みます。
業界地図を大きく変えていく「有望な100の技術」ではＡＩに関し「画像や音声の認識・翻訳は身近になっている。さらに新たな応用に取り組むスタートアップが続々と登場する。」と補足されています。
「ITロードマップ2022年版」をみると、5年後の重要技術の１つに自然言語処理によるカンバセーションインテリジェンス技術を挙げています。
いずれもＡＩにカテゴライズされて今後数字が出てくると思われます。

ボイステックとしては
・画像認識などと共に成長中のＡＩ要素の１つ
・顕在市場は配信サービスと音声アシスタント
・今後新たな応用が生まれることが期待されている
といえ、伸びしろは大きそうです。

面白いと思ったコンシューマ向けの４分野を挙げます。

次世代の音声SNS

2021年1月からクラブハウスブームが起きました。
以前からゲームやクリプト界隈ではDiscordだったり、音声SNS的なものは他にもありましたがタイミングとマーケティングが秀逸でした。
コロナ禍下のリモートワークからくるZoom疲れや雑談欲求、iPhone限定かつ招待制によるプレミア感、ネーミング、有名人を上手く使ったプロモーションなど、いろいろ理由は挙げられていますが、過熱の芯はユーザーの下心を上手に刺激した点だったと思います。
誰でも有名人の会話が立ち聞きできてあわよくば会話もできる期待、レアな機会を得た人は既存のSNSで自慢する、早く参加するほど機会に有利な無料の会員権的な。
その後の沈静ぶりから、本来の音声SNSのニーズがそれほど強くないか、このSNSの仕組みには解決すべき課題が多いことを示唆しています。

実装技術的には実はアドバンテージは無かったようで、音声SNS機能が作れるAPIセットを提供するクラウドのプラットフォームを使って開発されたことがリークされていました。荒っぽく言えば、レンタルサーバーを契約してWebアプリを作ったようなものですから、他のデベロッパーも追随可能です。
実際、クラブハウスの大ブレークでそのプラットフォーム提供会社の株価が急騰していました。

しかしプラットフォームに乗るだけでは、Googleが検索エンジンを改良するような独自技術による差別化された音声SNSにするのは難しい。
既存大手SNSも類似の機能拡張を次々と発表しましたがミート戦略（強者は冒険せずに弱者の特徴を真似て打ち消すことで無力化する）どまりです。
音声ならではの突出した利点があり、音声のデメリットを克服する新しいソリューションはまだ現れていません。

クラブハウスブームは、ボイステックで新たな応用に取り組むスタートアップにとっては大きな追い風となり、新たな視点・認識を呼び起こした功績はあると思います。
残念ながら音声SNSは幻滅期ですが、音声テクノロジーは確実に民主化しています。（下記API例）
大手SNSへの情報集中への不信感からDecenteralized化が言われ始めています（Web3）が、それにはまだ長い年数がかかります。

離れて行った音声SNSユーザーがまた戻ってくるようなボイスサービスがどこから現れるのか楽しみです。
孤独な老人の増える日本ではスマートスピーカーだけで繋がれるコミュニティーなどがあると嬉しいかもしれません。

主要クラウドの提供する音声テクノロジーのAPI例：

Amazon AWS Solutions：
Amazon Lex is an AWS service for building conversational interfaces into applications using voice and text. With Amazon Lex, the same deep learning engine that powers Amazon Alexa is now available to any developer, enabling you to build sophisticated, natural language chatbots into your new and existing applications.
https://docs.aws.amazon.com/lex

Microsoft Azure ：
Speech Services では、音声の文字起こし、テキスト読み上げ、音声翻訳など、音声認識と生成の機能を幅広く提供しています。
https://azure.microsoft.com/ja-jp/pricing/details/cognitive-services/speech-services/

Google Cloud：
AI テクノロジーを活用した API を利用すると、音声を正確にテキストに変換できます。
https://cloud.google.com/speech-to-text/
高速で動的な機械翻訳機能を使用して、コンテンツとアプリの多言語対応を導入しましょう。
https://cloud.google.com/translate/

音声によるユーザー発信メディア

欧米ではポッドキャストが盛り上がっているそうで知人も何人かAudibleで本を聞いています。
私は眼で読む派ですが、本の読み上げニーズは鉄板のようです。
こうしたプロのコンテンツを流すWeb1.0的サービスに対し、「声のブログ」などWeb2.0的サービスが登場してきています。

画面や文字に縛られない音声ならではの利点として、「ながら聴き」できる、だれでも簡単に発信できる、が言われています。
なるほどと思う反面、疑問もあります。

「ながら聴き」ができる

通勤中、運転中、運動中、家事中など、邪魔にならず空いている耳を有効活用できる。
可処分時間の少ない現代人にとって時間を効率よく使えるのにまだ活用しきれていない。

＜疑問＞
「ながら」のシチュエーションは将来、自動化すべき領域であり、自由になれば人は視覚を使う。
「ながら」の利点に依存して獲得できる可処分時間はすぐに限界がくるのではないか。
　耳が空いているという認識は本当に正しいのだろうか。
　私は以前、徒歩中にTOEIC用英語を聞いてた期間、ちょっとした街や自然の変化など五感で感じるものに気付かなくなったことに気付き、徒歩中は音楽も聴かなくなりました。埋め尽くさないことがゆとりのような気もする。

だれでも簡単に発信できる

文章にまとめる、映像を製作する、どちらも時間と労力が大変でスキルも要るし忙しい人には向かない。
コンテンツや発信者に魅力があれば、話し言葉のまま手軽に発信ができる。

＜疑問＞
しゃべりの才能のある人しか発信者にはなれない。話ベタを聞くのは特別な関心がない限り苦痛。
発信者が増え競合コンテンツの質が上がってくればYouTubeが辿ったように編集スキルが必要になるのではないか。
私がポッドキャストを利用しなくなったのはWebに代替コンテンツがあるからです。代替品があっても「ながら」の利点は大きいですが、関心が高まると早口再生したり少し戻したり残り時間を見たりしたくなり、そうなると代替品が競合してきます。
結局は「ながら」に頼らない強いコンテンツが残るのではないでしょうか。

十代のころオールナイトニッポンのパーソナリティーが好きで内容関係なくかけていた時期がありますがコンテンツの乏しかった時代です。今でも話者の魅力だけで可処分時間を奪えるのか、よく分からないです・・・
発信の敷居の低さによって今まで世に出なかったロングテールのコンテンツ発掘（既存の代替がない）への期待値は大きいと思いました。

既存の配信ビジネスは長年変わっておらず、音声テクノロジーの産物といえるような特徴がまだありません。今後、ボイステックを駆使することで、
・　一覧性や検索性など音声ゆえのディスアドバンテージの解消
・　「読む」では得られない音声ならではの新しい体験価値
をもたらすサービスの登場を期待したいです。

スマートスピーカーの進化

クラウドのAIと情報をやり取りするソフトウエアが入ったマイク付きスピーカーで、部屋に置いた音声アシスタントです。音声アシスタント機能を提供するスマホアプリとの違いは僅かですが、ひと手間の違いは意外と大きいです。
・　常に通電してスタンバっている（内蔵マイクで聴き耳をたてている）
・　会話のようにやり取りができる（スピーカーから返答が返ってくる）

前記のとおり2020年統計で1億台（年間・世界）出ており、コンパクトデジカメの最盛期の1億台と同レベル。にしては周囲に普及している感がないのは欧米中が牽引しているからでしょう。
私の自宅には3か所あり（書斎、居間、寝室）、実家の80代の母の居間に1台置いています。

天気予報を聞く
目覚ましやタイマーをかける
通知を受け取る（カレンダーの予定、電車の運行中止など）
簡単な調べもの「平成30年は西暦何年？」「ｘｘの作者は誰？」など
エアコンや照明のON/OFFも出来るがほぼ使わない（リモコンの方が手早い）
母の利用履歴で活動状況を時々確認する

つまらない使い方になっている理由は、「要求に対して回答が１つ、もしくは実行内容が決まっているもの」しか向かない（ピンポイントの回答が得られる質問しか出来ない）ためです。
現時点では、それ以上のことはスマホやＰＣに行ったほうが楽です。

私が感じる音声のメリット
・手がふさがっている状態で使える（画面見なくて良い）
・メニュー階層の奥にあるものに一言で到達できる
　電話窓口で「ｘｘの方は１を・・・」と長々と操作させた挙句「ただいま混みあっています。もう一度かけ直すか・・」ってぶん殴りたくなります。
・見てないときでも「割り込ん」でくれる
　横から声で教えてくれるのは助かる。スマホやPCの通知は気付かないことが多々あるし、逐次的な情報を聞き捨てできる点もよい。メールやメッセンジャーのように溜まるものは始末する手間が増える。

こうしたメリットを活かしつつ、もっと気が利くようになって欲しい。

先月のGoogle IOでも頻繁に使うフレーズはウェイクワードを省略したり話者の視線で判断するなど、実用性の向上が図られています。
聞かれたことだけ答えるのではなく、雨の日に朝から会議予定があったら少し早く家を出るように声をかける、Kindleを2時間も読み続けていたら休憩を促すとか。
既存の情報や状況を組み合わせて有能なＡＩアシスタントへ成長してほしい。

将来的にはスマートスピーカーは画面をもつものとワイヤレスイヤホンに入るものとに分かれていく気がします。

スマートイヤホンの登場

Apple社のAirPods Pro ではマイクで拾った外部音をノイズキャンセルに使うだけでなく装着中も定位感を維持して周囲が聞こえるMR（Mixed Reality）の領域に入ってきました。

そうなると期待が膨らみます。
０．装着することで外部音がノイズとしてキャンセルされる
１．装着していても、外部音が自然に聞こえる
２．自然に聞こえつつ所望の加工がされて聞こえる（特定話者の声を拡大など）
３．情報をMR空間内の音として表現できる（遠くから近づくサイレンなど

父が晩年は補聴器をつけていましたが、私は補聴器が必要になる前に確実にこれを使っていそうです。

実は似たことが映像でもあります。
ミラーレス一眼カメラのビューファインダーのスルー画が、裸眼で見ているようにスムーズに見えるようになった頃に、これで眼鏡機能を作れないのかという思いがありました。一種のデジタル双眼鏡なのですが、暗い所でも高感度で見え、遠近どちらも良く見え、都合の良いように加工して表示できるはずです。
装着するには大きなVRゴーグルのようになって当面実現は困難ですが、OculusなどのVRゴーグルのカメラが高画質化してMR化し、さらに小型化したら実現してしまいます。
視覚にハンディキャップのある人には間違いなく必須のツールになります。

普段は限られたシチュエーションでしかイヤホンを使いませんが、賢くなった音声アシスタントが入ってMR化したイヤホンが登場したら絶対とびつきます。
AR/MRグラスが登場してもイヤホンの利用シーンは併存すると思う。

総括すると

ボイステックが貢献して市場が広がる業界がいくつもあることがわかりました。
ボイステック革命というよりはボイステック同時多発イノベーションだと思う。

リアルタイム配信の動画では話者の声が自動で字幕になったり、翻訳できたり、すでにＡＩの進展で音声テクノロジーは大きく進歩しています。にもかかわらずスマートスピーカーに感じる物足りなさは、背後にあるテクノロジーが利用シーンにまだ活かされていない状況を示しています。

伸びしろが大きい分、これからの開花が楽しみです。

以上

「ボイステック革命　GAFAも狙う新市場争奪戦」緒方憲太郎著（日経BP）　（Amazon）
Voicy創業者の熱意と行動力が素晴らしい。
もしスマホ以来の革命を目指すなら、人々を画面から解放するよことりも、「ながら聴き」せざるを得ない忙しい人々をなくすことであってほしい。
生い立ちゆえに抱く音声配信へのこだわりからもう１つピボットしたところに、著者が本当に望む革命、ビッグチャンスがあるような気がする。

ボイステックの解釈

ボイステックの概況

次世代の音声SNS

音声によるユーザー発信メディア

スマートスピーカーの進化

スマートイヤホンの登場

総括すると

関連する投稿

初代Oculus Quest から Quest3 へ乗り換えて何が変わったか

スライドショーで観るスナップ写真の薦め

デジタル一眼カメラの未来をChatGPTに尋ねてわかったこと

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル