強みは「スクリーンの獲得競争」からの脱却–THE GUILD 深津貴之さんと考える音声メディアの可能性

様々な業界のプレイヤーをお招きして、音声の未来を拡張するトークセッション、第1回目のゲストは深津貴之さん。

ご自身もデザイナー・クリエイターとして活躍されており、ピースオブケイクのCXO、そしてTHE GUILDの代表を務める深津さんから見る、音声テクノロジーの未来、これから直面する課題とは？

Voicy代表緒方と、深津さんの対談レポートをお届けします。

左から、深津貴之さん（THE GUILDの代表およびピースオブケイクのCXO）、緒形憲太郎（Voicy代表取締役CEO 公認会計士）

目次 [非表示]

壊す勇気のあるデザイナーが、チームを強くする
音声の強みは「スクリーンの獲得競争」からの脱却
市場やテクノロジーのフェーズによって求められるデザインは変わる
出たてのプロダクトと結婚相手探しの意外な共通点
音声は自らの“制約事項”を武器にできるか
ここからプッシュ通知を発明できたら強い
何かを極めるより、ルールが違う戦場を10回経験するほうが有利

壊す勇気のあるデザイナーが、チームを強くする

緒方：さっそくですが、深津さんは複数のデザイナー、エンジニアの組織づくりにおいて大切にしていることはありますか。

深津：まず一番大事なことは正しい方向を示すこと、そして二番目は正しい歩き方、楽な歩き方を示すことです。

その上でリーダーは一番生産性があがるテンプレートキットを作るとこにコミットする。能力の大小よりも、メンバーがテンプレートキットを使って、生産性や回転数が上がっている状態にいるかをCTOが見ていますね。

多少間違っていても2〜3回繰り返していたら、自然と改善されていきますから。

緒方：深津さん自身がメンバーへの教育もされているのですか？

深津：教育というより、うーん。ゲームで例えると、全体の攻撃力アップとかスピードアップとか、呪文をひたすら唱える役割ですね。自分では殴りにいかない。

緒方：なるほど。チームメンバーに選ぶ軸や、採用基準はありますか？

深津：僕の好みのタイプは、打席に立つのが好きで、ガンガン素振りできる人。何より自分で作ったものを破壊されることを恐れない人ですね。

目的に沿わないなら2、3回壊す勇気があるか、綺麗なものを作るだけではなく、目的に沿っていて綺麗なものを作りだすような人がいいですね。

個人的な見解ですが、ミッションやプロジェクトの達成より、理想を作る優先度が高い人は、プロダクトに貢献しない綺麗さにこだわってしまうタイプであることが多いです。

緒方：そういうデザイナーは少なくないと思うのですが、何か共通する特徴があるのでしょうか。

深津：プロダクトを作品と捉えてしまう人は、作ったもの＝自分と同義にして、ダメージを受けてしまう。作品とプロダクトは違いますし、作品は作品であり、自分でありません。

作ったものにダメ出しされても、自分が否定されたと思わないマインドがあると、チームとして伸びやすいですね。

そして自分が好きなプロダクトで毎日経験を積んで、土日は自由に作る！というタイプだと一番伸びやすいです。

緒方：それができる人、結構すごいですよ。

音声の強みは「スクリーンの獲得競争」からの脱却

緒方：深津さんも音声配信をされていたと思いますが、音声市場やテクノロジーの潮目を感じることありますか。

深津：以前、Podcastに出演させてもらったことがあるのですが、どちらかというと私はリスナー派です。

音声の流れとして、IoT（Internet of Things：モノのインターネット）の文脈だと、海外ではインターフェースとしての音声がある程度定着してきたと思います。

一方で日本では、日本語がテクノロジー課題になっていてVUI（Voice User Interface）そのものは、もう少し時間がかかりそうですね。

緒方：これからVoicyのデザインチームでVUIとかVUX（Voice User Experience）を事業として前に出していこうと考えています。

だからボイスメディア「Voicy」では、どういうコンテンツがどんなタイミングで受け入れられるのか、ユーザーにストレスのない視聴時間や、コンテンツの面白さや快適性を追究しているとろですね。

緒方：テキスト、動画、音声と並べたときに、深津さんから見た音声の強み・弱みを聞きたいです。

深津：音声の特徴はスクリーンの獲得競争の外側に出られること。そのポジショニングを活かせるのがボイスの強みなのかなと。

一方で、基本的にプライオリティのナンバー2に使われることが多いのも音声です。料理をしながら聞く場合、主役は料理ですし、ラジオも一緒で、本を読む・勉強するという行為が主役になる。

緒方：副音声の可能性はどうでしょう。

深津：サブインターフェースで良しとするのか、あるいはナンバー1を取るのであればやることが変わってきます。

サブインターフェースだと商品のメインバリューになりえない。例えばVoicyのない車に対して、搭載されている車の価値を説明するのが難しくて、どうやって魅力を伝えるか。

緒方：音声は感情情報のあるリッチなコンテンツで、実は深いし難しい。

従来多くのコンテンツは「テレビ番組はテレビから」というように、インターフェースとフォーマットが一対になっています。

緒方：音声は、ひとつのフォーマットを打ち込んでおけば、複数デバイスから出すことができます。となると、予算をかけてこだわったコンテンツをつくるなら、音声はすごくいい。だからもっと大事に扱ってもいいんじゃないかと思っていて。

深津：なるほど、それは面白いです。

市場やテクノロジーのフェーズによって求められるデザインは変わる

緒方：既存の技術を散りばめて新しい音声の世界をつくるのか、音声を深掘りしてコアバリューとなる技術がでてくるのか。

音声技術やコンテンツがインフラのひとつになるのか、音声の未来にどんな貢献ができるのか、まだまだ模索しているところです。

深津さんが事業をつくる上で重視していることはありますか。

深津：個人的な意見ですが、テクノロジーのフェーズによってデザインが変わるということを意識しています。自分たちが今どういうフェーズにいて、そこで求められるデザインとはなにかをチームで共有するようにしています。

緒方：確かに。時間軸で変わっていきますね。

深津：音声なら「ある／ない」「できる／できない」「曖昧でも大丈夫／大丈夫じゃない」などのように、序盤戦はプリミティブな戦いを繰り広げていきそうですね。

次の局面は「正確に言わないと起動しない／曖昧でも起動する」とか、わりとローレイヤースタイルの勝負じゃないでしょうか。

深津：後半でバリューが出そうなデザインに投資する場合は、序盤をどうしのぐかが課題になります。3年で王者が決まるのであれば、しばらくステルスで、ここぞという局面でドーンと出すのも一手。

もしくは序盤戦が10年続くもので、10年先までバリューが出ないなら後半戦決まるまで、今の資金で隠れて開発できるかとか。

出たてのプロダクトと結婚相手探しの意外な共通点

緒方：そもそもテクノロジーで戦えるかが、要になってきそうですね。

深津：そうですね。きめ細かい感情表現や佇まいや雰囲気、世界観とかって、後半戦で必要とされる要素だと思います。

カメラアプリやブログだと、もうこれ以上は新しい機能がどうのこうの、という議論になりません。サービスやプラットフォームとして100周くらい回ると、曖昧模糊とした雰囲気や佇まい、世界観といったよくわからない魅力が競争力になる。

音声領域はまだ原子時代かもしれないし、今は文学的なものよりまず火と洞窟が必要で、そういう戦いがしばらく続くように見えます。

緒方：となると、僕らはかなり前掛かりでチャレンジしてますね（笑）

深津：かもしれませんね。

深津：ローレイヤーでの戦局が終わって、基本的なことは全部できて、曖昧なことや文脈も理解できるようになって、Google HomeもAlexaもSiriも区別がつかなくなって、その時にバリューが出てくるのが、声の安らぎだったり、ユーザーにあわせて小粋なことが話せたりする。そこから次のレイヤーの勝負が始まるのでは。

序盤はスペック戦争になりやすいというのは、結婚相手探すのと似ていますよね。声がいいとか雰囲気が優しいとかはかなり後の話。最初はやっぱり言語が通じるとか、職があるとか、前提となる状態があってこそ。

緒方：結婚相手の例え、わかりやすすぎる…！

音声は自らの“制約事項”を武器にできるか

緒方：音声の序盤戦、特にボイスメディアの課題はどこにあると思いますか？

深津：課題になるのはインプット領域だと思っています。録音、データ作成領域ですね。

小説なら作家、映画なら監督、テレビならスポンサー名など、コンテンツの評価・品質を担保する方法がたくさんあるんですよ。

ボイスデータの最大の課題はレピュテーションが最終的に話す人（パーソナリティ）に集中しすぎることだと思います。

緒方：パーソナリティの魅力は確かに大きいです。

深津：どんなに面白いことを考えられる人でも声がガラガラだったり、滑舌が悪かったりすると一気にディスアドバンテージを背負ってしまう。

テキストやYouTubeと違って、生得的な才能のある人しか発信できないメディアであることが最大のスケール課題ではないでしょうか。

YouTuberは場合は美男美女じゃなくても、顔や雰囲気に味があれば生存できる。聞きづらいボイスでは生存できる可能性はかなり低い。

緒方：ブログやTwitterなら時間をかければ面白いコンテンツがつくれるけど、音声はそうはいかない。

深津：ダメな声でもいい声に録音できるとか、課題を覆すテクノロジーがつくれるかが最終的なレイヤーで求められそうですね。

カメラアプリのフィルターをかけるように、音声品質を一定レベルに出せたらVtuberと同じ流れがきそうです。配信される声さえ良ければ、本人の顔や地声は関係なくなる。

緒方：仮に音声品質を担保できたとき、音声コンテンツはどのような戦局を迎えると思いますか。

深津：動画メディアとの一番大きな違いは、スクリーンの有無。ある意味、動画は「絵を見なければいけない」という制約事項を背負っています。

音声の場合、「絵がないこと」を制約事項にするか、目を他のことにリユースできるというメリットと捉えるか、制約事項をどう武器に変えるかが分かれ目だと思います。

ここからプッシュ通知を発明できたら強い

緒方：深津さんがこれから注目している音声技術、イメージありますか。

深津：一番感じる可能性は、プッシュ通知を発明できた人は強い。初動は「OK グーグル、〇〇して」って言わないと命令できないのが音声UIの最大の制限。

今はこちらが話しかけるのが起点になっているんですが、音声UI側から話かける技術を手に入れるのが重要になっていく。

緒方：音声ってすごく能動的なコンテンツのくせに、初動は自分から話しかける必要がある。それでいうとアラームだけは強い。アラームをやりきるコンテンツだけ作るとか。

深津：検証したら面白いかも。音声認識やコアな技術は上に乗せるか、基盤に食み込んでいくのか。

上に乗せるなら、吸収されないようなビジネスモデルか、サービス設計のテクノロジーパートを押さえられるか。ルールブックの最初の第一前提を描けるかにかかっています。

緒方：開発組織をどれだけ強くできるかが勝負。社長としてはプレッシャーですが、頑張ります。

何かを極めるより、ルールが違う戦場を10回経験するほうが有利

緒方：深津さんは事業でもアドバイスでも、俯瞰的に本質をついてきますね。理論や経験からくるものですか？

深津：理論はあったほうがいいけど、大事なのは場数と回転数です。業界歴10年というより、10回違うルールの戦場を経験しているかが有利になりやすいんじゃないかな。

将棋歴10年より、将棋もエキスパートかもしれないけど、将棋をやってチェスもやって、ガンダムウォーズやって……と、30個くらいいろいろなゲームをしたほうが、まったく別の新作がでたときにも順応するのが早いんです。攻略本なしでゲームが楽しめる可能性も高い。

緒方：それはビジネスにも同じところがありますね。

緒方：場数と回転数という話がありましたが、深津さんの提唱する音声の未来に、いっそう説得力を感じました。

深津：よくわからない業界にチャレンジするときほど、いろんなゲームをやっている人のほうが有利かもしれません。逆に自分はルールがきまった業界には弱い。

初期のインターネット世代なので、とりあえず自分で全部やる、理解する、それからゲームのルールを覚えて、そこからどんな遊びをするか考えて、みたいな。

緒方：今の音声は有利かもしれない。

深津：有利かもしれない。

緒方：今日は音声の未来を切り開くヒントをたくさんもらえました。

私達の成長を見守ってもらって、石を投げておいてよかったと思ってもらえるように頑張ります。

本日は本当にありがとうございました。

Voicyでは今後も様々なキーパーソンをお招きして、音声の未来に関する勉強会を開催します。引き続きレポート記事でも公開していきますのでお楽しみに。

ライター：名和実咲

食やデザインを軸にwebメディア、紙媒体、SNSでのライティング、撮影、編集に携わる。BAKE Inc.に所属。ときどきフィルムカメラ。（@miiko_nnn）