Hiho's Blog

「結月ゆかり」とお喋りできるイベントの舞台裏

2019-05-26

2019年5月頭に開催された、 結月ゆかり・紲星あかり中心VOICEROIDオンリー同人イベント「この声届け、月までも五」(声月)の一画で、企画展示をする機会を頂きました。 この展示ブースにて、既存のVR技術と、以前開発した声質変換技術を組み合わせ、 イベント会場に来場されたお客さんが「結月ゆかり」とお喋りできる催しを行いました。 その経験をもとに得られた知見や課題、感想をまとめたいと思います。

企画タイトルは「ゆかりが声月にやってきた」

企画内容

この企画の趣旨を一言で言うと、「イベント会場に来ると結月ゆかりと会話できる」というものです。

VR世界に来たお客さん(左)と会話する「結月ゆかり」(右)

「結月ゆかり」は音声合成ソフトウェアVOICEROIDのキャラクターで、 今回のVOICEROIDオンリーイベント「声月」にはファンの方が大勢集まります。 僕自身も「結月ゆかり」が大好きで、話せたらきっと楽しいと思い、企画しました。 展示では、「結月ゆかり」とコミュニケーションが取れる体験の演出に注力しました。

来場したお客さんは、

  • 会場のプロジェクター映像とマイクを使って「結月ゆかり」と会話したり
  • 会場に設置されたVR機材を使って「結月ゆかり」と会ってお喋りしたり
  • 「結月ゆかり」がゲームしている姿をプロジェクター映像越しに眺めたり

できるようにしました。

会場のプロジェクターに映る「結月ゆかり」

このような企画を実現するために、多くの技術的なハードルがありました。 以降では、企画の舞台裏を振り返りたいと思います。

仕組み

「結月ゆかり」は別室で人(アクター)が演じた

人と違和感なく会話できるのは、いまのところ人だけなので、人(アクター)が結月ゆかりを演じることにしました。 そのためには、アクターの声と姿を「結月ゆかり」のものにする必要があります。 アクターは、VR技術を使って「結月ゆかり」の体を動かしつつ、 声質変換技術を使ってアクター自身の声を「結月ゆかり」の声に変換しました1。 ここでは、過去に開発したディープラーニング声質変換を用いました。

別室と会場の関係図

動き回れるくらいの空間が必要なのと、声の変換のためにノイズが少ない環境が必要だったため、 会場から離れた別室を用意してもらいました。

姿・声の変換のためにGPUパソコンを2つ用意した

今回の企画では、姿を変えるためにバーチャルキャストを、声を変えるためにディープラーニング声質変換を使いました。 バーチャルキャストは、 バーチャルキャラクターになってリアルタイムでコミュニケーションできるVRライブ・コミュニケーションサービスです。 バーチャルキャストとディープラーニング声質変換はどちらもGPUを使ってしまうという独特な問題があります。 同じGPUを使っていると、バーチャルキャストの描画頻度が低下してアクターが酔いやすくなったり、 声質変換が遅延して会話しづらくなったりします。 この問題を解決するために、GPUパソコンを2台用意しました。 片方のパソコンでバーチャルキャストしつつ、もう片方で声を変換しました。

パソコンを2つ用意してソフトウェアを分離する

リアルタイムで字幕を載せた

会場にきたお客さんと「結月ゆかり」がお喋りするときに、 会場が賑やかだったり、うまく声が変換できなかったりで、「結月ゆかり」の発言が伝わりにくいかもしれません。 そこで、音声認識サービスを用いて、リアルタイムで字幕をつけることにしました。 この字幕表示も一工夫しました。 あまり意識されませんが、テレビなどのセリフ字幕は、発言とほぼ同じタイミングで表示されます。 いろいろ試した結果、音声認識を用いた字幕表示も、この方式に沿ったほうが見やすくなることがわかりました。 しかし、音声認識を使うと、字幕テキストを得られるのが発言よりも必ず遅れます。 そこで、会場への配信映像を合成するときに、映像と音声を遅らせることで、字幕表示の違和感を減らしました2

音声を遅らせて字幕のタイミングと合わせる

これらの仕組みを実践していく中で、課題がいくつか見えてきました。

課題

会場の人と会話しにくかった

予想以上に会場が賑やかだったたため、VR空間に来たお客さんは「結月ゆかり」の声を聞き取りづらいようでした。 お客さんと会話していて気づきましたが、字幕なしであっても意外と意思疎通ができ、 変換結果の声でも会話内容はそれなりに伝わることがわかりました。 なので、VR用にヘッドホン等を用意して、ちゃんと声が聞こえるようにすると良さそうでした (今回はスピーカーのみを用意していました)。

もう1つ、遅延による会話への影響が思っていたより大きいようでした。 今回用いたディープラーニング声質変換は、2秒ほど遅延してしまいます。 このことをお客さんに伝えていなかったため、意思疎通できているのか不安に感じる方が多くいました。 遅延することを伝えつつ、それに対するストーリー(宇宙から交信してるとか!)も作ればよかったかもしれません。

相手の表情を見れなかった

VR機材を装着しなくとも、プロジェクターの前に立てば「結月ゆかり」とお喋りできるようにしていました。 このとき、会場にカメラを設置して、お客さんの表情をアクターが見られるようにするつもりでしたが、 何らかの原因で正常な映像をアクター側に送ることができませんでした。 会場パソコン側のネットワーク帯域か、計算リソースが不足していたのだと思います。 会場パソコンはバーチャルキャストが起動しているので、映像配信用のデバイスをもう1つ用意すると良かったかもしれません。

アクター役をやりながらオペレーションすることはできない

実は今回、僕が「結月ゆかり」のアクター役をしました。 一方で、僕は企画のオペレータでもありました。 僕がいる別室側でトラブルが起こった場合は、声でスタッフとやりとりすることができますが、 会場側にトラブルが起こったときにオペレーションできません。 特に、アクターが会場スタッフからの連絡を受けとるのは難しいと思います。 今回はスタッフが優秀だったため大きなトラブルは起こりませんでしたが、 さすがにオペレーターとアクターは分けるべきだということを学びました。

別室にはVR機材と声質変換・VR用のパソコン2台を設置した

結び(ポエム)

声質変換をイベントに活用するのは、僕がやりたいことの1つでした。 声月関係者の方々には貴重な機会をいただき、とても感謝しています。 今回使ったリアルタイム声質変換のコードは全て公開するつもりです。 いろんな方に使ってもらって、いろんなアイデアを見てみたいです。

僕はこれからも、チャンスがあればイベントやサービス開発に挑戦してみたいです。 もし何か面白いことがあったら、ぜひお声掛けください!

休憩中用の画像(thanks 告白P)

  1. 1.発話内容を音声認識でテキストにした後、VOICEROIDソフトでテキスト音声合成するという方法もあります。 それに比べて声質変換を使う方法は、「遅延が短い」「笑い声などの非テキスト音声も変換可能」といった特性があります。 今回の企画では、ゆかりさんとお喋りする臨場感を体験できることを目指したので、声質変換を用いました。 より詳しい仕組みはこちらの記事で紹介しています。
  2. 2.本当は、VR空間で「結月ゆかり」と会ってお喋りしてる人にも違和感のない字幕を表示したかったのですが、 バーチャルキャストのモーションを遅延させる方法が思いつかず、断念しました。