Hiho's Blog

VOICEVOXの音声合成エンジンの紹介

December 25, 2021

　この記事はドワンゴ Advent Calendar 2021 12/25 の記事です。

　テキスト音声合成ソフトウェアの VOICEVOX（ボイスボックス）は、キャラクター部分を除いてオープンソース・ソフトウェアです。ソフトウェア・キャラクターともに無料で使えて、初心者でも使い方がすぐわかるよう心がけて制作されています。

　このVOICEVOXですが、同じUIで異なる音声合成エンジンを同時に使えるようにする計画が進行中です。

　一般的に、音声合成エンジンの作成はそこそこ簡単にできるのですが、それをソフトウェアとして世の中に出すのはかなり大変です。ですが前述の方法でVOICEVOXのUIと連携する形でリリースすれば、ソフトウェア化する手間を大幅に省くことができます。そうやっていろんな人が作った音声合成エンジンがVOICEVOXのUIで使えるようになったら、とても楽しそうです。

　そこでこの記事では、エンジン作成の助けとなるような情報を紹介したいと思います。最初にVOICEVOXのUI（エディタ）と音声合成エンジンの関係を紹介してから、VOICEVOXエンジンの内部の仕組みを紹介してみたいと思います。

ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた

December 28, 2020

　2年ほど前に、自分の声を結月ゆかりにする声質変換技術を作り、動画を投稿しました。この技術には利用者の音声データが大量に必要であるという欠点があり、ゆかりさんになりたいというみなさんの願いを叶えるのが難しい状態でした。そこで、この技術を利用者の音声データが不要になるように改良し、誰でも簡単に使えるようにしました。ここではその技術について解説します。

GCPでできるだけ安くディープラーニング

July 17, 2020

　私は仕事でも趣味でもディープラーニングをしています。趣味ではいつもGoogle Colaboratoryを使ってお金をかけずにディープラーニングしていたのですが、Colabは1日12時間ほどしかGPUを使えず、しかも頻繁に学習タスクを回していると弱いGPUしか利用できなくなるので、進捗があまりよくありませんでした。そこで、お金を使って進捗を出すことを考えました。

　Google Cloud Platform（GCP）なら、ちょっと弱めのGPU（Tesla T4）を1時間あたり約12円で借りられます。これならまあ趣味の予算で可能だと感じたので実際にやってみたのですが、GCPは思った以上に複雑で、わかりづらい点が多くありました。そこでこのブログでは、GCPに登録するところから、１コマンドでディープラーニングできる環境を構築するまでの方法を紹介します。

ディープラーニングで歌声音声合成エンジンを自作する

December 1, 2019

この記事は、ドワンゴ Advent Calendar 2019の１日目の記事です。

モチベーション

　最近、理想の人工知能（歌ったり踊ったり喋ったりできるキャラクター）を作りたいと思うようになりました。人工知能が歌を歌うためには、歌声音声合成エンジンが必要です。ということで、ディープラーニングを使って、歌声音声合成エンジンの作成に挑戦してみました。この記事では、実際に音声合成した歌声や、その仕組み、別条件での実験結果、ディープラーニング周りの手法を紹介します。

リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

September 27, 2019

はじめに

リアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS（オープンソースソフトウェア）として公開しました。ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。

「結月ゆかり」とお喋りできるイベントの舞台裏

May 26, 2019

２０１９年５月頭に開催された、結月ゆかり・紲星あかり中心VOICEROIDオンリー同人イベント「この声届け、月までも五」（声月）の一画で、企画展示をする機会を頂きました。この展示ブースにて、既存のＶＲ技術と、以前開発した声質変換技術を組み合わせ、イベント会場に来場されたお客さんが「結月ゆかり」とお喋りできる催しを行いました。その経験をもとに得られた知見や課題、感想をまとめたいと思います。

ディープラーニングの力で人工知能になって結月ゆかりと会話してみた

March 3, 2019

（背景）結月ゆかりと会話したいが、結月ゆかりの人格は世界に存在しない。
（手法）自分が人工知能になり、余った自分の魂を結月ゆかりに宿らせて、自分と結月ゆかりが会話する手法を提案する。
（結果）結月ゆかりと会話することができた。
（展望）次は結月ゆかりの人工知能を作りたい。

Brainwave Idea Challenge（脳波アイデアソン）見てきた

November 19, 2018

BMI（Brain Machine Interface）を作る、PGVというベンチャー企業がある。 11月、PGVの開催するアイデアソンが開かれた。今回のお題は、高性能ウェアラブル脳波センサーの利用のアイデア出しだ。 BMIに興味があったので参加したかったが、アイデアソン枠が埋まっていたので、ブログ枠の観覧者として申し込んだ。

CREPE(A Convolutional REpresentation for Pitch Estimation)使ってみた

May 3, 2018

畳み込みニューラルネットを使ったピッチ推定手法、CREPEが提案された¹。 PyPIが用意されていて、発話音声にも簡単に適用できそうだったので試してみた。

CycleGANノンパラレル結月ゆかり声質変換やってみた

April 22, 2018

（背景）自分の声を結月ゆかりにしたい。前回はパラレルデータのアライメントが問題になったので、ノンパラレルデータの手法を試したい。
（手法）CycleGANを使ったノンパラレル声質変換を試みた。
（結果）アライメントしなくても聞き取れる音声が生成できた。しかし、言語性を保ちつつ声質変換できるパラメータは見つけられなかった。
（考察）CycleGANを用いて性能の良い声質変換を得るのは難しいと思った。Identity以外のお手頃な制約手法が見つかれば，また挑戦してみたい。

この記事は、技術系同人誌SIGNICO vol.5の掲載記事「CycleGANを用いたリアルタイム結月ゆかり声質変換」の結果音声を中心に載せています。詳しい手法や解説などは同人誌の記事をご参照ください。

VOICEVOXの音声合成エンジンの紹介

ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた

GCPでできるだけ安くディープラーニング

ディープラーニングで歌声音声合成エンジンを自作する

モチベーション

リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

はじめに

「結月ゆかり」とお喋りできるイベントの舞台裏

ディープラーニングの力で人工知能になって結月ゆかりと会話してみた

目次

Brainwave Idea Challenge（脳波アイデアソン）見てきた

CREPE(A Convolutional REpresentation for Pitch Estimation)使ってみた

CycleGANノンパラレル結月ゆかり声質変換やってみた

目次