声優統計コーパスWaveNetプロジェクトその2 問題設定編
はじめに
こんにちは、@dhgrsです。
本記事は、声優統計コーパスWaveNetプロジェクトの問題設定確認編です。
プロジェクトについて
自分でも何がやりたいのかブレてきているので、改めて整理したいと思います。
研究室の先輩が作った声優統計コーパスをもっと広めることが一番の目的です。最近はVTuberの爆発的人気もあり、デップラチョットデキル層の声質変換の需要が増していると思います。もちろんそのためにはデータセットが必要です。そこで登場するのが声優統計コーパスです。しかし、このデータセットを音声合成の学習に使うにあたって、いくつか問題があります。それを解消することで、声優統計コーパスをもっと広めることを実現しようというわけです。
いくつか問題があると言いましたが、その1つがアライメントがないことです。アライメントとは、何秒から何秒は「あ」と話していて、次の何秒から何秒は「い」と話しているといった情報のことです。これがあれば、入力をアライメント、出力を波形とすることで音声合成モデルを学習させることができます。このプロジェクトでは質の高いアライメントを付けることで、目標達成とすることにします。
また、プロジェクト名に入れているWaveNetですが、これはアライメントが正確に付けられていることを確認するため、くらいの認識でいます。
現状達成しているアライメントの精度
以前の記事でも書きました通り、これまではJuliusを使ってアライメントを付けていました。しかし、いくつかの音源でアライメントを確認してみると、結構ミスが多いことに気付きました。これはいかんと思って困ったまま、しばらく手を付けられず...というのがこれまでの進捗です。とりあえず現状のアライメントのままWaveNetを学習してみてもいいのですが、個人的にはもう少し精度の高いアライメントを付けたいと思っているところです。そこで現在考えている手法を2つ紹介します。
手法1 人手によるアライメント付与
思考停止な手法ですが、時間さえ掛ければ納得のいくアライメントを付与することができます。900文のアライメントを1人で付けるのはちょっと気が進まないので、協力してくれる方が複数名いるようならやってみようかと思います。研究のために必要とかならつべこべ言わずにやるべきだと思いますが、あくまで趣味の範疇ですので、今回はパスで。
手法2 Deep Voiceの追試
すっかり存在を忘れていましたが、baiduからDeep Voiceという手法が(現在ver.3まで)発表されています。このver.1では、今回僕がやろうとしているようなアライメントの付与->音声合成の学習というステップを踏んでいます。というわけで、次はまずDeep Voiceの追試をしてみようと思います。
さいごに
今まではブログ記事はうまくいったことのまとめ記事を多く書いていましたが、今回のように試行錯誤している様子を記事にしながら、読者のみなさんにアドバイスをもらうのも良いなと感じています。こうすると良いよとかアドバイスお待ちしています。