経歴だけは長いベテラン記者・編集者の松尾(マツ)と、幾つものテック系編集部を渡り歩いてきた山川(ヤマー)が、ネット用語、テクノロジー用語で知らないことをお互い聞きあったり調べたりしながら成長していくコーナー。交代で執筆します。
マツ 来ましたね。音声合成の時代が。
ヤマー 音声合成ソフト、昔から存在していて息が長い領域だと思ってたんですが、ここ最近立て続けに新作が発表されましたね。
マツ 「VOICEPEAK」と「CeVIO Pro」、この2つの発表にはいくつかの共通点があるんですね。
ヤマー なるほど、読み上げと歌声の違いはありますが。
マツ 歌声合成と音声合成には共通する技術基盤があるんですよ。多くは音声・歌唱のどちらもできるようになっています。商品としては別個になっていても。
ヤマー あ、ベースは読み上げも歌声も同じなんですね。
マツ そこに音程を乗せるかどうかの違いだけ、という簡単なものではないですけどね。CeVIOは最初から歌声・音声の両方を1パッケージにしてました。ただし、2月24日にα版が無償公開されるCeVIO Proについては明言されているのは歌声合成のみ。音声合成については記載されていないので、まだ分からない。
ヤマー VOCALOIDは今も歌声特化なんですね。
マツ おしゃべりのための、Text to Speach(TTS)機能は持っていません。「AI美空ひばり」で「セリフ」はありましたけど、それはもともとVOCALOIDが持っていた機能ではない。
Macに対応
ヤマー それ以外の共通点とは?
マツ 歌声合成にしろ、音声合成にしろ、従来はWindows先行で、Mac版はほとんどなかったんです。
ヤマー 今回、会社は違いますが確かにどちらもMac版がありますね。
マツ 商用ソフトでMac版があるのはずいぶん長い間VOCALOIDくらいで、それにしても相当長く待ち望んでやっと出てきたもの。2007年に初音ミクが登場しましたが、VOCALOIDがMacで使えるようになったのはその6年後の2013年です。
その同じ年、2013年にはCeVIOの最初のバージョンが出たのですが、これはWindows版のみ。僕はiMacとBoot Campで使っていました。
歌声合成では2020年に「Synthesizer V」が出て、これにはMac版もありましたが、「Macで歌声合成」は長い間、選択肢がほとんどない状態だったわけです。
これが音声合成となるとさらに少なくて、多彩なバリエーションを持つ商業製品としては皆無といってよかった。フリーウェアでは、CeVIOを開発した名古屋工業大学の方々が開発したOpen JTalkを使った「SHABERU」があり、僕の声を音声合成の音源にしたりしているんですが(笑)
2018年からは、自分の声だったら、iPhoneで手軽に作って自分で使うこともできるようになりました。
それで、VOICEPEAKのMac版が出るって言ったときに思わず声を上げたくらい。そしたらその翌日、CeVIOの進化版であるCeVIO ProもMac版が出るという。CeVIOが最初出たときに、Mac版作ってくださいとお願いしてから9年か……。
CeVIO Proのデフォルトボイスライブラリとデモソングも出ました。「知声」(Chis-A)というキャラクターです。これが無料で商用制限ほぼなしなんですよ!(サンプリングして販売とかはダメ)
ヤマー (めっちゃ語るな……) これ、なぜ今までMac版がなかったんですか?
マツ 単純にリソースの問題かと思います。
ヤマー 開発リソースってことですかね? スタッフ不足と。
マツ そうですね。まあMacユーザーの比率が少なかったというのもありますが。
ヤマー ソフトウェアあるあるですね。
マツ 今回Macに対応した背景として考えられるのは、VOICEPEAKをAHSと共同開発しているDreamtonicsは「Synthesizer V」という歌声合成ソフトを作っていて、これにはMac版もあるから、開発できる基盤があったとはいえるでしょうね。
ナレーターの仕事は減っちゃう?
ヤマー そういえば、今回の2つのプロダクトは技術的に何か新しい要素ってあるんですか?
マツ 技術的にはどちらもAIを使っています。そのために非常に人間に近い、リアルな表現が可能になっています。
ヤマー 声を聴いたらリアルすぎてたまげました。
マツ 特に、イントネーションの自然さは格段に上がった感じがありますね。
ヤマー これまでAIはあまり使われていなかったんですか?
マツ CeVIOの最初のバージョンは隠れマルコフ(HMM)という、確率モデルを使って推定する技術を使っていたんですが、それを2020年の「CeVIO AI」からCNNやRNNという機械学習技術に置き換えていった。
ヤマー ベースごと作り替えたんですね。
マツ VOICEPEAKとSynthesizer Vは最初からAI技術を使っていた、新しい世代のものですが、技術的にはどちらが優れている、ということはもう言えないレベルではないかなと。
ヤマー なるほど。VOICEPEAKの出来を見ると、本当にナレーターの仕事減るんじゃないかと思いまして。1万6000円で商用利用可能、しかも7つの声があるじゃないですか。
マツ それで十分という場合にはもう、それでいいですよね。まあ、そこがこれまでの大きな課題だったんです。音声合成の中の人だったり、技術の権利を守るために、これまでは商用利用が禁じられていたり、高額なライセンス料金が別途必要だったり、使えてもあえて音質を下げたりしていたんです。
ヤマー あくまで個人ユースに限るってことですかね。
マツ そうですね。それが、今回はその制限が取り払われた。VOICEPEAKは、1万6000円で購入しさえすれば、その音源に限っては無制限。
ヤマー 制限撤廃、ユーザーとしてはありがたいですが、本職の声優・ナレーター側からの反応が気になるところですね。それこそ、制限されていたわけですし。
マツ その問題は、最初のVOICEROIDが出た2009年の時点で指摘されてましたが、その後は自分たちの声が売り物になるということで、徐々に広まってきました。だからといって、世の中の全ての声がこの7人で全てまかなえるわけではなく、サードパーティーで、VOICEPEAKに提供すると明言しているところもあるので、そこは有償で販売するのではないでしょうか。その場合には商用ライセンスについては別契約になる可能性もあるかもですね。ちなみにこの7人は、全員が声優事務所のぷろだくしょんバオバブに所属しているんですね。
VOICEPEAKを使ってみた
ヤマー しかし、AHSはVOICEPEAKとCeVIOを両方売って、さらに音声合成ではVOICEROIDもやってて混乱しました(CeVIOの開発自体はテクノスピーチですが)。
マツ 最初にこのジャンルに進出したときはVOCALOIDとVOICEROIDで、その後はCeVIOI AI、Synthesizer Vの音源販売までやっている。いつの間にか歌声合成、音声合成の総合商社になってますよね。
で、このVOICEPEAKのβ版をお借りして使ってみたのです。
ヤマー さっそく!
マツ 残念ながらまだMac版がなかったので、Windows版でしたが、シンプルなユーザーインタフェースで、使いやすかったです。女性1、2、3、男性1、2、3と女の子の7人を、切り替えながら使える。個別のイントネーション設定もできるので、このアプリだけで自然なナレーションができます。
エクスポートする音声も48kHz。すごいですよね。例えば僕らの会話の中に、これを混ぜてもぜんぜん不自然にはならない。
ヤマー 真ん中に読ませたいテキストを入れて、声色は右側のコントロールパネルで、下に各文字のイントネーションを調整できるパネルがありますね。
マツ 感情パラメーターや、速さ、ピッチなども個別に変更できます。
ヤマー 幸せ、楽しみ、怒り、悲しみもそれぞれいじれると。
マツ この辺りは以前から、CeVIOは初代からあったものですが。
ヤマー そうなんですね。記事のコメントを読んでいたら、動画のナレーションVRChatの会話に使いたいって声が結構見られました。自分の声にコンプレックスがあっても、VOICEPEAKに喋らせるって選択肢が使えるのでいいですね。
ちなみに、マツさんはβ版で何を喋らせたんですかw
マツ とりあえずこの会話をしゃべらせようと。
ヤマー 自分の発言がイケボイスで再生されてしまうw 男性2でお願いします(抜けた感じの声が好みでした)
マツ 了解です。女性2にしておきますw
ヤマー それはそれでありです!!
マツ この記事を公開した直後に、AHSの尾形友秀社長から、Mac版の体験版を公開したとの連絡をいただきました(Linux版もあります)。この動画で使ったプロジェクトファイルをMac版に読み込んだところ、そのまま問題なく動作。画面構成はほとんど同じでしたが、MacのCore Audioが使え、オーディオインタフェースに合わせたサンプリングレートの変更も可能になってました。これは素晴らしいです。
関連記事
2022-02-21 08:18:00Z
https://news.google.com/__i/rss/rd/articles/CBMiPGh0dHBzOi8vd3d3Lml0bWVkaWEuY28uanAvbmV3cy9hcnRpY2xlcy8yMjAyLzIxL25ld3MxMjUuaHRtbNIBAA?oc=5
No comments:
Post a Comment