metadata

title: Matcha TTS Japanese
emoji: 🏃
colorFrom: indigo
colorTo: red
sdk: static
pinned: false
license: mit

Match-TTS-Japanese Spaces

a not official fork of matcha-tts for japanese language.

some onnx codes help english-tts

Difference

Focus on Japanese Language
Focus on onnx
Focus on Dataset/Model

Matcha-TTS 日本語

Matcha-TTSは比較的新しいTTSエンジンです。これからのAIには音声合成機能は欠かせません。TTSの最重要項目はデータセットです。エンジンはデーターセットほど品質で違いは生み出せません。データーセットから作成したモデルが揃っていれば、知名度が低くても十分です。そしてMatcha-TTSは速度・容量・ライセンス的に、実用性においては他と比べて大きく劣る要素はありません。

違い

日本語特化 - (そのうち、クリーナーを組み込みます)
Onnx特化ブラウザーとUnity(C#)
データー/モデルを作ります

モデル

出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。正直、シングルがずば抜けて品質がいいわけではなく、サイズ的な違いは少なく、話者100人と1人だと、マルチスピーカーの方がお得感があるので、話者の数が少なくてもマルチスピーカーの訓練を主にしています。　ただ、まだまだ、研究中です。最終的にはシングルでトレーニングしたのをコーパス出力して、それをマルチスピーカーで結合するのがいいかと思っています。

Speakerの違い

Single Speaker

ほぼすべてLJSpeechをベースです。(ライセンス的な制限もありませんし。音質の変化も感じません)

Multi Speaker

VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。

品質

結果的に、イントネーションが怪しいものが多数です。

Phonemize

Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。

openjtalk-g2p - デフォルトで使用しています。(Phonemize/Cleanerを明記していない限りこれです。)ただし、ブラウザーで使えない(OpenJtalkがない)
julis-segmentation - Conqui-TTSもデフォルトはこれだったような。シンプルだけど、ブラウザーで使えそう (kuromoji.jsがある)