Spaces:

Akjava
/

Matcha-TTS-Japanese

Running

File size: 3,646 Bytes

---
title: Matcha TTS Japanese
emoji: 🏃
colorFrom: indigo
colorTo: red
sdk: static
pinned: false
license: mit
---

<div style="height: 15px;"></div>

# Match-TTS-Japanese Spaces
a not official fork of matcha-tts for japanese language.

some onnx codes help english-tts

## Difference
- Focus on Japanese Language
- Focus on onnx
- Focus on Dataset/Model

# Matcha-TTS 日本語
 Matcha-TTSは比較的新しいTTSエンジンです。
 これからのAIには音声合成機能は欠かせません。TTSの最重要項目はデータセットです。エンジンはデーターセットほど品質で違いは生み出せません。
データーセットから作成したモデルが揃っていれば、知名度が低くても十分です。
そしてMatcha-TTSは速度・容量・ライセンス的に、実用性においては他と比べて大きく劣る要素はありません。

## 違い
- 日本語特化 - (そのうち、クリーナーを組み込みます)
- Onnx特化 ブラウザーとUnity(C#)
- データー/モデル を作ります

## モデル
出来そうな気もするけど、シングルとマルチスピーカの変換の仕方はわかりません。
正直、シングルがずば抜けて品質がいいわけではなく、サイズ的な違いは少なく、話者100人と1人だと、マルチスピーカーの方がお得感があるので、話者の数が少なくてもマルチスピーカーの訓練を主にしています。
　ただ、まだまだ、研究中です。最終的にはシングルでトレーニングしたのをコーパス出力して、それをマルチスピーカーで結合するのがいいかと思っています。
### Speakerの違い
#### Single Speaker 
- ほぼすべてLJSpeechをベースです。(ライセンス的な制限もありませんし。音質の変化も感じません)
#### Multi Speaker
- VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
- 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
### 最終品質

音質とイントネーションのバランスで苦労しています。

- 音素が揃っている大型モデル(Large/Huge)を単独でトレーニングすると、音質はいい。ただしイントネーションは怪しい
- 混ぜたり、Fine-Tuneするとイントーネーションはよくなるが、音質は悪くなる
- カリキュラム学習がうまくいっているのか、長文の分解で失敗しているのか不明

品質検出ツールがない

- ある程度トレーニングすると大抵CERは高品質。ただしCERは、たどたどしい、ゆっくりな日本語やRobotic音声にも、満点を与えるので、単独で評価できない
- Roboticな出力はMore-all 出力すればある程度わかります。（人間が聞く必要あるけど)
- 一部のコーパス出力でもイントネーションを比べることは出来ますが(人間が聞く必要あるけど) 完全なカバーではない。
- 
### Phonemize
Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。

- openjtalk-g2p - デフォルトで使用しています。(Phonemize/Cleanerを明記していない限りこれです。)ただし、ブラウザーで使えない(OpenJtalkがない)
- julis-segmentation - Conqui-TTSもデフォルトはこれだったような。シンプルだけど、ブラウザーで使えそう (kuromoji.jsがある)