OuteAI
/

wavtokenizer-large-75token-interface

Model card Files Files and versions Community

wavtokenizer-large-75token-interface / README.md

edwko's picture

Update README.md

8359810 verified 4 months ago

|

history blame contribute delete

521 Bytes

	---
	license: mit
	---

	This is a streamlined interface version of [WavTokenizer-large-speech-75token](https://huggingface.co/novateur/WavTokenizer-large-speech-75token/tree/main), providing a way to interact with the model through separate encoder and decoder components.

	- Reduced model size from 1.75GB to ~330MB by keeping only necessary components for inference
	- Split interface (82MB encoder, 248MB decoder)

	The model is split into:
	- `encoder/`: Handles audio encoding
	- `decoder/`: Handles decoding and synthesis