lucadellalib
/

focalcodec_12_5hz

Model card Files Files and versions Community

focalcodec_12_5hz / README.md

lucadellalib's picture

Add library_name (#1)

6c25ae7 verified 9 days ago

|

1.53 kB

	---
	license: apache-2.0
	base_model:
	- microsoft/wavlm-large
	pipeline_tag: audio-to-audio
	library_name: torch
	datasets:
	- mythicinfinity/libritts
	---

	# ⚡ FocalCodec

	A low-bitrate single-codebook 16 kHz speech codec based on [focal modulation](https://arxiv.org/abs/2203.11926).

	This repository contains the 12.5 Hz checkpoint trained on LibriTTS 960, as described in the preprint.

	- 📜 Preprint: https://arxiv.org/abs/2502.04465

	- 🌐 Project Page: https://lucadellalib.github.io/focalcodec-web/

	- 💾 GitHub: https://github.com/lucadellalib/focalcodec

	<img src="focalcodec.png" width="700">

	---------------------------------------------------------------------------------------------------------

	## ▶️ Quickstart

	See the readme at: https://github.com/lucadellalib/focalcodec

	---------------------------------------------------------------------------------------------------------

	## @ Citing

	```
	@article{dellalibera2025focalcodec,
	title = {{FocalCodec}: Low-Bitrate Speech Coding via Focal Modulation Networks},
	author = {Luca {Della Libera} and Francesco Paissan and Cem Subakan and Mirco Ravanelli},
	journal = {arXiv preprint arXiv:2502.04465},
	year = {2025},
	}
	```

	---------------------------------------------------------------------------------------------------------

	## 📧 Contact

	[[email protected]](mailto:[email protected])

	---------------------------------------------------------------------------------------------------------