YuEの4bit量子化+onnx形式への変換モデルです。

ベースモデル
m-a-p/YuE-s2-1B-general
上記のモデルを4bit量子化とonnx形式へ変換したモデルです。
性能劣化がありますのでご注意ください。

githubにて、このモデルを使用したツールを作成中です。
YuE-q4onnx-win

変換方法

Generate models using Model Builder
https://onnxruntime.ai/docs/genai/howto/build-model.html
適当なフォルダに仮想環境を作り、onnxruntime(optimum)とonnxruntime-genaiをインストールします。
私はwindows11+python 3.10で実行しました。
また、pwshを使用していますので、コマンドプロンプトの場合は適当に読み替えてください。

python -m venv venv
venv\Scripts\activate
# linuxなら↓
venv/Script/activate

pip install optimum[onnxruntime]
pip install --pre onnxruntime-genai

python -m onnxruntime_genai.models.builder -m m-a-p/YuE-s2-1B-general -o ./onnx_models/YuE-s2-1B-general-onnx-q4 -p int4 -e cuda -c ./models/
curl https://huggingface.co/m-a-p/YuE-s2-1B-general/resolve/main/config.json?download=true > ./onnx_models/YuE-s2-1B-general-onnx-q4/config.json
Downloads last month
24
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.

Model tree for siouni/YuE-s2-1B-general-onnx-q4

Quantized
(12)
this model