samitizerxu
/

Qwen2.5-R1-Distill-GRPO-h

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Qwen2.5-R1-Distill-GRPO-h / train_results.json

samitizerxu's picture

Model save

4c7f5a8 verified 13 days ago

history blame contribute delete

201 Bytes

	{
	"total_flos": 0.0,
	"train_loss": 4.045824278607414e-05,
	"train_runtime": 33605.9584,
	"train_samples": 127,
	"train_samples_per_second": 0.004,
	"train_steps_per_second": 0.001
	}