jaredjoss
/

pythia-410m-roberta-lr_8e7-kl_01-steps_12000-rlhf-model

Text Generation

text-generation-inference

Model card Files Files and versions Community

pythia-410m-roberta-lr_8e7-kl_01-steps_12000-rlhf-model / README.md

jaredjoss's picture

Update README.md

048bc8e verified about 1 year ago

|

history blame contribute delete

463 Bytes

	---
	license: mit
	datasets:
	- jaredjoss/jigsaw-long-2000
	language:
	- en
	---

	lomahony/eleuther-pythia410m-hh-sft model fine-tuned on the jaredjoss/jigsaw-long-2000 dataset using RLHF.

	The following parameters were used to train the model;

	<figure style="width:16em">

	\| Parameter \| Value \|
	\| --------------------: \| ---------: \|
	\| Size \| 410m \|
	\| learning rate \| 8e-7 \|
	\| steps \| 12000 \|
	</figure>