有两个问题想请教一下:1. 关于高质量数据是怎么进行“质量”度量的? 2. rl时朝哪个方向优化回复质量呢?(区别数学/代码的非标准答案任务)
· Sign up or log in to comment