小天管理 发表于 6月28日 Share 发表于 6月28日 早晨看到分就觉得不对,抽空把这两个都跑了一遍 GSM-8K谷歌这宣传资料很明显是用自家微调过的模型打 llama3 的基础模型,脸都不要了全部 bench 都是原汁原味的 pytorch 运行,gemma2 发了个 f32 的 base 我还用 f32 跑的,慢的想死 引用 意见的链接 分享到其他网站 More sharing options...
已推荐帖子
加入讨论
您现在可以发表并稍后注册. 如果您是会员,请现在登录来参与讨论.