小天管理 发表于 2024年6月28日 发表于 2024年6月28日 早晨看到分就觉得不对,抽空把这两个都跑了一遍 GSM-8K谷歌这宣传资料很明显是用自家微调过的模型打 llama3 的基础模型,脸都不要了全部 bench 都是原汁原味的 pytorch 运行,gemma2 发了个 f32 的 base 我还用 f32 跑的,慢的想死
已推荐帖子