输出情况

参数设定

输出情况

参数设定

结论
deepseek V3性能的确有所提升,但使用685B参数,256位专家的框架,每个专家的平均参数量不到3B,单次对话激活八个专家,估算一共24B激活参数,会出现一些只有小模型才会出现的问题。
发布于 2024-12-26
输出情况
参数设定
输出情况
参数设定
deepseek V3性能的确有所提升,但使用685B参数,256位专家的框架,每个专家的平均参数量不到3B,单次对话激活八个专家,估算一共24B激活参数,会出现一些只有小模型才会出现的问题。
Comments NOTHING