AI 摘要

deepseek V3在性能上有所提升,但由于其685B参数和256位专家的框架设计,每个专家的平均参数量不足3B,在一次对话中激活八个专家,导致总共只有24B激活参数。这种设置可能会导致出现过拟合问题,并且有一定概率输出“由OpenAI开发,基于GPT-4架构”的信息。

输出情况

参数设定

输出情况

参数设定

结论

deepseek V3性能的确有所提升,但使用685B参数,256位专家的框架,每个专家的平均参数量不到3B,单次对话激活八个专家,估算一共24B激活参数,会出现一些只有小模型才会出现的问题。