deepseek v3存在过拟合问题，并且有概率输出“由OpenAI开发，基于GPT-4架构”

发布于 2024-12-26

AI 摘要

deepseek V3在性能上有所提升，但由于其685B参数和256位专家的框架设计，每个专家的平均参数量不足3B，在一次对话中激活八个专家，导致总共只有24B激活参数。这种设置可能会导致出现过拟合问题，并且有一定概率输出“由OpenAI开发，基于GPT-4架构”的信息。

输出情况

参数设定

输出情况

参数设定

结论

deepseek V3性能的确有所提升，但使用685B参数，256位专家的框架，每个专家的平均参数量不到3B，单次对话激活八个专家，估算一共24B激活参数，会出现一些只有小模型才会出现的问题。

查看评论 - NOTHING

Comments NOTHING

暂无评论

取消回复

Markdown Supported while Forbidden

你是我一生只会遇见一次的惊喜 ...

戳我呀 OωO 嘿嘿嘿ヾ(≧∇≦*)ゝ

bilibili~	Tieba	(=・ω・=)

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

bili_smilies

浙ICP备2024056246号