AI 摘要

硅基流动以低成本的大模型服务而闻名,提供开源模型的调用,然而在使用中常让人感觉其模型性能弱于官方正版。为验证硅基流动提供的模型性能,进行了对比测试实验。实验结果显示,硅基流动和官网模型在多个题目的表现接近,最终得出结论:硅基流动提供的模型性能与官网模型基本一致,证明该平台虽然提供的模型种类繁多,但质量值得信赖。

洞见

硅基流动以提供低成本的大模型服务成名,以提供开源模型的调用服务为主要业务,但提供的模型很多很杂,会给人一种不专业和会偷工减料的感觉。

博主就曾认为硅基提供的大模型是过度量化后的模型,此篇文章用于验证硅基提供的开源模型是否真的弱于官网模型

结论:硅基流动提供的模型性能和官网模型基本一致


简介

硅基流动是提供开源ai模型调用的平台

但在使用中,总觉得硅基流动提供的模型性能弱于官方正版模型

在此基础上,执行对比测试实验。

实验

若不在乎实验过程,可直接跳转到结论

实验条件

为保证实验结果可复现,本次调用 api 时,模型温度调至 0.1

使用 cherry studio 的对比模式进行测试,保证在调用模型api时参数一致

模型初始分数为0分,每答对一题加1分

ollama qwen2.5:14b-Instruct q6量化 对比 硅基 qwen2.5:14b-Instruct

数字卡片

题目:

假设你有一组由数字 (1) 到 (9) 组成的卡片各一张。你的任务是从这些卡片中选择三张,使得这三张卡片的数字组合成一个三位数,并满足以下条件:

  1. 这个三位数必须是一个质数。
  2. 从三张卡片中的任何一张数字开始,开始轮转,所得到的三位数也必须是质数。

问题:你可以选择哪三张卡片来满足上述条件?

本题答案:卡片 1 , 9 , 7

测试结果

两个模型答案都正确

分数情况

模型ollama qwen2.5:14b硅基 qwen2.5:14b-Instruct
得分11

半导体物理

题目:

有一块n型硅样品,寿命是1us,无光照时的电阻率是10Ω·cm。今用光照射该样品,光被半导体均匀吸收,电子一空穴对的产生率是 ,试计算光照下样品的电阻率,并求电导中少数载流子的贡献占多大比例?

答案:电阻率为0.32左右,少数载流子贡献占26%左右 (因迁移率未统一,故允许答案可以一定上下浮动)

测试结果:

两个模型答案都错误

分数情况

模型ollama qwen2.5:14b硅基 qwen2.5:14b-Instruct
得分11

概率统计

题目:

例6将5名实习教师分配到高一年级的3个班实习,每班至少1名,最多2 名,则不同的分配方案有().(2006年 重庆卷)
(A)30种(B)90种(C)180种(D)270种

答案:B 90种

测试结果

硅基流动正确,ollama错误

得分情况

模型ollama qwen2.5:14b硅基 qwen2.5:14b-Instruct
得分12

笑话测试

题目:

骑着电动车回家,在无人的巷子里飙车。突然对面冲出一个大叔,也骑的飞快。眼看就要撞起了。大叔吼道:"你左!我右!"这个笑话的笑点在哪里?

答案:在两个人面朝行驶时,如果一个人朝左另外一个人朝右就会撞到一起

测试结果

两个模型都错误

题目:

甲:保护我方大爷!乙:为什么只保护方大爷?韩大爷就不需要保护了吗?

答案:将我方中的方,理解为姓氏中的方造成误解

测试结果

​两个模型都错误

得分情况

模型ollama qwen2.5:14b硅基 qwen2.5:14b-Instruct
得分12

逻辑测试

题目:

下列选项中,找出与众不同的一个:

1.铝 2.锡 3.钢 4.铁 5.铜

答案:3.钢,因为钢不是元素

测试结果

两个模型都正确

得分情况

模型ollama qwen2.5:14b硅基 qwen2.5:14b-Instruct
得分23

知识测试

题目:

屏蔽常数计算 slater方法的运算规则。

答案:Slater方法是一种估算原子或分子中电子屏蔽常数的近似方法,通过将电子按能级分组,并依据特定规则计算每组电子对目标电子的屏蔽效应,从而得出目标电子的有效核电荷。具体规则为:对于ns和np电子,同组电子贡献0.35(1s组为0.30),(n-1)组电子贡献0.85,(n-2)组及更内层电子贡献1.00;对于nd和nf电子,同组电子贡献0.35,(n-1)组及更内层电子贡献1.00。最终,通过原子序数减去总屏蔽常数,得到目标电子的有效核电荷,帮助理解和预测电子的能级和化学性质。

测试结果

两个模型都不正确

得分情况

模型ollama qwen2.5:14b硅基 qwen2.5:14b-Instruct
得分23

多语言测试

题目:

喜びがあなつのならあ 这句话是什么意思?

答案:这句话的意思是:“如果你感到快乐的话”。

测试结果

两个模型都正确

模型ollama qwen2.5:14b硅基 qwen2.5:14b-Instruct
得分34

实验结论

硅基流动提供的模型性能和官网模型基本一致

在上述实验中,两个模型的表现较为接近,语言风格也很类似,知识含量也非常接近,

总结

硅基流动是一个可信任的平台,里面提供的虽然很多很杂,质量不错。