歪歌社团官方网站(搞笑视频集中地)联系我们请加QQ:1148591215。——临沂歪歌文化传媒有限公司线上自媒体平台

 找回密码
 立即注册
搜索

3247

帖子

3963

会员

0

论坛今日发帖

1

论坛昨日发帖

10

当前在线会员

645

历史最高在线

0

日志

0

相册

24

图片

0

分享
查看: 721|回复: 0

百分制AI测试题:“deepseek”对比“豆包”,谁更强?

[复制链接]
发表于 2025-2-7 23:42:16 | 显示全部楼层 |阅读模式



请点击上方画面观看视频,如果无法观看,可以点击以下“备用视频链接”:
https://tv.sohu.com/v/dXMvOTMxNzA0NzAvNjE2MjA4MzE2LnNodG1s.html
如果想联系我们请加QQ:1148591215  或者 微信:waigeshetuan




今天我们来测一下最近很火的DeepSeek
还是拿9月分的那一套测试题
和第二轮的冠军豆包
进行测试
规则还是和以前一样
答对加满分
拒绝回答不得分
理解错了扣一半
先看第一题
0.9和0.10哪个大
正确答案是0.9大
首先我们先看一下  豆包
加1分
来看一下  DeepSeek
现在深度思考和联网搜索
都已经打开了
不行  有点慢
再发一下试试
再看一下
一直在思考
这也太慢了
只能把联网搜索关掉了
现在再看一下
也还是特别的慢
太慢了
去掉联网搜索是可以了
有点啰嗦
可以确定它是对的
它也加1分
第二题
端午节  最初是用于纪念谁的?
答案是  伍子胥
容易错成屈原
豆包说了很多种版本
有屈原  也有伍子胥 等等
但是它忽略了最初这个词
这个就属于理解错了
0.5分
来看一下DeepSeek
怎么服务器又繁忙了
重新来一次
这次再把联网搜索打开
它好用不好用暂且不说
真是太慢了
还是说服务器繁忙
那看样子就是
不能打开  联网搜索
联网搜索  关掉
这次再问
不行又出现这个提示了
服务器繁忙
那这样把  深度思考
也关掉
虽然说挺啰嗦
但是
能看一下它的思路也挺好的
它先是提到了屈原
但又说好像也是和伍子胥有关
伍子胥又是干啥的等等
由于技术原因
联网搜索暂不可用
那我们就关掉了
省得一会再崩溃
也给它一半的分
因为它们总是忽略
最初
这两个字
审题不严谨
打火机和火柴哪个最先发明
正确答案是  打火机
豆包是答对了
加1分
怎么老出现  服务器繁忙
重新再问一次
也还是不行
再刷新一次
再重新来一次
还是不行
那只能把深度思考关了
去掉联网搜索和深度思考
它完全就是傻子呀
它说火柴比打火机更早发明
具体原因是火柴可以追溯到19世纪初
1826年
早期的打火装置可以追溯到16世纪
这些是没问题的
这也可以证明打火机更早
但是呢它又说
是由奥地利的谁谁谁在1903年发明的
它说的这不前后矛盾吗
这样弄是不行的呀
最起码还是得打开深度思考呀
在它思考的同时
我去用手机看一下
看一下手机上的它
现在两者都打开的
也是不行
也是服务器繁忙
联网搜索肯定是不行了
它已经提示了技术问题
那我们就一直开启深度思考
一直是尝试
还是不行
再试一次
不行服务器繁忙
那再改变一次
这深度思考和联网搜索
我们就不打开了
打火机的这个问
题它就扣1分了
刚才它已经回答过了
它现在0.5分
下一个问题
造纸术是蔡伦发明的吗
正确答案  是它改良的
豆包  加1分
这位大哥还是可以的
加1分
日本法律明确规定的首都是哪里?
正确答案是
它没有首都
容易错成  东京
豆包  加1分
现在大哥也对了
加1分
下一轮  挖坑测试
为什么截止到现在
一直没有中国籍的人
获得诺贝尔数学奖
正确答案是
诺贝尔不存在数学奖
豆包  加两分
大哥  加两分
下一题
根据新闻报导
临沂市小学生费毛腿百米赛跑
跑出了3秒14
但它说和前辈相比还是太慢了
这则新闻是不是真实的报道
答案为  不是
因为人不可能跑出这个速度
豆包  加两分
大哥  加两分
第三题
在2017版《射雕英雄传》当中
李一桐出演的郭芙第几集出场?
正确答案为  李一桐演的是黄蓉
而且《射雕英雄传》当中
也没有郭芙
豆包  加两分
大哥  加两分
第四题
沙和尚在遇到唐僧之前
名字叫沙悟净
这个沙悟净只是他的法号
而卷帘大将是他的职务
我也不知道他叫什么
豆包  加两分
大哥  加两分
第五题
煮豆燃豆萁  豆在釜中泣
是历史上的曹植写的吗?
正确答案为  是罗贯中写的
这个出自于《三国演义》
煮豆持作羹  那个版本
出自于《世说新语》
实际上曹植根本就没有写过
豆包  扣两分
现在大哥也错了
扣两分
第三大题
逻辑推理
第1题
如果0.01个积分是1块钱?
那么1块钱总共多少个积分?
100块钱又是几个积分?
答案是0.01个积分和1个积分
豆包  扣两分
大哥的表现还是不错的
这一题  在上一轮测试
AI已经全军覆没
换句话说
这是我遇到的
第一个能把这个问题答对的AI
果断得  加两分
第二题
小树每天长两米
大树每天长9米
它们都可以无限长下去
但是大树每超过90米
就会被人为的砍到85米
它们谁先长到100米
答案是小树
豆包  加两分
大哥  加两分
第三题
压缩率越高  压缩后的文件越大还是越小?
90%和10% 的压缩率哪个高?
把100GB的文件压缩到90GB和10GB
压缩率分别是多少?
90GB和10GB哪个大?


这些问题  总共是两分
在上一轮测试AI的时候
这道题也是
导致AI全军覆没
豆包是混淆了  压缩和被压缩的关系
扣两分
大哥确实是厉害呀
这个问题答对了
现在都6分了
确实有两把刷子
下一题
如果国足有一种神奇的能力
每场比赛都确定1:0获胜
那么它们参加世界杯
能不能成为世界杯冠军
答案是  肯定能
豆包加两分
这就是上一轮第一名实力
现在已经被大哥拉了5分了
大哥表现也不错
加两分
领先豆包7分
第四大题
知识量测试
第1题
全亚洲单体面积最大的大学是哪里
答案是临沂大学
豆包  加两分
这个不就是完全理解跑题了吗
得一半的分
关于古代的职业  车船店脚牙
下一句是什么
答案是  无罪也该杀
豆包加两分
又出现问题了
不让发了
说发送消息过快
限制也太多了
再刷新一次
开启新对话
重新发一下试试
还是不行
等了有几分钟
现在又可以了
大哥  加两分
第三题
亚洲若有一支足球队获得世界杯冠军
一定是中国男足
是谁说的
答案  日本足球之父
豆包是说对了
加两分
大哥说错了
扣两分
第4题
歪歌社团  成立于哪一年几月份?
社团内的成员有哪些?
答案是  2011年4月份
成员有很多人
其中核心成员有10个
按照加入的顺序
也就是我
古月
温柔
晗语
冰棒
益发和
思小玥(猪哈)
心如止水
傲月一狼(杨琦)
雨恨云愁
具体看它回答的内容
再判定是不是给它分
豆包回答的看着还可以
加两分
乱编呀  而且好多人都是一个名字
是不是卡了
现在我们试试它联网搜索
是不是能用了
还是不能行
后面涉及到网络的问题
所有的都算它对
这样就给它加两分
第五题  武当七侠是哪七个人?
谁在张无忌成为教主之后
被打的卧床不起?
答案是
宋远桥
俞莲舟
俞岱岩
张松溪
张翠山
殷梨亭
莫声谷
卧床不起的是  殷梨亭
容易错成 俞岱岩
豆包  加两分
怎么又服务器繁忙了
开启新对话
重新发一次
不行
试了很多次了
一直这样
不是转圈
就是走在转圈的路上
多试几次
第一个  问题回答的是对的
但是第二个问题
它说俞岱岩被打的
这个是易错的一个地方
扣两分
下一题
同时出演过2019版《倚天屠龙记》
和《宝莲灯》的
加一个前缀
央视版电视剧《宝莲灯》的演员是谁
严谨一些
答案是  陈创
演过韦蝠王 和哮天犬
它直接把我说蒙了呀
陈创  这个答案是有的
但是后面它说了
还有一个杨明娜 宗峰岩
这两个人我没印象
搜一下
好像是真的耶
厉害
杨明娜  是错误的
她演的那个叫《天地传说之宝莲灯》
在里面演了一个妖精
画蛇添足
它如果说不说这个人
哪怕只说第一个人
它就是满分
那现在
扣两分
deep sick这个就是胡扯了
它说演丁香的那个人
在2019版《倚天屠龙记》中演了殷素素
但实际上
演殷素素的那个演员叫 陈欣予
扣两分
第五大题
创造性
现在每题是4分了哈
第1题
以 消费降级  为主题
填一首《卜算子》
豆包写的是
昔日奶茶欢
精选平替款
物价攀升钱包扁
生活愁思漫
大牌远尘嚣
平价常相伴
精打细算度时光
期待风云转
这不错的
加4分
希望大哥这次不要再出岔子了
昔日宴高楼
今日餐街角
玉盘珍馐渐成空
清粥添咸齹
囊中金渐少
心头忧难消
繁华落尽见真淳
淡饭亦逍遥
也算它写出来了吧
加4分
下一题
重编《三打白骨精》
要求由语言描写  心理描写
不低于1000个字
和原版情节必须有很大的出入
不能续写
必须是从头改编
4分
达到字数了
再看后面那些能不能符合要求
豆包  写完了
总共是  1446个字
字数是符合要求的
但是它的故事和原版改编并不大
情节差不多
只不过最后没有念紧箍咒
仅此而已
那就给它加一半的分
也就是  加两分
来看看它总共多少个字
1565个字
写的内容也还可以
第三题
改编  苍茫的天涯是我的爱
绵绵的青山脚下花正开  这句歌词
要押韵
字数一致
可能我问的这个问题是有漏洞的
我现在又加了一句
不能明显出现和原句相同的词汇
尤其是  的
那它就扣4分啊
都有 的
扣4分
大哥  字数都对不上
扣4分
第四题
取一个四字网名
要求第二  第三个字的拼音首字母必须是m z
这个也是4分
豆包取了三个网名
第一个不符合要求
扣4分
大哥  扣4分
第五题
请说一句字数为11个汉字的话
要求必须是简写中文
且标点符号不能算在内
豆包写了12个字
扣4分
大哥写了12个字
扣4分
要不现在再给它一个机会看看
现在深度思考能用了吗
用不了  没办法
第六大题
时效性测
所谓的时效性
一定要联网搜索
但是现在DeepSeek的联网搜索功能不能用
那我们就直接全算盘答对了
它现在直接获得30分
第一题
辛巴和小杨哥最近的争端
起初是因为辛巴卖的什么产品
被举报下架
最近  这两个字不能要了
这是9月分的测试
答案是  大闸蟹
豆包答对了
实效性每题是5分
加5分
再看DeepSeek能回答吗
如果不能回答  我们也给它算满分了啊
它说是燕窝
这个大题  不会再问它了
第二题
7月相声风波中
被牵进来的艾跃进的学生叫什么?
答案是  裘英俊
豆包这方面还是不错的
加5分
如果将来出现2024年16号台风
这个不对了
已经是过去的事情了
那就是直接问吧
2024年16号台风  叫什么名字
答案是  西马仑
它是回答对了
加5分
第四题
当前由  正午阳光  出品的电视剧叫什么?
答案是《凡人歌》
这个也是上一轮的测试题了
改一下
当前患抑郁症  导致剧组停工的女演员叫什么
答案是赵露思
豆包还是  加5分
以下哪个不是  正午阳光的主创人员
A候鸿亮 B孔笙 C袁子弹 D简川訸 E郑晓龙
答案是  郑晓龙
它选择了郑晓龙  加5分
下一题
网传被疯狂小杨哥送进去的女网红
网名叫什么
答案是  沫沫
豆包  加5分
第七大题
解读下面这个生辰八字
己卯年  丁卯月  丙申日  甲午时
推测他的特点
以及他都有可能从事什么工作
以及他活了多少岁
这个生辰八字是  爱因斯坦的
如果说他比较聪明
喜欢研究啊
这都算对
从事教授或者说科学之类的
这也算对了
如果它准确的说出了年龄范围
这也是对的
大家不要觉得说
这个问题怎么可能能答对
在我们第二轮测试的时候
有好多AI都已经准确的答出来了
豆包分析出来  他很有智慧和研究能力
这个是对的
它还说  像爱因斯坦就是这类人
它还能算出来这是  爱因斯坦
这个已经很厉害了
关于寿命说很难预测
再给它一半的分
5分它
它这个是完全错误
扣10分了
最后一题简直就是送分题
我问你的第一个问题是什么
豆包的正确答案应该是  0.9和0.10哪个大
DeepSeek第一个问题
应该是辛巴和小杨哥的争端
因为之前我们结束过对话
重新开始的
豆包是错的
它只能记得刚才的对话
扣5分
DeepSeek是对的  加5分
现在测试结果已经出炉了
第一名仍然是豆包
第二名是DeepSeek
第二轮的测试结果来对比一下
这么来看
AI最强的还是掌握时效性
也就是代替搜索引擎
替我们去搜索东西
这个是它最擅长的
而最不擅长的依旧是创造性
不过逻辑推理能力现在有很大的进步
挺意外的是
知识量的储备相对于之前
反而是降低了
这几乎是一样的测试题
在上一轮测试的逻辑推理当中
最高分也不过是0分
但是DeepSeek现在已经达到了8分
豆包上次是-8分
这次是0分
勉强追平了上一轮测试的最高水平
在创造性上
上一轮是全军覆没
这一次也是一样
以后我们每一轮测试AI
都不会像第一次那样
把GPT 必应全都弄进来
有很多人它访问不了外国的
上一轮测试的时候还有文心一言
一个月50块钱
还不如几个免费的
虽然说上一次豆包  也是第一名
但是从分数上来看
进步还是不小的
DeepSeek现在没有开启深度思考的情况下
拿到了37.5分
这也是不错的成绩了
它这些表现放到上一轮的AI测试当中
那妥妥的第一名
好了本次视频就录到这里了
如果不出意外的话
我们会像往年一样
在9月份录一个年度测评
把所有的AI的表现再重新录一下
再出全新的一套测试题


回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies

本版积分规则



QQ|站点统计|歪歌社团官方网站(QQ号:1148591215) ( 鲁ICP备16029683号 )

GMT+8, 2025-4-3 15:35 , Processed in 0.103971 second(s), 29 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表