大模型2024高考发榜,豆包等三款国产AI考上文科一本线
大模型参加高考,大模能考多少分,型高线上什么大学?
6月24日,考发款国I考科本在极客公园最新发布的榜豆包高考新课标Ⅰ卷大模型评测报告中,GPT-4o 以562分排名文科总分第一。上文国内产品中,大模字节跳动旗下的型高线豆包拔得头筹,成绩是考发款国I考科本542.5分,其后依次是榜豆包百度文心一言4.0的537.5分、百川智能“百小应”的上文521分。本次大模型高考评测与河南省考卷完全相同,大模河南高考录取分数线显示,型高线文科本科一批录取分数线为521分,考发款国I考科本豆包等三款国产AI成功冲上一本线。榜豆包
与文科相比,上文大模型的理科成绩要差很多,最高分还不到480分,多数大模型的理科总分在400分以下。相比河南理科511分的一本线,大模型尚有较大差距。
大语言模型遇上语言考试:有望冲满分
语文、英语的语言类考试,是大模型有能力和人类考生较量的赛场,多家产品能拿到客观题目的满分或接近满分。
凭借中文语言的“主场优势”,三款国产大模型产品获得了语文考试前三名,分别是百小应、字节豆包和腾讯元宝,得分依次为128分、125.5分和120.5分。除了少数开放性的阅读理解和语言文字运用问题,各家大模型主要丢分在语文写作上。
作为本次评测的语文作文阅卷人,北京市级骨干教师、怀柔区语文学科带头人夏老师曾多次参加全国高考语文阅卷。夏老师认为:“Al写出的文章大多有清晰完整的结构,有逻辑性,语言通顺流畅。但其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力。”
英语写作同样是大模型的一大难题。本次评测默认所有大模型的听力都获得30分满分。在阅读和语言运用两大项客观问题的考试上,GPT-4o、百小应、通义千问获得80分满分,豆包和文心一言4.0也接近满分。但是在40分的写作考试中,最高分只有29分,分别由GPT-4o和百小应获得,各家模型的英语写作主要丢分在表达空泛、缺少细节上。如果大模型在未来能够提升写作能力,获得高考满分并非难事。
文综出色,豆包获“历史”最高分
在由历史、地理、政治组成的新课标文综考卷评测中,GPT-4o获得237分的成绩,平均分达到79分,优于多数人类考生。国产大模型产品中,豆包的文综成绩最高,分数达到224.5分,其中历史科目拿到82.5分,在所有9款大模型中得分第一。
政治考试中,GPT-4o出人意料的获得了88分的最高分,百小应和豆包得分超过80。地理考卷则有大量图片问题,对一众大模型是不小的挑战,图像理解能力较强的GPT-4o得到最高分,但仅有68分。
河南高考分数段统计数据显示,GPT-4o的562分在文科考生中排名8811名,相当于人类考生的前2.45%,豆包则处于前4.27%的位置。在过去一年多时间里,国产AI技术能力获得了长足进步,目前已经接近国际顶尖大模型的水平。
数理全线不及格,AI有待提升
与人类顶尖考生相比,大模型在数学、物理、化学等数理学科上差距极大,包括GPT-4o在内的所有大模型都无法达到及格水平。尽管在语文、英语两科上能获得高分,大模型的理科最好成绩还无法进入人类考生的前30%。
以数学试卷为例,9款大模型产品中,仅GPT-4o、文心一言4.0和豆包获得60分以上成绩(满分150分),目前的大模型只能正确推理步骤相对简单的问题。据测试机构透露,豆包等大模型能准确运用求导公式和三角函数定理,但是面对较为复杂的推导和证明问题就很难继续得分。
重点考查实验探究能力的化学和物理试卷,各模型平均分更是只有34分和39分(满分为100和110)。化学单项最高分由豆包获得,成绩为49.5分,GPT-4o仅有42分。大模型在应对考试的灵活性上也不如人类。例如物理有一道送分题,人类考生根据“时间不会倒流”可以排除错误选项,轻易选对正确答案“C”,大模型则几乎全军覆没。要学会像人类一样思考和解决问题,大模型还有很长的路要走。
雷峰网(公众号:雷峰网)
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
976
-
浏览
3949
-
获赞
4595
热门推荐
-
德泽尔比:现在只考虑布莱顿,我在这里还有合同
谈到与巴萨、利物浦的传闻时,布莱顿主教练德泽尔比表示,自己现在专注于布莱顿。 德泽尔比说:“我现在只考虑布莱顿,什么都没有决定,我在这里还有合同。”“我希望与我们的年轻球员一起,以最好的方式结束这个赛捕鱼儿海之役是怎么回事?北元小朝廷的覆灭之战
捕鱼儿海之役,北元贵族遭到的最大失败,北元小朝廷的覆灭之战。接下来趣历史小编就和各位读者一起来了解,给大家一个参考。1368年正月,朱元璋在应天府(今江苏省南京市)登基称帝,建立了大明王朝,年号洪武。哪三场规模不一的战役,是压倒秦朝的最后一根稻草?
秦始皇统一六国,建立起大一统、中央集权的秦王朝,看似成为了万世一帝,其实这个新兴王朝所亟待解决的问题其实很多。春秋、战国两个时期的战乱,让各地经济濒临崩溃,秦国一统华夏之后,各地更是急需恢复农业生产,官渡之战中,曹操与袁绍分别是如何部署的?
建安五年(公元200年),曹操军队与袁绍军队在官渡展开了一场战略决战,史称“官渡之战”。曹操奇袭袁军在乌巢的粮仓,继而击溃袁军主力。此战是东汉末年三大战役之一,奠定了曹操统一中国北方的基础,也是中国历萨曼莎撒乌萨官网价格(萨曼莎撒乌萨包包图片)
萨曼莎撒乌萨官网价格(萨曼莎撒乌萨包包图片)来源:时尚服装网阅读:2805samantha是什么牌子?samantha是什么档次?1、二线。萨曼莎撒乌萨是来自日本的箱包品牌,1996年创立于东京,素有廉台之战的最终结果是什么?最后胜利是谁?
廉台之战发生在十六国时期,是前燕击灭冉魏的决战。下面趣历史小编给大家带来了相关内容,和大家一起分享。352年正月冉闵终于攻克了襄国,后赵残余势力至此基本被消灭,从而终于得以腾出手来对付此前一直无暇顾及赤壁之战中孙刘联军胜利的原因是什么?曹操有哪些失误之处?
建安十三年(公元208年),孙权与刘备的吴蜀联军在长江赤壁一带与曹操军队进行了交锋,史称赤壁之战。这是三国时期“三大战役”中最为著名的一场,是中国历史上著名的以少胜多、以弱胜强的战役之一,也是继阖闾破原创 英超14轮赛事前瞻
原创 英超14轮赛事前瞻_足球 - 世界杯,欧洲杯,天下体育,足球,世界杯,篮球,羽球,乒乓球,球类, 棒球 ( 本赛季,伯恩 )www.ty42.com 日期:2023-03陕西省延安市质检院扎实做好延能化特种设备检验工作
中国消费者报西安讯袁江 翟亚维记者徐文智)近日,陕西省延安市质检院圆满完成陕西延长石油延安能源化工有限责任公司以下简称延能化)特种设备检验工作任务。延安市质检院60多名检验人员前后历时80余天,超量完洺水之战中,李世民为什么胜的那么艰难?
武德五年(即公元622年)正月至三月,秦王李世民在洺水流域与刘黑闼军进行了一场恶战,后世称之为“洺水之战”,此战中李世民胜的十分艰难。下面趣历史小编为大家带来相关内容,感兴趣的小伙伴快来看看吧。刘黑闼长平之战的失败,为何说赵国名将赵括需要负主要责任?
长平之战,是秦昭襄王四十七年(公元前260年)5月至10月秦国率军在赵国的长平(今山西省晋城高平市西北)一带同赵国军队发生的战争。秦、赵两国因争夺上党,而爆发大规模的战争。从秦国出兵使韩国割让上党到秦哪三场规模不一的战役,是压倒秦朝的最后一根稻草?
秦始皇统一六国,建立起大一统、中央集权的秦王朝,看似成为了万世一帝,其实这个新兴王朝所亟待解决的问题其实很多。春秋、战国两个时期的战乱,让各地经济濒临崩溃,秦国一统华夏之后,各地更是急需恢复农业生产,OPPO Find X7拿下京东OPPO手机单品榜榜首位置
双十一刚刚结束,不知道各位小伙伴都换了什么新手机呢?今年的双十一开启得比以往都要早,在十月中旬就早早开始,最近呢,各家手机厂商都晒出了自己的双十一战报,天极网通过京东平台查询到热门动漫改编ARPG游戏《我独自升级:ARISE》开启事前预约
Chugong原作、DUBU已离世)作画的韩国条漫《我独自升级》,最初于漫画平台PODO上进行连载,并在2024年1月被A-1 Pictures改编成同名动画并播出,收获了大批观众的喜爱。近日网石株式赤壁之战中孙刘联军胜利的原因是什么?曹操有哪些失误之处?
建安十三年(公元208年),孙权与刘备的吴蜀联军在长江赤壁一带与曹操军队进行了交锋,史称赤壁之战。这是三国时期“三大战役”中最为著名的一场,是中国历史上著名的以少胜多、以弱胜强的战役之一,也是继阖闾破