我们需要怎样的大模型测评
国产大模型又多一份测评,这次的状元是讯飞星火。近日,《麻省理工科技评论》从多维度全方位检测,力图评出“最聪明”的国产大模型。最终,讯飞星火认知大模型V2.0荣获“最聪明”的国产大模型称号。
国产大模型竞赛如火如荼,好像每一个大模型都很牛,但具体牛在哪又始终缥缈,由此大模型测评应运而生。但这又可能注定是一件要“烧情怀”的事,它同样面临着“开源”还是“闭源”的两难选择,和刷题与竞价排名的诸多争议。
武林大会
(资料图)
国内“千模大战”下,谁是最聪明的大模型《麻省理工科技评论》最新发布的大模型评测报告。该报告称从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力,最终,讯飞星火认知大模型V2.0以81.5分的成绩登顶,荣获“最聪明”的国产大模型称号。
8月15日,科大讯飞发布“讯飞星火认知大模型V2.0版本”,科大讯飞董事长刘庆峰介绍,从业界参考测试集上的效果对比来看,星火V2.0基于Python和C++进行代码写作能力已高度逼近ChatGPT,差距仅分别为1%和2%。
刘庆峰说,到10月24日星火大模型代码能力全面超越ChatGPT,明年上半年将正式对标GPT4。
讯飞星火像是一个缩影。过去这段时间,大模型频繁更新让人眼花缭乱,动辄千亿的参数、各种专业术语也让人不明觉厉。但人们似乎很难找到一把统一的尺子,公平、客观、直观地感知大模型真正的效果,而不被纷杂的信息流所蒙蔽。
天使投资人、资深人工智能专家郭涛对北京商报记者分析称,“大模型是一个非常复杂的系统,它由大量的数据和算法组成,在训练和推理过程中需要考虑很多因素。对大模型进行测评可以帮助我们更好地了解模型的性能和特点、评估价值和意义、局限性和潜在风险等,从而为大模型的发展和应用提供有力支持”。
深度科技研究院院长张孝荣将测评形容为一场“武林大会”,要试试各家身手。他对北京商报记者分析称,大模型涉及到庞大的参数和复杂的算法,对于性能和效果的评估十分重要。通过测评可以大致地了解大模型的性能、稳定性、准确性等内容,为用户选择合适的大模型提供参考。
测评开始补位。今年3月,真格基金以投资者的身份入场,设计了一套大模型测试集Z-Bench。高校也是测评的中坚力量,例如清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。
有媒体报道,5月以来,10多家国内外多家调研机构、权威媒体和高校等发布大模型评测报告,包括新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》、天津大学和信创海河实验室发布的《大模型评测报告》、国际数据公司IDC发布的《AI大模型技术能力评估报告,2023》等。
标准难统一
当该有测评成为共识,迎面而来的下一个问题就是,我们需要一个怎样的测评。
《麻省理工科技评论》提到,评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共8个一级大类,126个二级分类,290个三级标签,并针对问题的丰富性和多样性做了优化。
此前IDC则在测评中将大模型分为三层,服务生态、产品技术以及行业应用,对每一层的能力进行测评,主要考察指标为算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业以及配套服务和大模型生态等,具体包括36项细颗粒度的评估标准。
对于大模型测评的必要性,元语智能联合创始人兼COO、SuperCLUE联合发起人朱雷提到,模型测评基准是通用人工智能的基石,没有测评就意味着没有目标,很难准确地判断究竟哪些做得好哪些做得不好,同时对于AI的安全性也无法把控。从国际视角上看,对于大模型的测评也是没有绝对标准的,因为大模型发展太快了。但在国内要做出一个客观公正的评测基准,也会遇到很多阻力。
北京市社会科学院副研究员王鹏对北京商报记者分析,目前大模型尚属新兴事物,国际上还没有一个覆盖面非常广、能够得到大家公允的评估方法或整套指标体系,需要加强国际合作,形成广泛共识。
“但这也会面临一定的问题,即大模型本身类型繁多,通用还是专用、垂类还是跨行业、偏技术还是偏应用等区别也会带来一定的阻碍,因此更需要权威机构加强研究,尽快形成共识,促进技术进步和行业发展。”王鹏称。
在他看来,一个合格的测评,应该由四个维度组成。首先是技术本身,包括稳定性、效率、效果等;其次是与行业的结合,在行业应用中是否有效果、成本是否可控、是否能够形成商业闭环;再次还要考虑是否安全可控;最后要从社会及行业认知角度,了解其在行业中的关注度,毕竟“酒香也怕巷子深”。
张孝荣也提到,由于大模型涉及的领域和应用非常广泛,不同领域、不同应用的大模型需要关注的指标和评估方法不尽相同。因此,针对具体应用领域和需求,不同机构和组织可能会提出不同的评估标准和方法。“尽管没有统一的标准,但测评的意义在于提供了一种评估和比较不同大模型性能和效果的方法,帮助用户选择适合自己需求的大模型。”
测评还是营销
“测评的意义侧重于营销推广。”张孝荣还提到了一个观点。
360智脑产品资深专家葛灿辉在引用SuperCLUE测评结果的时候,提炼出了一句总结:“360智脑”多项能力位列国产大模型第一。《麻省理工科技评论》的测评报告,传播最多的也是“讯飞星火被评为中国‘最聪明’的大模型”。
更早些时候,刷屏的是百度。比如IDC的大模型报告中,“百度文心大模型3.5获多项满分”,清华大学新闻与传播学院沈阳团队发布的《大语言模型综合性能评估报告》中,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT。
每每涉及榜单,榜首归谁总是容易成为话题中心,从这个角度上看,测评本身或许就带着些营销的天然属性。但也正是如此,延伸出了一些不容忽视的问题。
“SuperCLUE出6月榜单的时候,第一时间就有人指责我们是不是收了360的钱,但事实是,直到这次沙龙,我们与360智脑产品负责人才有了第一次接触。”朱雷如此说道。
事实上,大模型测评同样面临着“开源”和“闭源”的两难选择。朱雷称,大模型测评题集也有开源闭源之分,但开源的题目就会面临受试者提前训练进而刷分“打榜”的可能,而闭源的题目就会陷入到是否有暗箱操作乃至竞价排名的争议。
朱雷表示,SuperCLUE还是选择了闭源的测评路线,但不是任何机构都可以闭源的,之所以公众较为相信SuperCLUE的测评结果,主要还是基于过去四年CLUE社区对中文语言模型的贡献和公信力。
据了解,CLUE开源社区发起于2019年,旨在建立科学、客观、中立的AI评测基准,过去几年CLUE社区分别建立了ZeroCLUE、FewCLUE等知名的语言模型评测基准,又于今年5月发布首个中文通用大模型综合性评测基准SuperCLUE。
SuperCLUE分为SuperCLUE-Opt、SuperCLUE-LYB琅琊榜以及SuperCLUE-Open三个不同维度的评测基准,相辅相成。据介绍,SuperCLUE目前也是中文AI领域最完整的综合性测评基准,同时也是罕见的“闭卷”考试。
“我们暂时还没有找到折中的方法,所以决定先‘保密’,大模型厂商不知道我出了什么样的问题,自然不好刷分。至于‘保密’带来的黑盒化,目前来看还是一个两者不可兼得的问题,但我们坚信自己的第三方中立性,评测的结论也是十分科学的。”朱雷称。
王鹏分析称,任何一项评估或排名,都可能面临一些问题,但这其实相当于一个“否定之否定”的过程。首先评估体系本身并不是完美的,需要不断优化提升,应对大家可能产生的质疑。
其次,专业的评测机构、技术机构等,也要注重自己的口碑,建立完善的体系,储备丰富的经验,有较好的技术团队和技术储备,作出更加客观公允、公平公正的评价。“因为一旦出现‘人情分’等问题,不仅会影响自己的声誉,也不利于行业的未来发展。”王鹏称。
标签:
推荐文章
- 我们需要怎样的大模型测评
- 七月份我省进出口环比增长两成多
- 张湾区西沟乡:保护古树名木 守好绿色瑰宝
- “中国肥胖地图”发布:41.1% 男性体重超重
- 富贵集团(关于富贵集团介绍)
- 梦见兔子是什么意思周公解梦
- 科学家预测本世纪末 地球将重置人口数量 “只有最具适应性的人才有望生存”
- 助受灾地区企业恢复运营 央视频联合拼多多推出专场公益直播 央视频联合拼多多开启公益直播 获400万网友暖心祝福 央视频联合拼多多为受灾企业直播卖货,超400万网友热捧
- 一线协商共同缔造新街镇港东村2023“和美乡村·巾帼先行”志愿服务晚会精彩上演
- 测试金属材料 厦门达国际水准
- 下降10个基点!1年期LPR降至3.45%
- 财信证券:给予吉比特买入评级
- 陆地探测四号01星顺利进入工作轨道
- 8月19日国内丁二烯市场行情小幅下滑
- 德赛西威:8月18日融券净卖出16.61万股,连续3日累计净卖出27.61万股
- 三一重工发布7月份挖掘机指数 工程机械行业回暖正在路上
- 马斯克承认X可能失败,用户嘲讽:把你所做的都反过来做一遍
- 巴西米纳斯吉拉斯州一大巴翻车 已致7死36伤
- wins什么意思(wins)
- 门套与墙有缝隙怎么办(门套和墙有缝隙怎么办)
- 雷克萨斯ux有几款车型(雷克萨斯ux用的是几缸发动机)
- 七夕去哪儿庆祝?北京怀柔上新7项20场趣味文化活动
- 人文素养教育 人文素养的含义
- 客场3:0完胜大连人 河南队中超两连胜
- 商家“相争”,消费者“薅羊毛”
- 今日出伏!全省有雷雨和强对流天气!河北最新出行信息请查收→
- 每日一禅:心定
- 吉林财经大学宿舍楼 吉林财经大学宿舍有卫生间
- 浏阳永安镇:“五强化五保障” 以河长制促“河长治”
- 四川继续发布地灾黄色预警,范围扩至21个县市
- 拖欠建筑金属工程款6个月起诉流程是什么,有哪些规定?
- 今日中国农业银行掌上营业厅官网(中国农业银行掌上营业厅)
- 一女子“长期乘坐出租车不给钱”!西安警方:该女子已被刑事拘留
- 联建房属于什么性质(联建房和商品房的区别是什么)
- 塔罗牌解释大全_塔罗牌解释
- 沁阳市山王庄镇:持续开展人居环境整治 打造生态宜居乡村
- 莱芜三辣(关于莱芜三辣的简介)
- 中国证监会:还有一批活跃资本市场、提振投资者信心措施正在加紧推动
- 中泰缅老四国警方启动合作打击赌诈集团专项联合行动
- 木格措风景区旅游最佳时间(木格措最佳旅游时间)
- 银行卡密码输错3次被锁了还能进账吗 银行卡密码输错了三次锁定了怎么办
- 美军已实现用卫星控制MQ-9无人机起降
- 航运指数期货给三方带来利好 面向全球交易者开放
- 时隔三年,海上再响龙舟鼓
- 对LK-99的最后一击?德国团队公布晶体样品结果:不超导
- 实力摘“金”,中银基金一举斩获“金基金”两项大奖
- 世纪恒通8月18日快速反弹
- 全球首例!长时间离体大段骨回植保踝手术在威海市立医院获得成功
- 北海买房攻略(三)(北海购房攻略有什么)
- “交换旅游”有哪些潜在的法律风险?
- 风险释放后,机会也开始出现了,再度斩龙成功!
- 女演员梅婷突然引发了热议,起因是她跟随韩红团队低调做公益
- 山东聚力绿色转型低碳发展 推动生态环境质量实现新跃升
- 爱丽家居: 广发证券股份有限公司关于爱丽家居使用部分闲置募集资金暂时补充流动资金的专项核查意见
最新资讯
- 8月17日上海地区天然橡胶价格基本平稳
- 8月18日起蚂蟥梁立交改造工程原A匝道及建新西路施工 请注意行车安全
- 芭比梦幻派对全国首展落地长宁
- 宁马城际铁路首个跨河连续梁顺利合龙
- 安徽省投资集团拟减持安凯客车1879.02万股
- 铁路暑运累计发送旅客超6亿人次(新数据 新看点)
- 中国为全球旅游业创新发展提供重要动力(国际论坛)
- 中国深圳手机区号是多少 中国深圳的国际电话号码怎么写
- 拯救大兵瑞恩迅雷下载高清(拯救大兵瑞恩迅雷下载)
- 我的世界等价交换怎么设置价格买少卖多(我的世界等价交换怎么设置价格)
- 胡鳕 小说 胡鳕
- 京东集团2023年二季度非美国通用会计准则归母净利86亿 同比增32%
- 黑猫股份:公司锂电级导电炭黑产品目前已具备1万吨/年产能规模,正在市场开发中,已给个别客户小批量供货
- 航运系列专题(二):集装箱航运供需和成本运价分析框架
- 2023年硝化棉行业数据统计:硝化棉出口量持续增长
- 雷军:小米必须进高端市场 用小米品牌
- 恒大公告暗示许家印已离婚? 基本信息讲解
- 张帅退出今年美网赛事
- 哈登在小杨哥直播间卖自产红酒,5秒卖光
- 多家券商最新部署!优化薪酬体系、提升两融业务、探索生成式AI应用
- 热巴生子风波升级!疑国外产子,被私家侦探拍到,大粉后援会跑路
- 网络安全板块8月15日跌1.45%,盛邦安全领跌,主力资金净流出13.33亿元
- 尔康制药:凤凰实业正与柬埔寨有关部门进行积极沟通
- 河南新乡经开区:2024年5月16日前缴纳新房契税可享契税总额20%的补贴
- 辽源路街道组织召开老旧街区改造项目工作调度会
- 杭州晓月澄庐下叠项目流拍 起拍价达2243万元
- 基质胶凝胶制备方法及相关FAQ
- 华润啤酒首个国产啤麦标准化种植试点基地落地内蒙古
- 什么东西最醒酒?
- 用孩子们的视角看绿色生态西城实践 2023年西城区全国生态日主题活动举行
- 伊川谷子长势好 “富硒小米”有保障
- 中国音乐学院与中国歌剧舞剧院签署战略合作框架协议
- 南航新疆分公司引进B737动态模拟机
- 中文在线08月14日获深股通增持198.99万股
- contrast是什么意思中文翻译(contrast是什么意思)
- 葸克来(关于葸克来简述)
- 做猪皮冻用新鲜猪皮还是冷冻猪皮好?
- 打通校园到职场“最后一公里”
- 明微电子(688699.SH)上半年计提减值准备合计7494.05万元
- ST天顺6月27日打开涨停
- 德勤日本公司最快下月起利用AI审查企业财务信息
- 西甲综合:巴萨首战不利,客场闷平赫塔菲
- 内蒙古伊金霍洛旗:非遗绝技引游人
- 浙江省象山县发布雷电黄色预警
- ps如何简单制作彩色发光的五角星 ps制作五角星及光芒效果图
- 红米Redmi K60至尊版预热:率先支持国产PPP北斗高精度定位
- 化学反应的速率(关于化学反应的速率的基本详情介绍)
- 拿地仅仅12天!刚刚,绿城南翔王者地块方案出炉!联动价6.25W!
- 2023年内蒙古养老金认证时间 内蒙古养老金资格认证怎么操作?
- 文远知行旗下两家公司注销