,近日,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》,报告显示总得分率 GPT-4 第一,百度文心一言在三大维度 20 项指标中综合评分国内第一,超越 ChatGPT,其中中文语义理解排名第一,部分中文能力超越 GPT-4。
据了解,报告本次评估选取了 GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工 7 个大语言模型,围绕生成质量、使用与性能、安全与合规三大维度,全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等 20 项指标。综合来看,文心一言语义理解能力突出,特别是具备更好的中文理解能力,更懂中国文化,同时时效性强、内容安全把握细微,这源于其知识增强、检索增强和对话增强的技术创新。
在生成质量方面,基于对语义理解、输出表达、适应泛化的综合评测,文心一言得分率 76.98%,仅次于 GPT-4,领先于包括 ChatGPT 在内的其他大语言模型。其中,在部分中文语义理解方面,文心一言以 92% 的得分率排名榜首。
IT之家注意到,在安全合规方面,基于对内容安全性、偏见和公平性、隐私保护等综合评测,文心一言得分率 78.18%,与 GPT-4 并列排名第一。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
28分钟送药到家,叮当健康再递交上市
最新招股书显示,2019年、2020...
浙商证券:为何不能再用盈利来预测制造
能源变革下盈利与制造业投资的关联性较...
中国太保紧急启动抗疫应急预案!确保“
3月28日是上海在全市范围内开展新一...
币安美国计划在3年内进行IPO,其四
图片来源:视觉中国3月28日,据Fo...
茅台提前披露业绩:2021年总营收1
出品丨搜狐财经作者丨李文贤3月28日...
邮储银行发布新市民专属“U+卡”助推
3月28日,中国邮政储蓄银行举办新市...
华为去年营收6368亿净利润1137
华为昨日举行2021年年度报告发布会...
迪马股份:港交所已审议旗下物业公司东
3月28日,重庆市迪马实业股份有限公...
公告精选:奥泰生物等一季度业绩大幅预
3月28日晚间公告精选:西麦食品将于...
开车省,养车更省,性价比之王优选奕炫
近期油价上涨,不少人把目光投向了新能...
汉王科技:公司控股子公司汉王鹏泰目前
每经AI快讯,有投资者在投资者互动平...
平煤股份:2021年净利同比增110
平煤股份3月28日晚间披露年报,20...
阳光城:未能按照约定筹措足额偿付“1
阳光城28日晚间发布公告称,因受宏观...
胜蓝股份:发行可转债3.30亿元申购
胜蓝股份3月28日晚间发布公告称,胜...
新冠检测订单增长奥泰生物一季度业绩预
3月28日晚间,奥泰生物公布了202...
增程技术成热门,2022中国电动汽车
3月25日-27日,“2022中国电...