科大讯飞交卷,实测星火大模型
作者 |辰纹
来源 |洞见新研社
星星之火,可以燎原。
(资料图片仅供参考)
5月6日,讯飞星火认知大模型揭开神秘面纱。
发布会上,科大讯飞董事长刘庆峰、研究院院长刘聪现场实测了星火大模型七大核心能力,并发布基于该大模型的教育、办公、汽车和数字员工等多个领域的相关产品。
与此同时,刘庆峰还给出了讯飞星火的迭代时间表及每阶段目标:
第一阶段:6月9日,突破开放性问答,如实时问答;多轮对话能力再次升级;数学能力再上台阶;
第二阶段:8月15日,突破代码能力;多模态交互能力正式开放给客户;
第三阶段:10月24日,在通用大模型领域对标ChatGPT,其中中文能力超越后者,英文能力与后者相当。
“当前,在文本生成、知识问答、数学能力三大能力上,讯飞星火认知大模型已超ChatGPT”,刘庆峰表示,认知大模型成为通用人工智能的曙光,科大讯飞有信心实现“智慧涌现”。
在星火认知大模型之前,百度文心一言、华为盘古、阿里通义千问、京东灵犀、商汤日日新等科技大厂的大模型先后发布,加上美团联合创始人王慧文、搜狗创始人王小川、出门问问创始人李志飞等科技大佬重出江湖,并且带动了一批资金,也参与到大模型方向的再创业中,以至于有专业人士用“百模大战”来形容当前行业竞争的激烈程度。
此时问题来了,刘庆峰为何如此有信心,星火认知大模型实力又到底如何,凭什么能够超越ChatGPT,实现“智慧涌现”?
01到底行不行,结果说话
光说不练假把式,我们直接对星火认知大模型进行一场测试,验验“成色”,是否真如刘庆峰说的那样“对答如流”。
1、文本生成
发布会现场,刘聪展示了星火大模型的文本生成能力,不但可以现编“故事”,还会撰写新闻稿,然而,通过我们后续的测试发现,星火大模型的文本生成能力远远不止这两项,根据场景的不同,还能衍生出更多的能力。
比如,可以请大模型担任编辑助手,根据用户提供的文本段落进行修改并提出写作技巧上的改进建议。
比如,请大模型帮忙润色群聊通知,甚至还可要求大模型加上emoji表情。
至于将口语转换成书面语,或是与大模型进行英文陪练,不在话下。
甚至要求大模型制作旅游指南,或是设计一份幼儿园大班体育游戏活动的计划,也能很好的完成任务。
点评:很显然星火大模型的文本生成能力长文本、短文本都能来者不拒,还具备多种风格、多种任务、跨语言等能力,实测结果显示,刘庆峰所说这一功能“星火大模型在国内明显领先,并且在中文方面超过ChatGPT”并不是吹牛自大。
2、语言理解
理解问题是解答的第一步,而中文又博大精深,星火大模型能准确理解不同语境下的语义吗?
我们先看看发布会现场的测试案例:“俗话说,男子汉大丈夫,宁死不屈。但俗话又说,男子汉大文夫,能屈能伸。这两种说法哪种是对的”?
然后追问:“如果有个小伙子和女朋友吵架了,他是应该宁死不屈还是能屈能伸”。
如果女朋友生气时,说随便,在这个语境下,男朋友应该怎么做呢?
对时下流行的热点,星火大模型掌握的怎样?
将问题再深入一些,代入到心理治疗的特定场景中,大模型又会给出怎样的答案呢?
点评:由于有深厚的知识积累,讯飞星火大模型的情商和语义理解能力在很多情况下甚至超过了个别人类,这也是科大讯飞一贯以来的强项,表现突出并不意外。
3、数学能力
数理能力一定程度代表一个大模型的聪明程度,刘庆峰在发布会上就表示,讯飞星火大模型的数学能力很强,能够达到ChatGPT的水平,现场测试中,刘聪出了一个计算三类花朵数量的题目,大模型用三元一次方程顺利解出了答案。
这个问题不算难,接着我们设计了一个根据“三个点的坐标,如何计算三角形面积”的问题,大模型除了给出正确答案外,还能解释和列出具体的分步步骤,显示格式也非常友好。
点评:数学能力是体现大模型通用水平的重要能力之一,而在统一大模型框架下也是非常难以实现的,大量测试证明ChatGPT在这一块也很容易出错,因为不是大家原来理解的规则性的输入输出(例如平常的直接调用计算器能力),而是在统一框架下用文本生成的方式来输出每一个字符。
因此在这个框架之下也不是大家通常理解的难的数学题难做,简单的数学题就好做。整体来说,星火大模型在解决综合性数学问题的效果上,目前是很领先的(综合评价比ChatGPT3.5效果好,差于GPT 4),但是在各类题型的整体覆盖上,还要持续去优化。
4、逻辑推理
逻辑推理与语义理解强关联,科大讯飞在这方面继续延续着自己的技术优势。
我们先用一个日常生活中不是很常见的促销套路来探路,看看大模型能否理解其中的意思。
很可惜,大模型中了圈套,没能识破文字陷阱,不过话说回来,人类在这个问题上,如果稍不注意,也会翻车,换位思考下,对大模型的疏漏也就可以理解了。
我们换一个经典的“过河”推理问题再测一次。
这次大模型的表现很棒,知无不言,言无不尽,回答的非常详细。
接着,我们再问一个“探宝”的推理问题。
点评:星火大模型在逻辑推理上的表现整体不错,特别是一些复杂的推理问题,表现出非常强的逻辑性,在这方面,大大强于一般人类的表现。
5、泛领域知识问答
我们先来一个生活常识,铁锅炒菜能补铁吗?
再问一个科学知识,为什么自拍总是比他拍更好看?哪个更接近自己真实的样子?
如果将大模型模拟成一名育儿专家,将生活常识、科学知识等进行融合,它又会如何作答呢?
再来一个有关文言文学习的提问,模拟一个苦于学习文言文的高中生,向大模型求教有关文言文字句和语法的疏通,主要内容,以及作者想要表达的含义和文字艺术之美。
点评:通过这项能力的展现,我们第一次了解到科大讯飞在泛领域知识数据上的积累完全不输其他科技大厂,通过与文本生成能力相融合,形成了科大讯飞在中文能力上的特有优势,也使得大模型更加接近个人助手的形态。
6、代码能力
在官方介绍中,星火认知大模型不仅可以生成代码,还可以修改、理解、编译代码,并且还具备Python、Java等多语言能力。
发布会现场,科大讯飞研究院院长刘聪就演示了用Python生成一段简单代码的能力,我们在后续测评中,星火大模型对找Bug以及类似数据抽取、条件筛选等方向的代码生成的表现都还不错。
下面是要求星火大模型对一段代码进行修改与改良的实例。
我们请教了一名资深程序员,对星火大模型的上述工作进行评价,星火大模型基本上完成了任务要求,经程序员检查,星火大模型在将boxes的数字转换成整数的过程中还是存在小小的瑕疵,漏掉了path节点。
事实上,刘庆峰在发布会上也承认星火大模型的代码能力与ChatGPT相比,存在一定差距,下一步升级的重点功能也是这一块。
大模型自己也说:“我的代码生成功能仍然有限,可能无法满足复杂的业务需求”。
点评:目前星火认知大模型对于简单的代码问题不大,但在涉及到一些复杂问题,架构时,则需保持警惕,其生成内容只能作为参考,站在开发者的角度,需要自行检查代码的正确性、可靠性和保密性等等。
02大模型竞速,落地为王
通过上文的实测,星火大模型的表现已经很好的回答了文章开头的提问,也确实具备与头部大模型掰掰手腕的实力,在各项能力中,如刘庆峰所说的,文本生成、知识问答、数学能力这三项表现出有别于友商竞品的长板。
除此之外,星火大模型的差异性还体现在商业化的落地实践,表现出更强的进攻性。
科大讯飞之所以能够突然爆发,给到行业惊喜,其实是从诞生之时起就开始进行铺垫了。
24年前,6个中科大在校学生喊出,“要把中文语音做到世界最好”,这也成了科大讯飞创业的初心。
2011年,科大讯飞承建语音及语言信息处理国家工程实验室,跻身人工智能“国家队”,提出“让机器像人一样能听会说。”
2014年,科大讯飞推出“讯飞超脑计划”,明确提出:让机器像人一样能理解会思考。
2022年,又升级为“讯飞超脑2030计划”,提出让懂知识、善学习、能进化的通用人工智能技术成为每个人未来发展的重要机会,让机器人走进家庭。
从学界到产届,从输入法到翻译机,科大讯飞一直深耕于语音语义领域,继而形成了对认知智能的独到理解和布局。
算法上,科大讯飞经验丰富,尤其擅长认知智能,仅去年就获得了常识阅读理解挑战赛OpenBookQA等13项世界冠军,开源了六个大类,超过40个通用领域的系列中文预训练语言模型。
数据上,在多年认知智能系统研发推广中积累了超过50TB的行业语料和每天超10亿人次用户交互的活跃应用。
算力上,讯飞总部有自建的数据中心,在工程技术方面实现了百亿参数大模型推理效率的近千倍加速,同时还与华为合作,大模型建立在安全可靠的国产算力平台之上。
所以,星火大模型发布的时间虽然较晚,但技术储备的时间却非常的长,继而由模型到产品落地的速度反而跑到了前面。
对于当前大模型的“涌现”,很多行业人士都旗帜鲜明的表率,大模型的应用不应只停留在人机对答的自我娱乐,而应与产业融合才能产生更大的价值。
刘庆峰也强调,“一个大模型系统到底好不好,首先要看它是不是能解决刚需、是不是真的有用,而不是一个简单的单点测试。”
因而星火大模型很大一个特点是,一方面不忌讳自己的缺陷和不足,勇于面向公众大规模开放,这也显示出科大讯飞超强的技术自信。
另一方面,实现了大模型在应用和产品层面的率先落地,通过学习机、智能办公本、汽车座舱交互系统、讯飞听见、数字员工等一系列产品,打通了“大模型+产品”的生态闭环,在数据和模型之间形成正向反馈循环的“涟漪效应”。
星火大模型落地的上述产品本身就拥有数量庞大的用户群体,自然而然会产生大量数据,数据反馈给模型后,在“涟漪效应”下,将推动模型的迭代更新,变得越来越强。
星火大模型的率先落地,表面上看以提升用户体验的方式,提高了讯飞产品的竞争力,特别是像学习机和智能办公本,几乎变成了完全不同的产品,更深层次的影响或将改变行业生产协同的行为模式。
03结语
科大讯飞是人工智能国家队,自身也有非常强的AI标签,因而在拥抱大模型这件事情上,一定比像百度、华为这类拥有多条业务线,更多方向选择的科技巨头更加坚定。
在中国率先实现“智慧涌现”之前,科大讯飞还得对照着人工智能红利兑现的三大标准:“有没有看得见摸得着的真实应用案例,有没有能够规模化推广应用的产品,有没有统计数据能够证明的应用成效”,继续夯实科研、产品和服务这些基础工作,这样才能经得住时间的考验,真正迎来星火燎原。
标签:
为您推荐
广告
- 科大讯飞交卷,实测星火大模型
- 天天报道:格力电器:公司一季报已于2023年4月29日发布,详情请见公司在巨潮资讯网披露的信息
- 焦点速读:78岁网红拉馋大爷遭美女疯狂追求!上演各种暧昧画面,曝真实目的
- 热消息:小车超载保险公司理赔吗
- 瑞银将中国全年GDP增长预测上调为至少5.7%|环球新要闻
- 全球播报:配合地铁施工,交通路(真南路-真金路)交通组织将有大变化
- 江西男子称16岁怀孕女友走失,当地妇联:女孩非本地人,已超16岁_当前焦点
- 判决发布!刘某因恶意羞辱患病少女被判赔抚慰金,道歉声明曝光!
- 【环球速看料】TrendForce集邦咨询:电视面板需求回温,第二季Gen5以上LCD产线稼动率有望回升至77%
- 将涞看期:2023-05-08商品期货分析晚评
- 当前动态:白内障分几种_白内障是如何分类的
- 【天天时快讯】因聚而生 众志有为,华为中国合作伙伴大会2023隆重举行
- 沪深两市今日成交额合计11369亿元,科大讯飞成交额居首_每日看点
- 快看:coloros恢复模式安装升级文件失败_coloros恢复模式安装升级文件
- 无公害蔬菜和绿色蔬菜哪个安全等级更高?无公害蔬菜标准是什么?
- 云南省法治建设群众综合满意率达97.77%|天天新消息
- 当前快讯:清水源5月8日快速上涨
- 海口变更暴雨橙色预警信号为暴雨红色预警信号
- 举牌图片制作软件_举牌图片制作 全球通讯
- 教育系统深入开展“访企拓岗促就业”行动取得积极成效 焦点快报
- 1世界热推荐:将于近期上市,奇瑞艾瑞泽8 2.0T运动版官图发布
- 2天天热门:兰州新区首个新建保障性住房项目将于8月底交付使用
- 3又一次包揽九金!中国跳水队神了!
- 4平高电气中标约11.9亿元国家电网采购项目 速看
- 5天天看点:鹏辉能源(300438)5月5日主力资金净卖出1.31亿元
- 6夏普打印机怎么扫描文件到u盘_夏普打印机怎么扫描_今日热议
- 7妊娠是什么意思 rc是什么意思
- 8大规模近距离接触,会“二次感染”吗?
- 9当前视讯!2022 年一级消防工程师《消防安全技术综合能力》考前模拟卷(一)-单项选择题27
- 10给力!洋浦公共法律服务中心为受援人挽回经济损失约32.6万元|新动态
- 14射门4进球,瓦希是2021年12月后五大联赛首位单场4射4中的球员_世界时快讯
- 217173dnf专区 520dnf私服网站发布网
- 3金价大涨下的市场分化:一季度国内黄金ETF共减持0.82吨 但实物黄金市场迎来大幅反弹-环球滚动
- 4热文:早上大便两次是大肠癌吗
- 5南方强降雨来袭!气象部门加强监测预报预警全力应对-当前通讯
- 6每日时讯!培养“商业间谍”抄袭技术还高薪挖人抢客户 3人涉嫌侵犯商业秘密罪被判刑
- 7环球热点评!痔疮肉球怎么能去掉?
- 8天天滚动:聚焦IPO | 紫江新材采购价格真实性待解,股东兼客户交易公允性存疑
- 9LC208 CVBS转WIFI WIFI无线视频传输模块(自带内存)
- 10初夏,江边,凤凰花开
广告
- 张家川县政府网_张家川在线网_全球视讯
- tfboys应援色_tfb
- 国图文保让面临酸化消失风险的古籍“重获新生”|全球速递
- 澳超季后赛:勒方德雷建功 悉尼2-1逆转西悉尼晋级半决赛 聚看点
- 海南岛热到破纪录 8日起高温缓解
- 【最新】突然停飞!这一航空公司,申请破产|世界视讯
- 环球快消息!菲律宾执法部门解救受害中国公民,我驻菲使馆协同开展案件办理
- 美菲军事合作引发菲律宾各界忧虑|当前快讯
- 关于宽容的小故事30字简短 关于宽容的小故事 每日快播
- 菜鸟驿站将面向上海/广州/深圳/杭州/成都五城推出夜间取件功能
- 大对数电缆测试怎么计算工程量_大对数电缆-全球微动态
- 农发行深圳市分行:“党建+合规”双保险护航稳健发展-天天快看点
- 为顺从卡米拉,凯特王妃放弃王冠,戴上花冠,和女儿穿“亲子装” 全球最资讯
- 当前快讯:喝完牛奶立马吃药,药会失效吗?
- 拧紧“安全阀”备足“粮草仓” 他们在行动 →
- 当前信息:润和软件:有知名机构趣时资产,正圆投资,易鑫安资管参与的多家机构于4月27日调研我司
- 世界快播:印尼总统:相信特斯拉将在印尼投资,已提供税收减免和镍开采许可等激励措施
- 宇腾科技完成千万Pre-A轮融资
- 中缅边境云南瑞丽查获易制毒化学品10吨 环球实时
- 王凯谈《大江大河3》 还表示喜欢宋慧乔新剧角色