手机访问:wap.265xx.com国产AI大模型混战,讯飞星火比想象中更猛
![]()
ChatGPT引爆的大模型浪潮还在继续。6月9日这天,国产大模型又有新动作了。
在科大讯飞24周年庆上,讯飞星火认知大模型V1.5正式发布。这次同步上线的星火APP,升级了多轮对话,逻辑和数学能力也同步提升。先来看一组数据:
知识问答能力提升24%
逻辑推理能力提升10%
数字能力提升9%
代码能力提升8%
语言理解能力提升8%
文本生成能力提升7%
升级后,拥有适配属于自己的AI助手,再也不是梦!通过不断地调试,可以“养成”和创建出符合需求的助理。据了解,此次讯飞星火V1.5版本面向生活、工作等用户高频使用场景上线200个小助手功能,PPT大纲助手、周报小助理等等。
![]()
升级后的讯飞星火,到底好不好用?借着这个机会,我们结合其他博主的测评来进行一个评估。走起!
![]()
1对1口语陪练
值得关注的是,此次发布会上,科大讯飞还推出了星火语伴APP,这是科大讯飞星火认知大模型在教育领域的进一步落地。
实现1对1的口语陪练和随身翻译,帮助用户提高外语水平。星火语伴还可生成虚拟人,与使用者实时对话,让用户体验更加真实的语言环境。
![]()
这种方式的好处在于,可以通过虚拟老师即时对话,创造出一个良好的语言环境。等于有了一个随时在身边的外语老师,平时带练口语,也可以处理很多外语环境下的日常需求。
![]()
目前这款软件支持9种不同的语言,包括语音、图片、聊天多种交互方式。还增加了实时对话场景,这就极大地加深了沉浸感,对话其实蛮有意思的。加上搭载了AI大模型,主观能动性大大提高,最终的产品呈现或许可以期待一下。
![]()
![]()
高考大PK,你觉得谁赢了?
说到最近的热点,高考可是当之无愧了。大模型也来凑了这波热闹,它们的表现到底怎么样?谁的优势比较大?一起来看看。
![]()
/ 语文方面/
先看百度的文心一言:
![]()
再来看通义千问:
![]()
最后是讯飞星火:
![]()
蓝鲸财经记者工作平台挑选ChatGPT、文心一言、通义千问,用全国甲卷的作文命题来测试。题目要求的篇幅方面,文心一言和讯飞星火都过关,通义千问明显不符合800字要求。内容质量上,相较而言,文心一言和讯飞星火在“联想与思考”上展现出了更多的优势。
/ 数学方面 /
数学方面,讯飞星火展现出的优势,更为明显。星火大模型不仅能理清一些很绕的逻辑现象,还能综合应用方程、配列组合等数学方法来解决问题。
![]()
科创板日报在5月26日的一篇文章中,也曾对文心一言、通义千问、云从大模型进行了测试,文中选取了两道题,展示的测评对象包括文心一言、360智脑和讯飞星火,结果是两道题都只有讯飞星火答对了。文章开头也指出,科大讯飞星火认知在数理能力表现尤为突出。那我们具体看看其中的一题。
文心一言:
![]()
360智脑:
![]()
讯飞星火:
![]()
升级后的讯飞星火,面对一道更难的题目,会做得怎么样呢:
![]()
值得一提的是,此前搜狐科技使用五款AI大模型对2023高考上海数学试卷进行了同题测试,让包括星火在内的五家大模型进行了回答。结果显示,讯飞星火答对了5题,正确率50%,正确率在同等大模型中最高。
![]()
▲图源:搜狐科技
![]()
探索更多落地应用场景
上面的高考测试,更多的是展现基础能力,“大模型能帮我们做什么”才是更重要的事情。娱乐资本论也从不同的维度对几款主流大模型做了一个测评,对它们的实用功能进行了综合评估:
![]()
可以看到,讯飞星火在小红书带货文案、歌词写作、淘宝商详页、公关稿、科幻小说初始创意、新闻稿、广告宣传片文案等方面的得分都位于国产大模型最高分,总分也仅次于GPT3.5位居国产模型第一位。
《科创板日报》曾让文心一言和通义千问仿照三体风格写一篇800字科幻小说,我们再加上讯飞星火试试。
文心一言的回答:
![]()
通义千问的回答:
![]()
讯飞星火的回答:
![]()
讯飞星火无论是篇幅方面,还是内容的完整性方面,总体来说都要更高一点,甚至还有个标题。文学创作方面体现出的差异,不仅仅和中文语料的积累有关,更和逻辑推理和算法有关。
还有一个更有趣的助手是故事创作助手,当用户输入一个标题就能生成一篇故事,如“小兔子去黄山旅游探险的故事”。如果小朋友对故事不满意,还可以补充需求,比如增加“小兔子遇到了一个伙伴皮卡丘”。
![]()
我们再看看它们实际的工作表现。
TMT时报的记者测试了文心一言和通义千问在商业文案方面的能力,我们加上讯飞星火再试试。
文心一言:
![]()
通义千问:
![]()
讯飞星火:
![]()
文心一言扣住了主题,但文案过长,跟主题不太贴切;作为商业文案,通义千问的表现明显好了很多,但相较于讯飞星火的回答,节日气息有余,商业推广成分不足,总体来说,完成度都是比较高的。
![]()
在日常工作辅助方面,他们的表现又是怎样的呢?我们以季度总结文案的角度再来测试一下。
文心一言:
![]()
通义千问:
![]()
讯飞星火:
![]()
文心一言在提示后顺利完成;通义千问也基本完成指令要求;讯飞星火整体看下来最为突出,条理清晰,重点突出,堪称打工人福音。
讯飞星火能有这样的表现,也属于情理之中。本身就在办公、教育、医疗等方面研究多年,中文语料积累深厚,产品成熟,现在推出了星火助手,200多个小助手几乎是覆盖了各行各业,确实有不错的前景。
![]()
迈向人工智能时代
除了具体的各项能力方面,安全,是很需要关注的一个问题。
![]()
之前三星投诉GPT泄露了其机密数据的新闻大家都还记得吧?星火虽然发布相对晚了一点,但就像科大讯飞董事长刘庆峰说的,讯飞星火在安全性上的考虑确实比较谨慎,“兼顾信息安全和伦理人文”。
![]()
界面中内容提到了可以通过私有化部署插件,保证企业内部数据的安全性和隐私性。这部分要测评是有难度,但是可以通过“伦理人文”来试一下。
来颗boom boom boom?看它怎么回复:
![]()
被强制结束对话了,重新开启对话再试试:
![]()
试过多次后,都是以强制结束对话告终。如果换一个话题呢?
![]()
虽然这次答复了,但没有给具体做法,还义正言辞地被教育了。能看出来在指令和内容方面应该有做出设置,属于稳健型选手了。
相信大家看完这一圈的测评,对讯飞星火大模型也有比较系统全面的了解。目前市面上几个比较知名的大模型之间,讯飞星火的优势还是比较明显的。
![]()
目前国产大模型都在持续训练,短期内谁的功力比较强,还是难见分晓。那么如何快速投入应用,以战养战,来维持大模型的不断迭代,也成了一道亟需回答的问题。讯飞星火在这方面的意识也是比较领先的。
电影中的智能语音工作助手,是大家理想的状态,中肯地讲,目前的讯飞星火的星火大模型已经完成了0-1的部分。先是能做到,在此基础上,后续如何做好只是时间问题。
正如科大讯飞董事长刘庆峰强调的那样,流水不争先,争的是滔滔不绝。
上一篇:法国争当欧洲AI重镇,英德不甘示弱,美国仍居领先地位
下一篇:原创69岁刘晓庆近照,耳垂怪异几乎与脸连在一起,面部修整太夸张
最近更新人物资讯
- 青年节专题时文精选,1个专题+5篇模板+12篇范文+1个作文合集(角度+金句+精
- 最新质量管理体系基本要求(五篇)
- 赤坂丽颜值巅峰之作,禁忌之爱代表作品-高校教师成熟
- [王仲黎]人茶共生:布朗族茶文化话语中的生态伦理
- 北京文艺日历 06.12~06.18
- 有什么好看的少女漫画推荐?
- 为了孩子陪睡校长,请别拿这电影洗白
- 当贝市场tv版apk下载
- 茉
- BBC评出有史以来美国最伟大的100部电影
- 泰山岱庙古建筑之文化特色初探
- 阴阳五行学说范文
- 2022伦敦大学学院Bartlett建筑学院Part2毕业展
- 观看平凡英雄观后感1000字
- 纽约大都会博物馆(二)古希腊艺术与神话
- 收藏 | 带你穿越500年,看一看这50位著名艺术家
- ab血型女人的性格
- 春节活动策划方案
- 为什么孕妇生产有危险时,部分丈夫和婆婆会选择保小孩?
- 《员工自发管理的儒家修为智慧》
- 菲律宾尺度片的全明星阵容,菲律宾女人质量这么高的吗?
- 文学课 | 韩少功:文学与记忆
- 《人性的污秽》中的伦理道德世界
- 宋惠莲背夫和西门庆幽会后自缢,看透情色表象下的死亡真相
- 秋波多少画(五代词全集)