
拓尔思总裁施水才:行业大模型在专业领域落地存在挑战 未来要向场景集成化、应用原生
近期由 OpenAI 团队发布的聊天机器人软件ChatGPT,凭借类人的语言理解和表达能力,引发AI产业范式革命。其在文书写作、代码编写和debug、方案设计等诸多场景中展现的强大能力,使大家相信在不久的将来AI将会成为重要的生产力工具。
ChatGPT强大的能力使其开放测试不到一周用户便突破了百万级别,超越Instagram、Spotify、Facebook等成为最快突破百万应用的服务。而根据UBS的报告显示,ChatGPT的月活跃用户在上线两个月后便达到了1亿人,成为历史上增长最快的消费者应用程序。
在此之前,TikTok用了9个月时间跨过1亿用户门槛,Instagram则用了30个月,WhatsApp和Meta则分别用了42个月和54个月,Twitter更是用了60个月完成这一目标。用户量的快速增长提供了大量的反馈,这将加速ChatGPT的改进优化,但同时也将带来巨额的计算成本,促使OpenAI加速ChatGPT的商业变现进程。
ChatGPT为何广受关注?其技术路径怎样?相关产业发展现状如何?商业化进程已到什么程度?其产业相关产业链及重点企业又有哪些?发展前景如何?我们带着这些疑问,一起探究ChatGPT的相关问题。
01
ChatGPT概况
1、定义:基于大语言模型(LLM)的对话模型
ChatGPT是OpenAI公司推出的全新聊天机器人模型。可以实现像人一样的交流,甚至完成写邮件、文案创作等功能。ChatGPT基于transformer模型,通过引入人类反馈的强化学习(RLHF),大幅提高了AI在人机对话时的准确度和可控性。与其他AI对话机器人相比,ChatGPT具有强大的语言理解能力和更丰富的语言表达能力,并且能够生成更自然、更流畅的文本,可以回答非常复杂的推理问题。
ChatGPT注册用户突破1亿,成为史上成长最快的消费者应用。2022年11月底,由OpenAI开发的人工智能对话聊天机器人ChatGPT推出,并迅速在社交媒体上走红,5天注册用户数就超过100万,两个月后,注册用户突破1亿。根据数据分析公司Similarweb的数据,ChatGPT成为史上增长最快的消费者应用,1月份平均每天有超过1300万名独立访问者使用ChatGPT,是12月份的两倍多。
2、ChatGPT核心功能与局限性
(1)核心功能
ChatGPT持续引爆AI应用热潮,是一项突破式的创新技术。其具有强大的核心能力:问题的理解能力大幅提升,提升了模型和人类意图的一致性,具有记忆能力,可以实现连续多轮对话;结果的准确性大幅提升,主要表现在回答的更加全面,同时可以主动承认错误、发现无法回答的问题;具备识别非法和偏见的机制,针对不合理提问提示并拒绝回答;理解用户需求并创造内容,甚至可以协助进行代码编写。
ChatGPT的出现将AI生成推到了前台,但ChatGPT只是AI生成模型的一种。海外学者Roberto和Eduardo将AI生成模型分成9大类,内容形态包括图像、视频、音频、文本、3D模型等。公众号《 投研锋向 》
(2)局限性
ChatGPT目前使用有局限性,模型仍有优化空间。ChatGPT模型的能力上限,很大程度是由奖励模型决定,该模型需要巨量的语料来拟合真实世界,对标注员的工作量以及综合素质要求较高。当前ChatGPT可能会出现“创造不存在的知识”、“主观猜测提问者意图”等问题,模型的优化将是一个持续的过程。
3、发展瓶颈:人工智能的安全性和伦理约束
ChatGPT本身的缺陷或许可以通过收集更多、更丰富的语料库,提高训练和优化的效率和质量,以及开发人工智能检查和修改的工具来改善,但是更深层次的,ChatGPT引起了人们对AIGC行业中安全性、伦理约束和创造力的思考。
由于RLFH并不能完全避免ChatGPT训练库中学习到的不道德或有偏见的回答,也会导致在模糊提示或引导回答的过程中,让ChatGPT输出一些有害信息,导致输出结果的安全性降低。由于人工智能缺乏对伦理和常识的价值判断能力,也没有有效的约束方式,一旦模型存在不安全输出的可能性,ChatGPT将容易被滥用。因此,为了提高ChatGPT输出内容的真实性和安全性,减少或拒绝有害信息的输出,在ChatGPT模型中添加限制或内置“内容安全过滤”模块是必要的。目前OpenAI正在进行相关研究,增强GPT系统对用户意图的理解,并视情况筛选指令执行,推动自然语言交互工具的安全性提高。
此外,在创造性、创作伦理和知识产权等方面并未形成有效界定。在数据挖掘、大规模计算、统计、多线程工作等数据处理分析领域,人工智能有着人类不可比拟的优势,但是以“创新和感知”为基础的创造过程是机器学习和模型难以训练的。目前ChatGPT能够在用户的引导下快速生成小说、诗歌、散文、编程等需要创造力的内容,或许将对创作者和以版权为基础的行业造成冲击。文本生成的过程是基于数据库内容的学习,这是否会构成对被抓取作品的侵权,ChatGPT生成的文本内容是否具有著作权,是否属于该用户等等一系列问题的答案尚不明确。
4、技术拐点:基于人类反馈的强化学习
ChatGPT受到广泛认可的重要原因是引入新技术RLHF(Reinforcement Learning with Human Feedback),即基于人类反馈的强化学习。RLHF解决了生成模型的一个核心问题——alignment(对齐),即如何让人工智能模型的产出和人类的常识、认知、需求、价值观保持一致。为实现ChatGPT模型训练,需要以下三个步骤:
根据采集的数据集对GPT-3进行有监督的微调(SFT):由人工智能训练师提供对话,在对话中他们扮演用户和人工智能助手。训练师根据模型编写的建议,编写自己的回答。将这个新的对话数据集与Instruct-GPT数据集混合,并将其转换为对话格式;
收集人工标注的对比数据,训练奖励模型(Reword Model,RM):收集人工智能训练师与聊天机器人的对话,并让训练师对模型的不同回复进行排名。利用奖励模型,可以使用近端策略优化对模型进行微调。最后对以上过程进行多次迭代计算;
使用RM作为强化学习的优化目标,利用PPO算法微调SFT模型:再次随机挑选人类提问,并基于PPO的强化学习算法对监督训练后精调过的模型进行再次微调。将挑选的问题输入PPO模型,并用RM奖励信号对模型进行训练。
02
技术发展路径
ChatGPT的名称来源于它所使用的技术架构GPT,即Generative Pre-trained Transformer,是一种强大的生成式预训练语言模型,能够完成复杂的自然语言处理领域(NLP)的任务,例如文本生成、机器翻译、代码生成、问答、对话AI等。GPT模型在上述任务中并不需要监督学习,但模型训练过程需要庞大的训练语料、模型参数和强大的计算资源。在结构上,GPT基于堆叠的Transformer组件进行编解码,通过提升训练语料的规模和质量、提升网络参数数量来完成GPT系列的迭代过程。近五年来GPT的发展过程也证明了:模型能力的提高与参数量和预训练数据量有直接关联。
1、技术迭代
(1)GPT初代:无监督的预训练结合有监督的模型微调
2018年,在自然语言处理领域(NLP)刚兴起时,OpenAI就推出了初代GPT,它的运行逻辑是:先通过无标签数据学习生成语言模型,并能够运用于一些与有监督任务无关的NLP任务中。此后再根据特定的下游任务进行有监督的微调,提高其泛化能力。常用的有监督任务主要有:
自然语言推理(Natural Language Inference):判断两个句子的关系,是包含关系、矛盾关系或者中立关系;
问答和常识推理(Question answering and commonsense reasoning):通过输入的文章和若干个问题及其候选答案,输出为每个答案的预测概率;
语义相似度(Semantic Similarity):判断两个句子是否语义相关;
分类(Classification):判断输入文本的指定类别。在经过有监督的微调后,GPT-1的泛化能力会得到明显提升,且随着训练次数的增加,GPT-1的性能逐步提升。但是初代GPT仅仅使用了解码器decoder部分,其transformer结构中对于词向量的学习能力得到发挥,能够实现较好的语言理解,适用于文本生成领域,但在通用语言和会话交流方面,还有较大的欠缺。
(2)GPT-2:扩展了网络参数和数据集,进行多任务学习
相较于初代GPT,2019年推出的GPT-2整体上结构和设计没有变化,但学习目标是使用无监督的预训练模型作为有监督学习的任务,其核心逻辑在于让所有有监督学习成为无监督语言模型的子集。换言之,GPT-2可以在数据量足够丰富且模型容量足够大时,通过训练语言模型就能够完成有监督学习的任务。实际训练中,GPT-2和GPT初代不同点在于:
更广泛的信息来源:在预训练时扩充NLP任务的数据集到40G;
更庞大的网络参数:将transformer的层数增加到48,隐层(hiddenlayer)维度扩展到1600,实现了15亿的参数量;
不再针对不同的任务建模微调(finetune):将机器翻译、自然语言推理、语义分析、关系提取等10类任务统一建模为一个分类任务,让模型在预训练中自己识别任务。
在性能方面,GPT-2可以在多个特定的语言场景下良好地完成NLP任务,除了语言理解能力外,还可以胜任翻译生成、故事编写、总结摘要等。这些能力基于海量数据和大量参数训练的词向量模型,不需要监督微调和额外的训练即可迁移,基本实现了元学习(meta-learnnig)。同时,GPT-2能够让数据库中词向量包含的信息在多任务中通用,实现了信息脱离具体的NLP任务存在,也证明了随着模型容器和数据量扩充,GPT的无监督学习具有很大的提升空间。
(3)GPT-3:海量参数,成就最强大的语言模型
对比GPT-2,2020年推出的GPT-3最显著的特征是庞大的数据量和参数投入,整体训练过程耗资1200万美元,投入数据量达上万亿,模型参数量达到1750亿。虽然GPT-3延续了前两代GPT的技术架构,但改变了“大规模数据集预训练+下游数据标注微调”的方式,采用情境学习(in-context learning)来提高模型对话输出的性能。基于情境学习对于模型的引导,GPT-3在示例学习(X-shot learning)中提升回答的准确性。在训练过程中,few-shot learning将提供10-100个示例和任务描述供模型学习;one-shot laerning提供1个示例描述;zero shot则不提供示例,只是在测试时提供任务相关的具体描述。这三种学习方式的效果与模型容量成正相关,且多个示例学习的增强效果高于单个示例或不提供示例。换言之,在超大模型的训练下,GPT-3的匹配正确答案的准确率大幅提升。
在现存大量语言模型中,GPT-3的规模和语言能力几乎是最强大的。它能在不做fine tuning的情况下,在一些传统的NLP任务中表现得更好,包括实现闭卷问答、模式解析、纯语言建模、机器翻译等;在新的领域,GPT-3将NLP的应用扩展到缺乏足够训练数据的领域,例如在开发程序代码、文章生成和信息检索领域取得了实质性的进展。此外,在UI设计、图像生成和艺术创作等领域,GPT-3的功能也更加强大,可以不经过微调就补全图像样本,或者实现简单的视图交互设计,将应用领域从语言处理领域逐渐拓宽,实现了从语言到图像的转向。
然而,GPT-3在推理和理解能力上还有较长的路要走。在自然语言推理(NLI)中重点关注句子之间的关系,由于GPT-3的阅读理解性能存在一定缺陷,在NLI任务中表现不佳;类似的,在物理、科学的常识推理技能表现中也存在一定问题。
(4)InstructGPT和ChatGPT:更好的遵循用户意图,更少的虚假信息
相较于GPT-3,OpenAI在2022年初发布了InstructGPT。该语言模型在GPT-3的基础上进行微调,并在工作原理上增加了对齐研究,强化InstructGPT模型的语义理解;同时,通过“基于人类反馈的强化学习(RLHF)和监督学习”来提高输出质量。具体地,开发人员可以将训练划分为三个阶段:
第一阶段:冷启动阶段的策略模型。随机抽取用户提交的指令或问题,即prompt,并进行专业的人工标注,用这些指定的prompt和高质量答案共同微调GPT-3.5模型,使之初步具备理解输入指令或问题的能力。
第二阶段:训练回报模型(Reward Model,RM)。在第一阶段生成的众多结果中,根据结果质量由人工标注排序并作为训练数据,通过监督学习中的匹配排序(pair-wise learning to rank)训练回报模型对语言模型预训练的输出结果评分,回答质量越高,分数越高。
第三阶段:采用强化学习来增强预训练模型的能力。利用第二阶段学好的RM模型更新预训练模型的参数,不断从prompt库中抽取新命令,通过PPO(Proximal Policy Optimization)算法生成回答后,循环执行第一到三阶段进行强化训练,最终鼓励LLM模型能够输出更高质量的回答。公众号《 投研锋向 》
虽然InstructGPT的参数量仅为13亿左右,相比于GPT-3缩小了100倍以上;但在遵循指令方面,能够更好地遵循用户意图,将有害的、不真实或者有偏差的信息输出最小化。在优化的模型上,ChatGPT基于InstructGPT进一步改进,在模型结构和训练流程上遵循上述方式,但收集和标注数据的方式上发生了变化。
InstructGPT模型需要先完成类似的输入、输出匹配,取得多个匹配结果后再跟模型的预训练数据对比,在第二阶段的RM中只有奖励、没有惩罚机制;而ChatGPT则是在输入prompt、模型输出多个answer后,直接对输出结果进行人为排序,根据排序后的结果,让模型完成预训练中从最优到最劣的排序。通过采取监督学习的方式让模型学习人类排序的方式。
1、发展趋势
我们认为,ChatGPT经历了人工智能发展的三大趋势。
机器学习:2012年左右,随着基础算力的提升,全球已经开启人工智能热潮即大数据时代。政策、资本先行,应用场景逐渐丰富。机器学习是AI的一种技术方向,无论是自然语言处理还是机器视觉都是机器学习的应用。
神经网络:2015年左右开始繁荣爆发,神经网络是实现AI深度学习的一种重要算法,是通过对人脑的基本单元神经元的建模和链接,探索模拟人脑系统功能的模型,并研发出的一种具有学习、联想、记忆和模式识别等具有智慧信息处理功能的人工系统。
Transformer算法:2017年左右,是图型神经网络的一种,Transformer开始广泛应用于机器翻译之中,逐步取代循环神经网络(RNN),不再使用递归,而是采用了注意力机制进行优化,通过自我监督学习或无监督方法进行训练,优点在于建模能力强,通用性强,可扩展性强,能够更好的进行运算。而ChatGPT则是在该算法上不断迭代、演进、升级最后生成的一种算法。
03
产业发展现状
1、国内外巨头加速布局,推动赛道发展
国外头部机构引领技术和商业应用,国内整体进度落后2~3年。根据北京智源人工智能研究院介绍,当前国外研究机构在这个领域具有较大优势,领先国内2~3年,尤其是基础技术研究方面。如2022年清华大学联合智谱AI发布的中英双语模型GLM-130B,参数规模与OpenAI在2020年发布的GPT-3接近,拥有1300亿参数的开源开放中英双语双向稠密模型。过去3年来,OpenAI搭建大模型基础框架,通过GPT-1/GPT--2/GPT-3/ChatGPT引领行业发展。虽然国内最近两年也发布了很多相关大模型,但本质上还是在OpenAI的基础上实现的,原创性及创新性方面还需持续提升。
微软:计划将ChatGPT加入必应、Office项目。早在2019年微软就向OpenAI投资十亿美元,近期宣布将继续向OpenAI投资数十亿美元。微软作为OpenAI背后投资者,积极把握ChatGPT优势,于2023年2月2日官方公告宣布希望把ChatGPT整合进Office(包括Word、PowerPoint、Outlook等软件)以及微软旗下的搜索引擎Bing。微软除了通过OpenAI布局AIGC外,还有Copilot。2021年6月微软发布了Copilot,是微软Visual Studio Code中内置的一项软件开发人工智能协助服务,它支持各种语言和框架,可以在集成开发环境内为整行或整个功能提供建议。
谷歌:推出基于人类反馈强化的Sparrow模型。谷歌旗下DeepMind在2022年9月提出Sparrow模型,和ChatGPT类似,采取了一种基于人类反馈的强化学习(RL)框架。据DeepMind创始人Demis Hassabis在2023年1月12日《时代》专访,DeepMind进行开发的Sparrow可能会在2023年晚些时候进入测试阶段。此外,谷歌在AIGC领域的其他开发上也有着不错的表现,例如虽然Chinchilla的参数量为700亿,明显少于GPT-3的1750亿,然而Chinchilla在几乎所有的语音任务都处于AIGC同类产品的领先地位。
百度:全面布局AIGC,类ChatGPT产品将于3月发布。早在2022年1月,百度就有AIGC产品问世,在当时的百度Create大会上,开场视频便是数字人希加加在不同维度的虚拟世界跑酷穿梭;更有数字人乐队演绎歌曲,从作词、作曲到编排,全部是由AIGC生成。2022年8月,百度基于自身的文心大模型也推出了AI绘画平台:文心一格。2022年9月的百度生态大会上,百度发布了AI助理,该产品覆盖了各种AIGC应用,包括AI自动生成文字、图片,图片转换成视频。当前,百度已经和数十家权威媒体成立“AIGC媒体联盟”,希望能够利用AIGC来改变如今的媒体行业;并计划推出一款类似ChatGPT的AI聊天机器人服务,预计将于3月发布。
2、生成式AI赛道火热,资金扎堆涌入
根据Pitch Book统计数据,2022年生成式AI赛道总共获得约14亿美元的融资,几乎达到了过去5年的总和。不仅包括OpenAI、Stability AI等明星公司,其他初创企业如Jasper、Regie.AI、Replika等均获得资本青睐,获得上亿美元融资。
3、ChatGPT应用场景广阔
ChatGPT具有广泛的应用空间。ChatGPT主要应用包括如下场景:
对话机器人:由于ChatGPT强大的的语言理解能力,可广泛应用于多种对话问答场景,包括智能客服、虚拟人、机器人、游戏NPC等应用领域。
智能创作:除了擅长对话问答之外,ChatGPT还具备强大的文本内容创作能力,可用于创意写作(诗歌、新闻、小说、学术等)、命题写作(风格模仿、文本续写、主题拟定等)、摘要生成(学术类、小说类、新闻类等)等。尽管ChatGPT只是一个对话式的语言模型,本身不能生成多模态内容,但可以把它输出的结果作为一个中间变量输入其他模型,从而进一步拓展其应用。例如,通过ChatGPT和Stable Diffusion的结合使用,能够生成艺术性极强的画作。
编程机器人:作为对话式大型语言模型,ChatGPT擅长回答用户提出的问题,其中最关键的是ChatGPT具备与编程相关的基础知识。可以将ChatGPT打造成编程问答机器人,根据用户的需求编程或debug,大幅提升编程效率,改善用户编程质量。
ChatGPT助力用户提效,应用落地多面开花。ChatGPT凭借出色的表现受到广泛关注,众多公司都在商业化方面进行积极探索。Buzzfeed近期宣布计划依靠ChatGPT加强内容创作,其股价两天上涨超过300%。
ChatGPT在学术、房产等领域的应用逐渐落地。除了各大科技公司,ChatGPT也开始应用于学术、房产等领域。根据在线课程供应商Study.com对100多名教育工作者发起了一项调查,82%的大学教授知道ChatGPT,而小学教育工作者的这一比例为55%,超过三分之一(34%)的教育工作者认为应该在学校和大学中禁止ChatGPT,而66%的教育工作者支持学生访问它。不过在学术领域,ChatGPT可能加剧学术不端现象,因此在相关领域开始被抵制。知名期刊《Science》、《SpringerNature》声称不能将ChatGPT列为作者,一些美国大学则宣布增加手写论文和口头考试的比重。美国房产中介也开始使用ChatGPT,用于房源信息撰写、房贷计算等。
总之,随着ChatGPT的应用落地,商业化探索成为关注焦点,云服务、内容营销、咨询服务等均有望实现商业化落地。OpenAI很注重商业应用,GPT-3已经拥有大量客户。随着微软、谷歌等巨头加码,ChatGPT应用场景有望进一步拓宽,相关领域商业化落地有望加速。
04
破局:打开AIGC应用新局面
ChatGPT属于AIGC的具体应用,相比过去的AI产品,在模型类型、应用领域、商业化等层面呈现出新的特点。技术方面:ChatGPT属于自然语言处理领域,与早期的自然语言技术相比,ChatGPT采用大模型进行训练,并加入人工反馈增强学习(RLHF)方法,实现了效果的明显提升;应用方面:ChatGPT属于生成式AI,相比于分析型AI,不局限于已有的内容,已在文艺创作,代码处理,营销等多个创造性场景内得到应用;商业化方面:ChatGPT在商业化方面彰显出强于以往AI应用的潜力,一方面用户数快速增长,另一方面得到了以微软为代表的科技巨头的支持,应用有望快速推广。
1、技术新:Transformer架构+RLHF,NLP领域迎来新突破
Transformer架构逐步成为主流。自然语言处理从技术的发展可分为三个时期:一般机器学习模型阶段(2013年前):自然语言处理多采用机器学习和一般的统计学方法来分析词语或者句子之间的联系;深度学习模型阶段(2013-2017年):深度学习算法被引入NLP领域,在这一阶段内主要通过增加层深和模型容量提升训练效果;Transformer架构逐步成为主流(2017至今):2017年transformer架构面世,使得深度学习对语言的理解更加深入,基于transformer架构的GPT及BERT的陆续发布,影响力进一步扩大。公众号《 投研锋向 》
ChatGPT模型优势在于语言生成。2017年后,应用范围最广的是BERT和GPT模型以及在这些模型基础上做出的改进模型。BERT模型在结构上是一个多层的双向transformer的Encoder模型,GPT是由12个Transformer中的Decoder模块经修改后组成。相比来说,BERT模型的核心优势在于自然语言理解,GPT模型的核心优势在于自然语言生成。BERT的改进模型有RoBERTa、ALBERT等,GPT的改进模型有GPT2、GPT3、ChatGPT等。随着人工反馈增强学习(RLHF)方法的加入,模型能够在与人类标注者互动时通过人类的反馈进行强化学习。人类标注者则可对初始模型生成的结果进行修改、比较和排序,帮助模型进行训练。ChatGPT在效果上取得重大突破,在语言生成领域形成优势。
2、应用新:生成式AI应用于创造性工作
生成式AI应用于创造性工作。AI可分为生成式AI和分析型AI,其中分析型AI(Analytical AI),主要在给定数据的情况下,通过分析找出规律和关系,并在此基础上生成报告或给出建议。比如通过追踪客户行为以刻画用户画像,并基于此进行个性化推荐,实现精准营销;通过收集城市中传感器的大量数据并分析,预测天气及环境污染情况,从而帮助相关部门进行政策制定。不同于分析型AI局限于分析已有内容,生成式AI(Generative AI)可以通过学习已有数据和信息生成多种形式的新的内容,在创造性工作的领域进行应用,目前生成式AI的应用主要包括生成文本、图像、对话、音视频、代码、3D等。
ChatGPT是典型的生成式AI。ChatGPT通过学习大量语料,并通过生成模型生成文本回答,其基础GPT-3是一个大型语言模型。该模型通过对大量语料的预训练,学习了语言的语法、语义、语用等特征,并通过对语言的生成任务进行微调,以适应各种应用场景。目前,除了ChatGPT外,有大量AIGC应用产品基于GPT-3模型。
3、商业化潜力:巨头纷纷发力,商业化潜力较大
ChatGPT用户突增彰显商业化潜力,内容生成或成ChatGPT重要应用。据各公司官网,ChatGPT从0到100万用户数仅花费5天,速度远超其他平台。从活跃用户角度,据Similarweb,2023年1月期间,ChatGPT平均每天约有1300万独立访客,超出22年12月一倍。用户数量的快速扩大,反映了ChatGPT具备较强的商业化潜力。
国内外巨头持续发力布局AIGC。AIGC(AI Generated Content)指由人工智能生成的内容,包括文本、图像、音频、3D等多种类型,具有高效及自动化生产的特点。近年来谷歌、亚马逊、百度等国内外巨头持续布局AIGC。2014年,谷歌以超5亿美元的价格收购人工智能公司DeepMind;2023年3月,谷歌宣布向人工智能初创公司Anthropic投资约3亿美元,建立新的合作伙伴关系;2022年11月,亚马逊宣布与AI制图平台Stability AI合作,成为其首选云合作伙伴,同时为其提供亚马逊Tradium芯片;2021年4月,华为诺亚方舟实验室联合多部门推出首个2000亿参数中文预训练模型盘古α;2023年2月,百度官宣类ChatGPT大模型新项目文心一言(英文名ERNIE Bot)。
05
商业进程分析
1、ChatGPT开启付费试点,AIGC商业化任重道远
OpenAI推出ChatGPT付费试点订阅计划,ChatGPT应用生态有望快速扩大。2月2日,美国OpenAI公司宣布推出付费试点订阅计划ChatGPT Plus,定价为每月20美元。付费版功能包括高峰时段免排队、快速响应以及优先获得新功能和改进等。ChatGPT的付费订阅是OpenAI的大模型产品商业化第一步,预示着AIGC商业化进程加速推进。订阅制的商业模式较为轻量化,对于C端客户友好,具备良好的可推广性。我们认为,ChatGPT Plus是OpenAI对于ChatGPT生态建设的第一步,ChatGPT的应用生态有望快速扩大,更多的付费商业模式将会逐步落地。
2、ChatGPT受到关注,多家公司开始布局AIGC领域
ChatGPT的高性能表现,让许多科技公司加速对AI的应用。2月2日,微软宣布旗下所有产品将全线整合ChatGPT,目前在Azure和Teams中已经有了应用,预计3月ChatGPT将内置于Bing搜索;百度计划在3月推出类似于ChatGPT的生成式搜索;数字媒体公司Buzzfeed计划使用OpenAI的AI技术来协助创作个性化内容。在ChatGPT之外,一些科技巨头也开始布局AIGC领域,如Google在2月3日向人工智能初创公司Anthropic投资近4亿美元,布局ChatGPT的竞争产品。
3、AIGC带来万亿级赛道,但商业化模式仍处探索阶段
AIGC产业生态正在加速形成和发展,根据6pen预测,未来五年10%-30%的图片都将由AI参与生成,有望创造超过600亿以上的市场空间。据量子位报告统计,到2030年,AIGC的市场规模将超过万亿人民币,在内容生产领域和延伸应用领域都有着广阔的空间。但由于AIGC目前产业化程度有限,大量业务场景尚未成功变现,商业模式也还处于探索阶段,未来几年都将是AIGC商业化的探索期。我们认为,现阶段AIGC的商业模式仍会以ToB为核心,B端客户基于对企业降本增效的要求,对AIGC的需求和付费意愿是较为强烈的;面向C端用户的商业化存在订阅制和按次收费等模式,AIGC能够大幅降低大众用户的创作门槛,未来随着AIGC生态不断完善,市场空间也十分可观。
06
相关产业链及重点企业梳理
1、产业链概况
ChatGPT属于AIGC的具体应用,以ChatGPT为代表的AIGC产业链雏形已初步呈现。其最上层为算力层,算力层为算法层提供算力支撑;第二层级为算法基础层,通过数据收集、标注、注释为算法中间层提供原材料;第三层为算法中间层,通过AI模型开发、训练来生成AI模型,其中包括垂直化、场景化、个性化的模型;最后层级为应用层,运用人工智能生成内容用于各种程序,其中包括文字、图片、音视频等服务内容。
也可以说,算力、算法模型、应用构成了AIGC产业链。从OpenAI推出的ChatGPT我们发现,ChatGPT依赖于GPT大模型,而GPT大模型则需要依靠微软Azure超算中心提供算力训练,因此我们认为ChatGPT等AIGC产业依然离不开算力、算法模型、应用的基本框架。公众号《 投研锋向 》
AIGC模型训练将产生大量算力需求。AIGC模型有大量参数及数据参与训练,因此对算力基础设施有较高要求,云计算服务商基于此逻辑布局AIGC产业链。例如ChatGPT选择微软Azure云服务,Stability AI选择了亚马逊AWS云服务。当下国内主要算力提供商包括阿里、腾讯、百度、商汤。
大模型的算法复杂度、高训练成本造就较高的进入壁垒。模型是AI的灵魂,本质上它是一套计算公式和数学模型,“参数”可以看作是模型里的一个个公式,这意味着参数量越大、模型越复杂,做出来的预测就可能越准确,目前业界主流的AIGC模型都是千亿级参数量的水平。据Gartner技术成熟度曲线,当前生成式AI仍处于技术萌芽期,新进入者若希望在类ChatGPT产品上做布局的话,在大模型设计、模型训练、应用场景落地等维度均需要加大投入。
科技巨头掌握AI大模型技术。类似GPT3的AI大模型构成必须满足以下特点:必须有大量的语料素材;强大的AI团队,不仅是构建模型,而且能够根据行业趋势对模型做持续优化和架构升级;资金支持,大模型的算力要求高,模型训练超过千万美金需求量。我们判断AIGC领域头部企业将逐渐构建自身壁垒,剩下的初创公司将依附于头部企业去做应用,例如游戏公司可以利用大模型去生成NPC里面自然式对话,因此我们认为AIGC产业链未来将会分为技术提供方和应用开发者两种。
国内具备AIGC大模型构建能力的主要为具备媒体属性及AI属性的公司。以百度、腾讯、字节跳动为例,业务逻辑里面包含媒体属性,有大量的语料库可以去完成大模型的设计。此外,科大讯飞通过语音识别、智慧教学等应用同样积累了重组的语料素材。
ChatGPT打开海量应用场景:ChatGPT应用场景广泛,拥有潜在空前蓝海,其功能覆盖各个板块,大致将其分成生成应用和布局、搜索和数据分析、程序生成和分析、文本生成、内容创作、一般推理和其他七部分。基于其庞大的算力和算法分析,领域有望覆盖教育、科研、游戏、新闻等多重板块,并有望持续拓展,市场潜力较大。
2、重点企业
(1)腾讯:混元AI大模型赋能多业务场景落地,实现技术提效
基于海量社交数据、机器学习、NLP等技术积累,腾讯于2022年12月推出了万亿中文NLP预训练模型HunYuan-NLP-1T(混元AI大模型),是目前国内首个低成本、可落地的NLP万亿大模型,且登顶自然语言理解任务榜单CLUE。在模型架构层面,和其他大模型相比,混元首创“层级化”表征,对输入文字/视频做分层后再进行关联性检索,大幅提升检索准确度。
大模型多产品协同,广告降本提效显著。混元涵盖NLP、CV、多模态、文生图等大模型,对内已和腾讯广告、微信、QQ、游戏等产品实现协同,并通过腾讯云对外商业化。有别于百度文心与搜索的融合,腾讯大模型在广告提效层面更为显著:依托于太极机器学习平台,腾讯广告通过两大模型训练(混元AI大模型与广告大模型)强化内容理解、精准匹配、文案创意生成等能力,有效提升投放ROI。同时,在大模型广告智能创作下,文案转视频功能亦大幅降低视频广告制作成本。
实验室矩阵支撑AIGC能力建设,围绕“内容+社交+游戏”多元布局。腾讯依托AI Lab、优图实验室、微信AI等多个AI实验室,积极布局AIGC产品,包括AI生成文字(梦幻写手Dreamwriter)、AI生成游戏(绝悟AI)、AI绘画(腾讯QQ小世界AI画匠)、数字人(AI Lab数字人PaaS方案,创建的数字人“艾灵”)等。例如,腾讯2022年12月由AI Lab研发的智能创作助手文涌(Effidit)更新至2.0版本,新增风格化智能续写功能。
(2)科大讯飞:自然语言处理的全球龙头厂商
科大讯飞于2022年初正式发布了“讯飞超脑2030计划”,其目的是向“全球人工智能产业领导者”的长期愿景迈进。该计划是公司的核心战略,目的是构建基于认知的人机协作、自我进化的复杂系统,即让机器人感官超越人类,具备自主进化的能力,打造可持续自主进化的复杂智能系统,助力机器人走进千家万户。其计划分为三个阶段性里程碑:
第一阶段(2022-2023):推出可养成的宠物玩具、仿生动物等软硬件一体机器人,同期推出专业数字虚拟人家族,担当老师、医生等角色;
第二阶段(2023-2025):推出自适应行走的外骨骼机器人和陪伴数字虚拟人家族,老人通过外骨骼机器人能够实现正常行走和运动,同期推出面向青少年的抑郁症筛查平台;
第三阶段(2025-2030):最终推出懂知识、会学习的陪伴机器人和自主学习虚拟人家族,全面进入家庭。
(3)商汤:拥有300亿参数视觉大模型
商汤是国内最大的计算机视觉软件公司,根据IDC发布的《1H22AI及软件市场追踪报告》,商汤在国内计算机视觉市场分额为20.7%。截止到2022年6月30日为止,公司累计商用模型4.9万个,专利资产数达到12,502个。公司从2018年至今累计研发投入超过100亿元人民币,拥有4,093个研发人员。
技术储备:自研训练框架,自建超算集群
和其他AI软件公司相比,公司的模型都是在自建的超级计算集群上做训练。公司建立了超过23个超算集群,拥有超过20,000个GPU,同时,公司有自研的深度学习训练框架(SenseParrots),比其他只支持固定计算路径的训练框架,SenseParrots有内置的基石编译器,可以实时快速编译计算路径。这些底层的算力基础设施及训练框架,使公司在AI模型的训练上更高效。
技术路径:打造视觉基模型,更快更高效开发特定场景
AI软件商汤的技术储备让公司在开发AI软件上选了不一样的技术路径。公司已经训练具有高达300亿个参数的计算机视觉(CV)基模型。商汤的超大基模型在ImageNet大规模识别任务中实现超90%精度,与谷歌、微软共同跻身世界前三。基于大模型的自动数据生产线实现了数据自动标注,速度相较业界传统人工标注提升600倍,成本降低至1/500,且标注精度跟人工水平一致。
基模型聚集来自众多场景海量数据的通用知识,使得在开发针对特定场景的AI软件时,公司可以利用已经训练好的基模型,以更少的训练数据生成特定场景模型,这个能有效处理长尾场景训练数据不足的问题。
变现空间:订阅模式的AI-as-a-Service
商汤已建成并启用的AI超算算力规模超过2.5exaFLOPS,其中在上海临港的AI智算中心(AIDC)上线了1.745exaFLOPS,其中对外服务的算力突破1exaFLOPS,客户包括学术机构和企业(特别是车企客户)来订阅。
(4)拓尔思:全文检索技术的始创者
拓尔思是中文全文检索技术的始创者:领先的大数据、人工智能和数据安全产品及服务提供商,成立于1993年。其主要核心业务包括软件平台产品研发,行业应用系统解决方案和大数据SaaS/DaaS云服务三大板块,涵盖大数据、人工智能、互联网内容管理、网络信息安全和互联网营销等领域方向。
公司技术实力雄厚:人工智能领域:公司是国内最早从事自然语言处理(NLP)研发的企业之一,在NLP、知识图谱、OCR、图像视频结构化领域都具备自主可控的底层技术;在大数据方面,数据采集、挖掘、分析等底层技术均实现技术可控。
公司行业领域覆盖广:由于公司人工智能和大数据核心技术具有跨行业/领域的通用普适性,因此公司技术产品和服务所支持的业务应用落地场景众多,涵盖多个行业/领域,大型或头部企业级客户超过8000家。广泛覆盖于金融、制造、能源、互联网、传媒、政府、公共安全等领域。
(5)云从科技:人机协同生态体系赋能商
云从科技是一家专注于提高人机操作系统和行业解决方案的人工智能企业,致力于推进人工智能产业化进程和各行业的转型升级。一方面公司通过业务、硬件设备、软件应用,为客户提供数字化、智能化的人工智能服务。另一方面,公司基于人机协同操作系统,赋能金融、出行、商业等场景。公司自主研发了融合人工智能技术的人机协同操作系统和部分AIoT设备。
人机操作系统:系统结构上,公司自主研发人工智能应用的设计、开发、训练的操作系统,包含AIoT设备、人工智能算法和引擎、AI模型和训练等核心模块,实现AI能力的自动部署、监控和边端感知;产品功能上,通过底层AI业务流程引擎和决策支持系统,优化人机交互体验,提升业务流程执行效率,让人机具有决策功能;产品分类上,包含人机协同和整体操作系统、“轻舟平台”的服务平台及配套AI应用的SaaS服务。
人工智能解决方案:云从科技基于自主研发的人机操作系统及其应用产品和AIoT硬件设备,提供面向智慧金融、智慧治理、智慧出行、智慧商业的四个领域综合解决方案,同时提供该领域的定制化软件开发服务。
(6)海天瑞声:AI训练数据服务领军者
海天瑞声是我国领先的训练数据专业提供商,发行人始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。发行人所提供的训练数据覆盖智能语音、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景。
公司产品倍受认可:公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、微软、亚马逊、三星等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、搜索服务、智能驾驶、机器翻译等多种人工智能产品相关算法模型的训练过程中。
公司具备多重技术领先性:公司核心技术先进性包括算法与数据处理技术并用、工具和平台共建、在语音语言学基础研究方面有深厚积累等,公司可提供数据的一站式解决方案,广泛支持复杂的算法数据标注需求。
07
市场前景展望
1、ChatGPT 引发范式革命,AI 产业发展前景可期
ChatGPT是AIGC(AI Generated Content人工智能生成内容)技术进展的里程碑,该模型使得利用人工智能进行内容创作的技术成熟度大幅提升,有望成为新的全行业生产力工具,提升内容生产效率与丰富度。未来文学创作、图片绘制、视频制作、游戏内容生成都可使用AI实现。
通过拆解 ChatGPT,我们发现:其一,单一大模型或成为未来AI训练主流方向。其二;大模型训练可以积累底层语言能 力,但需要大算力支持。其三,预训练语言模型和Transformer架构是模型底层能力的根源;其四,ChatGPT 商业化应用前景广阔。基于此,我们认为国产厂商或将训练出自己的GPT模型,AI 产业有望迎来景气周期。
2、行业加速迭代,格局迎来骤变
谷歌紧急召回创始人,人工智能发展催化行业变革。2022年12月,谷歌紧急召回创始人拉里·佩奇和谢尔盖·布林,讨论应对ChatGPT的相关计划。根据statcounter数据,2020.01-2022.11谷歌的全球市场份额超90%,是全球搜索引擎市场的绝对霸主,而ChatGPT的出现对谷歌搜索引擎形成了挑战。
ChatGPT可能导致搜索引擎商业模式发生骤变。谷歌具备自然语言(NLP)的技术储备,比如对话系统LaMDA就是成果之一,当前搜索引擎给出的链接往往更加全面,而ChatGPT组织信息的方式更加简练,能够帮助整合信息、梳理段落要点,因此使用方面ChatGPT并不具备压倒性的替代优势。然而谷歌的收入结构当中广告占据了58%,一旦引入生成式AI搜索引擎,用户就会减少在链接间跳转、浏览的时间,也就减少了广告投放的空间,这会使谷歌搜索引擎的盈利模式发生根本性的变化。对于小型搜索引擎公司而言,ChatGPT带给了他们弯道超车的机会。
3、产业化方向众多、前景广阔,MaaS或为长期商业化方向之一
我们认为中国领先的人工智能云厂商都有能力(数据、算力、模型)来提供类ChatGPT的服务,但因为各公司业务各有侧重,各厂商在AIGC领域的应用或形成差异化。但长期视角下,MaaS(Model-as-a-service)可能是潜在的长期商业化方向之一,模型训练、维护和部署有望逐步转移至云端,这样的方式有助于帮助客户降低对模型开发和维护的依赖,从而更专注在主业的投入、提升运营效率。而MaaS业务或将为云业务营收带来较为显著的增量,我们认为各大云厂商会持续加强对AIGC及类ChatGPT领域的投入,以支撑云业务的长期发展。但短期而言,因ChatGPT仍存在数据时效性低、可靠性不足等问题,大规模的商业化或仍需要较长时间。
END
想要获取海量投研信息?
想要了解事件背后的逻辑、最硬核的投研逻辑?
(更多投研内容可关注公众号《 投研锋向 》加入社群,体验更多0预期差纪要信息)
免责申明:以上内容仅供学习交流,不构成投资建议。
上一篇:设计方案
下一篇:支付宝年度关键词怎样找(什么样的标题最容易撩用户)
最近更新旅游资讯
- 北京IN10018片II期临床试验-IN10018 或安慰剂联合PLD 治疗铂耐
- 重庆西南医院体检中心
- 价值理论论文范文
- 内娱出现第一个“侠女颜”!刚出道4天,小白花们慌了…
- 狗的射速又快又烫
- 震惊!原来我们那些年追过的电视剧三观如此畸形……
- 社区获得性肺炎合并脓毒症患者临床特征及死亡危险因素分析
- 笛安的“北京爱情故事”,满满的欲望和贪婪
- 读《金瓶梅》第13章:李瓶儿为何能看上西门庆?
- 十六岁高二学生没事时看看什么书好?
- 父母中毒而亡,警方问13岁女儿看到凶手没,女孩笑了:我就是凶手
- 别黑陈凯歌了,他有一部神作还不够吗?
- 高三沉沦观后感话题作文800字范文
- 思辨的张力
- 狐文化特辑【十三】狐妖余论:混迹红尘的修仙之狐——「仙狐」
- 喜欢K歌,看电影吗?这些英文一定要掌握!
- 21世纪最佳20部日本动画
- 中西方伦理思想发展比较研究
- 马鞍山人民医院医院历史
- 如何以「我穿越成了一个小妾(或通房丫头)」为题写一篇小说?
- 青海诗选刊 2017年第24期(总第36期)
- 吴军民
- 实用 | 教你如何做好校园景观!
- 无忧传媒三 片
- 《西游记》新解(十套珍稀古画插图)56:神狂诛草寇,道昧放心猿——遇强盗,唐僧软