
最近基于深度学习大火的AIGC将会抢原创工作者的饭碗?
为了帮助不同领域的受众群体更好地了解AIGC,现在从发展背景、技术能力、应用价值三个方面深入剖析了它的概念。
1、发展背景
AIGC的兴起源于深度学习技术的快速突破和数字内容供给需求的不断增加。
1)技术进步推动了AIGC可用性的提高
在人工智能发展的初期,虽然在AIGC上进行了一些初步的尝试,但由于各种因素,相关算法大多基于预定义的规则或模板,远没有达到智能创造的水平。近年来,基于深度学习算法的AIGC技术快速迭代,彻底打破了模板化、公式化、小范围的限制,可以快速灵活地生成不同模式的数据内容。
2)海量需求牵引 AIGC 应用落地
随着数字经济与实体经济融合的不断深入,以及Meta、微软、字节跳动等平台巨头的数字场景向元宇宙的转型,人类对数字内容总量和丰富度的整体需求不断增加。数字内容的生产取决于想象力、制造能力和知识水平;传统的内容生产方式受限于人力资源有限的制造能力,逐渐无法满足消费者对数字内容的需求,供给侧产能瓶颈日益凸显。基于以上原因,AIGC已被广泛应用于各个行业,其市场潜力也逐渐显现。
2、技术能力
根据面向对象和实现功能的不同,AIGC可以分为三个层次。
1)智能数字内容孪生
其主要目标是建立从现实世界到数字世界的映射,并将物理属性(如大小、纹理、颜色等)和社会属性(如主体行为、主体关系等)在现实世界中高效且可感知进行数字化。
2)智能数字内容编辑
其主要目的是建立数字世界与现实世界的双向交互。基于数字内容孪生的基础上,从现实世界控制和修改虚拟数字世界中的内容。同时利用数字世界高效率仿真和低成本试错的优势,为现实世界的应用提供快速迭代能力。
3)智能数字内容创作
其主要目标是让人工智能算法具备内容创作和自我演化的能力,由此形成的AIGC产品具备类似甚至超越人类的创作能力。以上三个层面的能力共同构成了AIGC的能力闭环。
3、应用价值
AIGC将有望成为数字内容创新发展的新引擎,为数字经济发展注入新动能。
1)AIGC 能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求;同时能够创新内容生产的流程和范式,为更具想象力的内容、更加多样化的传播方式提供可能性,推动内容生产向更有创造力的方向发展。
2)AIGC可以支撑数字内容与其他产业的多维度互动、融合渗透,从而孕育新的商业模式,打造经济发展的新增长点,为千行百业的发展提供新动能。此外,从2021年开始,元宇宙呈现出超乎想象的爆发式发展;作为数字与现实融合的“终极”数字载体,元宇宙将具有持久性、实时性、创造性等特征。它还将加速物理世界的再生产,并通过AIGC创造无限的内容,从而实现自发的有机增长。
三、AIGC关键技术落地实施
目前AIGC生成正在完成从简单的降本增效(以生成金融/体育新闻为代表)向创造额外价值(以提供绘画创作素材为代表)转移,跨模态/多模态内容成为关键的发展节点。
技术视角下,以下场景将成为未来发展的重点:文本-图像 视频的跨模态生成、2D到3D生成、多模态理解结合生成。后文将对以上技术场景的技术原理、现有进展、关键瓶颈等进行展开。
商业视角下、未来3年内,虚拟人生成和游戏AI这两种综合性的AIGC场景将趋于商业化成熟。
1、文本生成
以结构性新闻撰写、内容续写、诗词创作等细分功能为代表。基于NLP技术的文木生成可以算作是AIGC中发展最早的一部分技术,也已经在新闻报道、对话机器人等应用场景中大范围商业落地。
一方面,2020年,1750亿参数的GPT-3在问答、摘要、翻译、续写等语言类任务上均展现出了优秀的通用能力。证明了“大力出奇迹”在语言类模型上的可行性。自此之后,海量数据、更多参数、多元的数据采集渠道等成为国内清华大学、智源研究院、达摩院、华为、北京大学、百度等参与者的关注点。
目前,大型文本预训练模型作为底层工具,商业变现能力逐渐清晰。以GPT-3为例,其文木生成能力已被直接应用于Writesonic、Conversion.ai、SnazzyAl、Copysmith、Copy.ai、Headlime等文本写作/编辑工具中。同时也被作为部分文本内容的提供方,服务于Al dungeon等文本具有重要意义的延展应用领域。
另一方面,以Transformer架构为重要代表,相关的底层架构仍在不断精进。研究者们正通过增加K-adapter、优化Transformer架构,合理引入知识图谱及知识库、增加特定任务对应Embeddina等方式,增加文本对于上下文的理解与承接能力、对常识性知识的嵌入能力、中长篇幅生成能力、生成内容的内在逻辑性等。
1)应用型文本生成
应用型文本大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。2015年发展至今,商业化应用已较为广泛,最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、公司财报、重大灾害等简讯写作。据分析师评价,由AI完成的新闻初稿已经接近人类记者在30分钟内完成的报道水准。Narrative Science 创始人甚至曾预测,到 2030 年, 90%以上的新闻将由机器人完成。
在结构化写作场景下,代表性垂直公司包括Automated Insights(美联社Wordsmith)、Narrative Science、textengine.io、AX Semantics、Yseop、Arria、Retresco、Viable、澜舟科技等。同时也是小冰公司、腾讯、百度等综合性覆盖AIGC领域公司的重点布局领域。
2)创作型文本生成
创作型文本主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。
我们使用了市面上的小说续写,文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。据聆心智能创始人黄民烈教授介绍,目前文字生成主要捕捉的是浅层次,词汇上统计贡献的问题。但长文本生成还需要满足语义层次准确、在篇章上连贯通顺的要求,长文本写作对于议论文写作、公文写作等等具有重要意义。未来四到五年,可能会出现比较好的千字内容。
除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基于事实的,创作型文本还需要特别关注情感和语言表达艺术。我们认为,短期内创作型文本更适合在特定的赛道下,基于集中的训练数据及具体的专家规则进行场景落地。
在创作型文本领域,代表性的国内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Conversion.ai、Snazzy Al、Rasa.io、LongShot.AI、彩云小梦等。
3)文本辅助生成
除去端到端进行文本创作外,辅助文本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用,例如定向采集信息素材、文本素材预处理、自动聚类去重,并根据创作者的需求提供相关素材。尽管目前能够提升生产力,但我们认为相对于实现技术意义上的AI生成,能否结合知识图谱等提供素材联想和语句参考等更具有实用意义。
这部分的国内代表产品包括写作猫、Gilso写作机器人、Get写作、写作狐、沃沃AI人工智能写作。
4) 重点关注场景
长期来看,我们认为闲聊型文本交互将会成为重要潜在场景,例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AlGC叙事平台Hidden Door以及基干GPT.3开发的文木探索类游戏Aldunaeon均已获得了不错的消费者反馈。随着线上社交逐渐成为了一种常态,社交重点向转移AI具有其合理性,我们预估未来1-2年内就会出现明显增长。目前较为典型的包括小冰公司推出的小冰岛,集中在精神心理领域的聆心智能、开发了AIdungeon的Latitude.io等。
2、音频及文字一音频生成
整体而言,此类技术可应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,大大降低音乐版权的采购成本。我们目前最为看好的场景是自动生成实时配乐、语音克隆以及心理安抚等功能性音乐的自动生成。
1)TTS(Text-to-speech)场景
TTS在AIGC领域下已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。
目前技术上的的关键,在于如何通过富文本信息(如文本的深层情感、深层语义了解等)更好的表现其中的抑扬顿挫以及基于用户较少的个性化数据得到整体的复制能力(如小样本迁移学习)。基于深度学习的端到端语音合成模式也正在逐步替代传统的拼接及参数法,代表模型包括WaveNet、Deep Voice及Tacotron等。
目前的垂直代表公司包括倒映有声、科大讯飞、思必驰(DUl)、Readspeaker、DeepZen和Sonantic。
随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音,上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。
该技术目前被应用于虚拟歌手演唱、自动配音等,在声音IP化的基础上,对于动画、电影、以及虚拟人行业有重要意义。代表公司包括标贝科技、Modulate、overdub、replika、Replica Studios、Lovo、Voice mod. Resemble Ai、Respeecher、DeepZen、Sonantic、VoicelD、Descript。
2)乐曲/歌曲生成
AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言,AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。
其中,Al作曲可以简单理解为“以语言模型(目前以Transformer为代表,如谷歌Megenta、OpenAI Jukebox、AIVA等)为中介,对音乐数据进行双向转化(通过MIDI等转化路径)”。此方面代表性的模型包括MelodvRNN、Music Transformer。据Deepmusic介绍,为提升整体效率,在这一过程中,由于相关数据巨大往往需要对段落、调性等高维度的乐理知识进行专业提取,而节奉、音高、音长等低维度乐理信息由AI自动完成提取。
通过这一功能,创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作《第十交响曲》,即为AI基于对贝多芬过往作品的大量学习,进行自动续写。
Al编曲则指对AI基于主旋律和创作者个人的偏好,生成不同乐器的对应和弦(如鼓点、贝斯、钢琴等),完成整体编配。在这部分中,各乐器模型将通过无监督模型,在特定乐曲/情绪风格内学习主旋律和特定要素间的映射关系,从而基于主旋律生成自身所需和弦。对于人工而言,要达到乐曲编配的职业标准,需要7-10年的学习实践。
人声录制则广泛见于虚拟偶像的表演现场(前面所说的语音克隆),通过端到端的声学模型和神经声码器完成可以简单理解为将输入文本替换为输入MIDI数据的声音克隆技术。混音指将主旋律、人声和各乐器和弦的音轨进行渲染及混合,最终得到完整乐曲。该环节涉及的AI生成能力较少。
该场景下的代表企业包括Deepmusic、网易-有灵智能创作平台、Amper Music、AIVA、Landr、IBM WatsonMusic、Magenta、Loudly、Brain.FM、Splash、Flow machines。其中,自动编曲功能已在国内主流音乐平台上线,并成为相关大厂的重点关注领域。以QQ音乐为例,就已成为Amper music的API合作伙伴。
对这一部分工作而言,最大的挑战在于音乐数据的标注。在标注阶段,不仅需要需要按时期、流派、作曲家等特征,对训练集中乐曲的旋律、曲式结构、和声等特征进行描述,还要将其有效编码为程序语言。此外,还需要专业人员基于乐理进行相关调整润色。以Deepmusic为例,音乐标注团队一直专注在存量歌曲的音乐信息标注工作上,目前已经形成了全球最精确的华语歌曲音乐信息库,为音乐信息检索(MIR)技术研究提供数据支持。
3)场景推荐
以乐曲二创,辅助创作等场量为代表,Al编曲将在短期内成为A音频生成中的快速成长赛道。特别是由于可以指定曲目风格、情绪、乐器等,AIGC音乐生成对于影视剧、游戏等多样化、乃至实时的背景音乐生成有重要意义。
3、视频生成
视频生成将成为近期跨模态生成领域的中高潜力场景。其背后逻辑是不同技术带来的主流内容形式的变化。本部分主要包括视频属性编辑、视频自动剪辑、视频部分编辑。
1) 视频属性编辑
例如视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成视频特效、自动添加特定内容、视频自动美颜等。代表公司包括RunwayML、Wisecut、Adobe Sensei、Kaleido、帝视科技、CCTV AIGC、影谱科技、 Versa(不咕剪辑)、美图影像研究院等。
2)视频自动剪辑
基于视频中的画面、声音等多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成。目前还主要在技术尝试阶段。典型案例包括Adobe与斯坦福共同研发的AI视频剪辑系统、IBMWatson自动剪辑电影预告片、以及Flow Machine。我国的影谱科技推出了相关产品,能够基于视频中的画面、声音等多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成。
3)视频部分生成(以Deepfake为典型代表)技术原理
视频到视频生成技术的本质是基于目标参像或视频对源视频进行编辑及调试,通过基于语音等要素逐帧复刻,能够完成人脸替换,人脸再现(人物表情或面部特征的改变)、人脸合成(构建全新人物)甚至全身合成、虚拟环境合成等功能。
其原理本质与图像生成类似,强调将视频切割成帧,再对每一帧的图像进行处理。视频生成的流程通常可以分为三个步骤,即数据提取,数据训练及转换。以人脸合成为例,首先需要对源人物及目标人物的多角度特征数据提取,然后基于数据对模型进行训练并进行图像的合成,最后基于合成的图像将原始视频进行转换,即插入生成的内容并进行调试,确保每一帧之间的流程度及真实度。目前的技术正在提升修改精准度与修改实时性两方面。
4、图像、视频、文本间的跨模态生成
模态是指不同的信息来源或者方式。目前的模态,大多是按照信息媒介所分类的音频、文字、视觉等。而事实上在能够寻找到合适的整体之后,很多信息,诸如人的触觉、听觉、情绪、生理指标,甚至于不同传感器所对应的点云、红外线、电磁波等都能够变为计算机可理解可处理的模态。
对人工智能而言,要更为精准和综合的观察并认知现实世界,就需要尽可能向人类的多模态能力靠拢,我们将这种能力称为多模态学习MM(Multi-modall earnina),其中的技术分类及应用均十分多样,我们可以简单将其分为跨模态理解(例如通过结合街景和汽车的声音判断交通潜在危险、结合说话人的唇形和语音判定其说话内容)和跨模态生成(例如在参考其他图画的基础上命题作画:触景生情并创作诗歌等)。
1)Transformer架构的跨界应用成为跨模态学习的重要开端之一
Transformer架构的核心是Self-Attention机制,该机制使得Transformer能够有效提取长序列特征,相较于CNN能够更好的还原全局。而多模态训练普遍需要将图片提取为区域序列特征,也即将视觉的区域特征和文本特征序列相匹配,形成Transformer架构擅长处理的一维长序列,对Transformer的内部技术架构相符合。与此同时. Transformer架构还具有更高的计算效率和可扩展性,为训练大型跨模态模型奠定了基础。
Vision Transformer将Transformer架构首次应用于图像领域。该模型在特定大规模数据集上的训练成果超出了ResNet。随后,谷歌的VideoBERT尝试了将Transformer拓展到“视频-文木”领域。该模型能够完成看图猜词和为视频生成字幕两项功能,首次验证了Transformer+预训练在多模态融合上的技术可行性。基于Transformer的多模态模型开始受到关注,VILBERT、LXMERT、UNITER、Oscar等纷纷出现。
2)CLIP模型的出现,成为跨模态生成应用的一个重要节点
CLIP,ContrastiveLanguage-Image Pre-training,由OpenAl在2021年提出,图像编码器和文本编码器以对比方式进行联合训练,能够链接文本和图片。可以简单将其理解为,利用CLIP测定图片和文本描述的贴切程度。
自CLIP出现后,“CLIP+其他模型”在跨模态生成领域成为一种较为通用的做法。以Disco Diffusion为例,该模型将CLIP模型和用于生成图像的Diffusion模型进行了关联。CLIP模型将持续计算Diffusion模型随机生成噪声与文本表征的相似度,持续迭代修改,直至生成可达到要求的图像。
上一篇:医院护士年终个人工作总结(十八篇)
下一篇:聊斋志异的读后感
最近更新科技资讯
- 22年过去了,《透明人》依然是尺度最大的科幻电影,没有之一
- 人类基因编辑技术及其伦理问题
- 不吹不黑,五阿哥版的《嫌疑人》能过及格线
- 论Lacan心理公众号的“双标”特质
- 猎罪图鉴:犯罪实录 女性伦理
- 清入关的第一位皇帝是谁,清朝入关后有几位皇帝?
- 描写露台的优美句子
- 谭德晶:论迎春悲剧的叙事艺术
- 中秋节的好词好句
- 《三夫》:一女侍三夫,尺度最大的华语片要来了
- 赛博朋克的未来,在这里
- 文件1091/721/2A:反概念武器实体的一封信件
- 尤战生:哥伦比亚大学点点滴滴
- 韩国最具独特魅力的男演员(安在旭主演的电视剧有哪些)
- 乃至造句
- 请保护好我们的医生,他们太难了
- GCLL06-土木工程的伦理问题-以湖南凤凰县沱江大桥大坍塌事故为例
- 黄金宝典:九年级道德与法治核心考点必背篇
- 【我心中的孔子】伟大的孔子 思想的泰山
- CAMKII-δ9拮抗剂及其用途
- 选粹 | 郑玉双:法教义学如何应对科技挑战?——以自动驾驶汽车为例
- 苍井空37岁宛若少女,携子送祝福遭热讽,下架所有视频母爱无私
- 日韩新加坡怎么对待影视剧中的裸露镜头
- 中西方文化中的颜色词
- 土豪家的美女摸乳师——关于电影《美人邦》