一个低调女明星的猛然出现

栏目：影视资讯时间：2023-04-07

手机版

　　作者 |?向由

　　你听说过一位叫“伽德”的艺人吗？她可能是中国最低调的一位巨星。

　　称她为“巨星”，并非夸张。以演员身份出道的她，参演过多部名导大作，因此蜚声国际。

　　她还曾出席戛纳影展，在红毯上惊艳亮相。

　　影视不是她的唯一专长。面容姣好的伽德，从小习练音乐，发行的专辑虽然不多，但是主打精品路线，捧得了不少音乐奖项。

　　最新的消息是，伽德开始重视国内知名度的打造。

　　她即将参演一部大咖云集的古装剧，就在最近，曝出了定妆照。

　　如此风光的一位中国明星，却在中国少有人知，这是一件非常奇怪的事情。

　　其实，这也毫不奇怪。因为以上的内容和图片，都是我用AI工具胡乱编的。

　　准确地说，我只是编造了一个虚假的艺人名字。

　　接着，ChatGPT 帮我设定了艺人的背景，而“文字生图片”的工具Midjourney，生成了一系列美美的照片。

　　聪明如你，是否能一眼看出来，这位叫“伽德”（谐音，假的）的艺人，其实并不存在？

　　需要说明的是，以上“美照”仅仅是通过简单的文字描述而生成，制作出这样一套女明星的写真，用的时间还不到10分钟。

　　同样地，本文以下的配图（除注明外），均为我使用AI工具所创作。

　　人类画师“绷”不住了

　　在看过这些图片后，无论是否认出了真伪，你大概率都会认可，AI“以假乱真”的能力已经十分强大了。

　　输入文字、输出图片，这样的AI绘图工具并不少。但在最近，Midjourney 的热度似乎超过“前网红”Stable Difussion，坐上了该领域的头把交椅。

　　原理上，Midjourney和Stable Difussion是一致的，它们都使用了同一个模型：Difussion Model。这个模型的运行机制，令“人类画师”大为光火，频频发出抵制的呼吁。不过，技术原理的介绍，暂时留到下文。

　　从效果上看，Midjourney 发布于去年7月，一“出生”就效果不俗。但是，此前版本无法画出真人质感的“照片级画作”，尤其是对人类手部的处理，槽点满满，因此并未出圈。

　　到今年3月，第五代版本出现以后，一切变得不同了。

　　“一对情侣”率先出圈。社交媒体上，有人通过Midjourney 绘制了一对中国情侣的合影照。画面中，这对情侣坐在天台，栩栩如生，氛围到位。“真假难辨”的这些图片，迅速令Midjourney 一炮而红。

　　而更让人震撼的是，生成这样的图片，门槛却很低。Midjourney 只需要用户输入几行简单的文字描述。

　　在AI生成领域，这样一段“文字描述”称为Prompt（提示）。

　　我试图复刻这组走红的照片，对Midjourney 输入Prompt：一对中国情侣，在一个屋顶天台上合影。地点是巴黎。

　　配合参数，Midjourney生成了如下图片：

　　我们可以很轻易地把地址改到别处，如上述Prompt的“巴黎”改为“埃及”。生成图片如下：

　　能力强，门槛低，因此通过Midjourney ，用户可以将幻想的画面变得“真实”。

　　例如，Prompt为“中国上世纪80年代的一个漂亮女孩，20岁左右，她吃着冰淇淋，走在当时的上海外滩。有人物也有周边环境。80年代的风格。”

　　图片生成如下：

　　更多天马行空的想法，对Midjourney都不在话下。

　　那就画一幅“天马行空”吧。Prompt为“一匹飞翔的马儿，正在城市上空奔跑。逼真。艺术感。有创造力的。”

　　图片如下：

　　毫无疑问，一些传说中的“名场面”，如今都能够“可视化”了。

　　这一切，不再需要聘请专业的画师，仅仅是用户自己就能完成。

　　比如说，杜甫在《旅夜书怀》中的"星垂平野阔，月涌大江流"，传为千古佳句。我一直好奇，那是一幅怎样的画面？

　　把诗句所述交给Midjourney ，它生成了如下的画面：

　　嗯，“大江”未免小了一点，但“星垂”的意象呈现并不赖。

　　一千多年前的杜甫，在那一夜看见的星空，会是这样的璀璨吗？

　　此二句杜诗，本身已有了强烈的画面感。如果诗人的描述更委婉，重意境，Midjourney 又能否理解呢？

　　我选择了“诗中有画，画中有诗”的唐代诗人王维两句，“行到水穷处，坐看云起时”，要求Midjourney生成一张水墨画。

　　图片如下：

　　AI改变了什么

　　满打满算，Midjourney诞生至今，不过9个月时间。AI绘图功能的进化之快，不能不说令人惊叹。

　　不只Midjourney ，在当前，Stable Difussion 也是AI绘画届的“顶流”。比较起来，Stable Difussion能够部署在电脑本地或云端，定制和扩展的功能更强大，生成速度也更快，是AI画师和工作室趁手的工具。

　　Midjourney虽然在“照片级绘画”中先声夺人，但截至目前，它只能通过Discord软件、输入提示使用，自由度不高，图像风格的连续性也成问题。

　　当然，AI绘图毕竟新生不久，它还有大把的时间进化迭代，给人以无限想象的空间。

　　AI如今站在了风口上，万众瞩目。这就不得不提到ChatGPT，是它彻底点燃了这把火。

　　ChatGPT完美演示了AI的潜能与迅猛。它是史上“用户过亿速度最快”的应用。

　　烈火烹油的3月，ChatGPT又开大招，将模型更新至GPT 4。对用户而言，这款“对话式机器人”拥有了更长的回复字数，更准确的回复能力，以及，由插件带来的更多可扩展功能。

　　值得警惕的是，AI不是玩具，它们已经开始了对现实世界的渗入。

　　“假图事件”屡屡刷屏。3月21日，一系列美国前总统特朗普被捕的画面，火爆于社交网络，这些毫无争议的“fake news”（假新闻），令Midjourney受到了批评。后续是，“被捕（arrested）”这个词被平台封了。

　　没几天，又有图片传出，一向衣着传统且朴素的教皇方济各，穿着巴黎世家风格的羽绒服出场。这张假图得到2600多万次的转发，骗过了千万双眼睛。

　　如今，只要会使用AI工具，任何人都可以制造出一张完全不存在的“历史照片”。这些虚假信息驳杂其间，可能会污染人类的知识库。

　　例如，我通过Midjourney “重现”日本于1853年的“黑船事件”。图片如下：

　　当然，AI作为一项技术，无谓好坏。尤其在这方兴未艾的时候，许多人正在挖掘它的潜力，期待将自己从枯燥工作中解脱出来。

　　将ChatGPT和Midjourney两个工具，联合起来用，可以完成怎样的任务呢？目前来看，至少做一个儿童绘本是足够了。

　　早已有人这样做，方法是，使用ChatGPT生成一个故事，分好段落。接着让Midjourney生成对应的图片，最后排版。据说，有人通过此法制作小说与绘本，拿到电商平台去买，已经赚了不少钱。

　　我试着效仿，结合ChatGPT和Midjourney，生成了一个《小王子》续集的绘本。

　　小王子漂泊在宇宙中，思念着他曾经所爱的玫瑰。他想起了她的芬芳和温暖，想起了和她一起经历的点滴，心中充满了想念和向往。

　　小王子追寻着他的记忆，穿越了无尽的时间和空间，最终回到了他曾经的星球。他沿着熟悉的路走着，想象着那曾经的画面。

　　小王子走到玫瑰面前，看着她花瓣上的露珠，轻声道：“我回来了，我的玫瑰。”他感觉自己的心跳在加速，充满了喜悦和期待。

　　小王子回忆起他们曾经一起经历的点滴，想起了那些美好的时光，也想起了那些难以忘怀的故事。他感觉到玫瑰的存在，是他生命中最珍贵的一部分。

　　小王子意识到：爱一个人并不是要求她永远完美无缺，而是在她最需要关心和呵护的时候，陪伴她一起成长和进步。他感激着玫瑰教给他的这个道理，同时也感觉到了自己的成长。

　　小王子向玫瑰发誓：无论发生什么，他都会一直陪在她身边。他会像以前一样爱护她，守护她，直到永远。在这一刻，他深深地感受到，他们之间的爱情，比任何时候都更加深沉和真挚。

　　AI的垫脚石

　　看过上述“绘本”，画师们的愤怒也就不难理解了。

　　Midjourney走红以来，“画师们即将失业”的话题变得火热。AI绘画极低的使用门槛，极快的出图速度，再加上它“24+7”的工作能力，显得“人类画师”“人类设计师”等不堪一击。

　　不过，“危机感”不是画师们试图抵抗的全部理由，AI绘画的另一罪状是“抄袭”。

　　例如，著名艺术家的绘画风格，被AI工具轻易偷走了。方法非常简单，用户只需在Prompt中，加上该艺术家的名字。

　　原本属于个人的风格，如今被“批量”地生成，这不仅折磨着创作者，也同样叩问每一个人，我们人类的智慧与创新之地，如果节节败退，人类的价值如何确立？

　　而且，艺术家的风格只是“冰山一角”，AI绘图工具“偷走”的远不止这些。

　　我们需要了解，Midjourney一类的绘图工具，究竟是如何“画画”的？你可能会认为，它们收到用户的文字描述，首先理解了文字内容，再通过像素合成画面。

　　事实并非如此。

　　如前文所述，当下最火的AI绘画工具，使用的基础模型都是Difussion Model。这是“文生图”软件常用的四种基本模型之一。

　　Difussion Model最核心的一步，在于训练出一个图片生成模型（Generation Model）。它的工作原理是，生成一张全是噪点、人类根本看不懂的图片，将它丢入Denoise模块。模块会计算出图片中的噪声，再去掉这部分噪声，生成一个相对有轮廓的图片。

　　如此循环地，将“中间图片”丢入一个个Denoise模块，最终得到一张清晰的图片。

　　那么，要训练出一个Generation Model，路径就完全相反了。研发人员先要搜集“图文对”（标注了文字说明的图片），对图片进行一次一次的“加噪声”，直到清晰的图片变得完全看不懂。

　　对图片“加噪声”是很容易的，将这条路反过来走通，就是训练Generation Model的路径原理。

　　显然，我们收集的“图文对”越多，模型就被训练得越强。当前，主流的“图文对”数据集是LAION，它拥有的图文对，达到58.5亿张。

　　这个惊人的数字，意味着模型曾经“看过”的内容，多到无法囊括。

　　也因此，我们并不奇怪，Midjourney为什么画出特朗普、教皇方济各。这是因为，在它被训练的时候，“吃”了太多的图，没有人比它更熟悉“川普”了。

　　我们可以在LAION中，搜索任意关键词，看到它的“知识量”。如下图片，是以拜登为关键词搜索的结果。

　　与用户那信息量少得可怜的文字描述相比，这庞大的数据集，才是AI绘画工具运作的主力，是最重要的Prompt。哪有人类画师能拥有58.5亿张的“参考作品”呢？

　　AI来势凶猛，如何限制它对人类知识的汲取与冲击？这远不只是画师们面对的问题。

　　编辑 | 莫奈

　　排版 | 郑泽伟

一个低调女明星的猛然出现

最近更新影视资讯