失独妈妈把女儿做成 AI,这样留下挚爱的方式你能接受吗?

栏目:生活资讯  时间:2023-08-17
手机版

  如题,用科技留住亲人的方式,你是否接纳?人工智能在这种情境下的应用,你怎么看?如果有一种方法,能够让死后的亲人永远「留」在身边,大多数人会做出什么样的选择? 比如,用亲人的声音合成一个类似Siri的交互软件。它可以用逝去亲人的声音告诉你,今天天气是多少度,出门需要穿什么衣服,甚至可以用亲人的语气人进行安慰和劝导,帮助家人慢慢从悲痛中走出来。据社科院的研究,中国目前至少有100多万个失独家庭,而根据卫生部的数据,这个数字还在以每年7.6万的速度在增加。在这个庞大的群体中,母亲李杨是特殊的一个。她想走一条没人走过的路。 她的女儿陈瑾因为T淋巴母细胞性淋巴瘤离开时,还不到15岁。一些小小的举动,或许可以填补缺位。直到现在,李杨去咖啡馆时,会为女儿也点上一杯美式咖啡。这是她们共同喜欢的口味。女儿还在的时候,偶尔会在放学后去李杨办公的地方玩,那里有一家咖啡馆。陈瑾是个外向的孩子,去了几次之后,就和里面的哥哥姐姐混熟了,大家会送她咖啡喝,送她甜品吃。但更多遗憾是无法弥补的,它们是幸存在世上的人心里最深的隐痛。陈瑾爱吃,也会吃。生病后,很多东西都吃不了了,她的爱好就变成看吃播。这是儿童病房里的孩子们共享的爱好。癌细胞和化疗让他们口唇溃烂、吞咽困难,他们会看大胃王的吃播,或是在外卖软件上添加很多食物到购物车里,但不下单。吃不进嘴,看一看也好。女儿喜欢旅游,但因为生病,哪里都去不了。戴上两层口罩去家附近的幸福里文创园区逛一逛,都是一场冒险,何况是长途旅行。李杨答应过,白细胞到二点几三点几的时候,就去济州岛。落地签,很方便,玩个两三天,就回来接着化疗。但顾虑很快又出现了,万一旅行的过程中发烧了怎么办?在李杨的描述里,女儿总是懂事的。她从来不因为无法出去玩而表现出不快,总是说,那就治好了再去吧。女儿生病后,这个精致的上海女人开始有了白头发,她没有心思再打扮自己。生活的秩序随着疾病和死亡被打破,即使是最普通的愿望,最终也只能停在许下的那个时刻。她想,如果可以把女儿带在身上就好了。那可能是一个应用了人工智能技术的小设备,也可能是一个手机上的APP,可以跟她打招呼,聊一聊当天的新闻,家里的趣事,而这一切都是以陈瑾的声音和思维方式展现出来的。在李杨的想象里,她可以带着AI陈瑾去任何地方:去咖啡馆,去济州岛看海,去澳大利亚,那里有懒懒的考拉和蹦蹦跳跳的袋鼠,或是土耳其,乘坐热气球看风景……她们可以一起旅行,一起说笑和分享美食,就像以前一样。

  一个失独妈妈决定把女儿做成AI

  这是件特别好,特别好的事情。

  事实上,你我都知道,以当前的技术,并不能真正做到“把人做成AI”“留下挚爱”。目前技术所能实现的,也就是让AI用逝去亲人的影像和声音说说话,做做简单的问答。最顶天的,大概也就是通过大数据分析,模拟逝去亲人的讲话习惯吧。我们都知道这是假的。

  但假的,不代表没有意义。

  早些年,我也经历过至交好友的逝去。那时候她还是少年人,青春正盛,活泼开朗,还有一整个世界等着她去探索,却因为一场疾病而故去。在之后的好几年,我每去一处漂亮的景点,每干成一件牛逼的事情,总会想着:要是她还在的话,能见到这一幕就好了。

  有时候几个朋友围坐聊天,偶然聊起她,也会想起:要是她还活着,现在也快三十了吧,以她的性子,肯定不会做什么普普通通坐办公室的工作,估计这会儿正在非洲救犀牛吧。说着说着大家都会笑起来。毕竟一别十多年,该哭的早哭过了。

  只是,终究心里会遗憾啊,她离开的时候还有那么多东西没有见过,我们之后的人生她都没有参与过。

  从唯物主义角度来看,人死如灯灭,既没有灵魂也没有死后世界,所谓的“她若还在,也会高兴的”,终究只是活人的臆想罢了。

  但人终究是感情动物。这种臆想于已经死去的她来说并无意义,但对活着的人有意义。人类掩埋同伴的遗体,用葬礼和陪葬品来为逝者划下终点,是“文明”的一大共性——丧仪通过仪式感让活人感受到,“逝者将始终与我们同在,只是换了一种方式”。这本身就是一种对人的慰藉。

  从这个意义上来说,生在现代的我们比古人要幸运一些。我们活在这个世界上的痕迹更多一些,能够借以凭吊慰藉的东西也就多一些。记得之前看过一个故事——有位老太太经常到伦敦地铁站,一坐就是半天。原因是,她的亡夫是伦敦地铁报站音的录制者,她每天坐在地铁站,就是为了听一句“mind the gap”。后来,伦敦地铁采用了新的报站系统,她也失去了最后的一丝慰藉。

  还好,这个故事有个不错的结尾——伦敦地铁主管听说了她的故事后,给了她一份录音的复制版,同时恢复了老太太常去车站的录音。

  而有了AI技术,失去孩子的母亲,能够在慰藉里留得再久一些。尽管我们都知道这是假的。事实上,这一点非常重要——如果哪天真的出现《黑镜》里那样与真人99.99%相似的AI,那倒是值得人担忧了。从这个意义上来说,阿里的谨慎是对的。他们没有迫不及待地把产品推给失独的母亲,而是思考了“当这种虚拟的陪伴愈发真实,对于疗愈来说是否是一件好事”这个问题。

  在这一点上,我很认可《人物》这篇报道提出的大哉问:我们到底该如何面对挚爱的离去?是直面丧失,经过时间的流淌和恒久忍耐,重新面对生活;还是借助技术,永久地让亲人以虚拟的方式停留在身边?

  这不是一个科幻问题。尽管今天我们还不太可能实现“永久地让亲人以虚拟的方式停留在身边”,但伴随着个人留存数据信息的激增和技术的爆炸,这件事情很可能会在我们这一代人老去之前得到实现。

  而我的答案是,死去的人就是死去了。我们用AI所做的一切,都应该基于“我们都知道这是假的”这一点,来提供更多的慰藉和疗愈。就如这位失独的母亲自己所认知到的:“这是一种疗愈的手段,和去看心理医生、去旅行消遣一样,最终目的是帮助整个家庭慢慢愈合,只不过用了新方法而已。”

  希望她能够走出来。我想,她的女儿一定会很高兴的。

  昨晚看完这篇文章,恰好我爸打来视频,每到过年我快回去的时候,他就例行倒计时,计划几号炖肉,几号上坟。

  每次去上坟,我们都提前准备很多纸钱,带上酒肉水果和点心。

  有时候在墓地里,他会边烧纸边开玩笑,“过年了,给你爷爷奶奶烧钱,让他们去唱歌跳舞。”

  我一直以为,到了他这个年纪,父母过世这么多年,对于无父无母这件事,早没了感觉。

  直到一次上坟结束,山路颠簸,他看着倒车镜说,“我妈过世太早了,要是再晚几年,还能留下个声音。”

  我才发现,亲人离开带来的遗憾,从来不会随着时间推移减少。只是年龄变了,年代变了,遗憾的内容不一样了。

  但那种留下东西做纪念的心思,从没变过。就像他收着年少时和自己父亲写过的家信,就像家里不管换了多少东西,爷爷留下的药柜一直还在。

  那是一种存在过的佐证。

  我问他,如果能用奶奶的声音合成一个跟你说话的机器人,你想要吗?

  他说,想啊。

  我想起我和哥哥考上大学的那个暑假,我们去上坟,他在坟头说“妈,你孙子孙女考上大学了“。

  那天刮着微风,墓地边上的草被风吹得来回摆动,我爸说,“你奶奶肯定听到了,你们看这草跳得多欢。“

  故去的人听没听到我不知道,我知道我爸想要把自己的喜悦分享给他妈妈。

  爷爷奶奶过世都很早,爸爸把亏欠父母的,全都寄托在姥姥身上,但姥姥有很多个儿子,女婿再好,也是外人。

  我知道他有很多快乐,很多难过,很多委屈,想分享。

  如果AI能让他得到自己妈妈的回复,他一定会很开心吧。

  那是一种漫过时光的慰藉。

  小丛说,如果有这样的AI,她想不到任何拒绝的理由。

  她想把父亲生前,自己没说的话都说了,想告诉他,自己决定去留学了,最近收到了什么offer。想告诉他很多大事小事。如果能够得到回应,而不只是在心里自说自话,那弥足珍贵。

  如果她爸爸还活着,今年该55岁了。去年,因为非常突然的脑梗,她永远失去了爸爸,在自己20岁的时候。

  手机里至今还存着一些爸爸发来的语音消息,想念的时候就听听。

  我说,如果这个AI和你对话的时候,说了一些让你不开心的话,你还想要吗?

  “不开心的话,比如像父亲一样教育我?如果真的能完全还原的话,我会觉得很欣慰的。”

  但东辉不想要这个AI。

  她在15岁的时候失去了妈妈,妈妈活着的最后几年,她常搀着妈妈下楼做理疗,她是一点一点看着生命体征在妈妈的身体里流逝的。

  我问她,你知道什么是死亡吗?

  她说,死了就是死了。

  “那你不想再听到妈妈的声音,得到妈妈的回复吗?”

  “我知道都是假的,(听到声音)我会更无助。每个人都不一样,每个人的人生不一样,我有过妈妈,虽然很想她,但是没人能替代。没有人规定父母健在的人生才是正常的。”

  她说,“接受妈妈不在了已经足够难过,用假象蒙蔽自己,会更难过。”

  我知道,我们都知道,生老病死,是最不能改变的自然规律。技术的发展,给了人缓冲悲伤的依仗。但AI技术也是让人矛盾的,它跟爱一样,也是想触碰又收回的手。

  虽然有争议,有伦理问题,但如果科学家和社会学家心理学家一起探讨,如何帮助和引导特殊人群更好的面对死亡,缓解伤痛,其实真的是好事一桩。

  看完这篇文章,其实多少人都有感触,我们这代年轻人多数是独生的一代,我相信很多人都有想过,万一自己不小心先离去了,父母怎么办。AI是硬核的,人心是柔软的,AI是像坚硬的外壳一样保护起柔软的心呢?还是像石头一样扎破脆弱的鸡蛋?AI能否帮助失独父母走出悲伤?这都是我们应该思考的问题。

  但是有一点需要达成共识:技术本身不可怕。想要消除对技术的恐惧,利用技术行善,需要先了解技术的原理。

  失独妈妈把女儿做成AI这个标题有点唬人,事实上原理可以用两句话概括:把女儿的声音通过技术方式留了下来,使得机器使用的声音和女儿银色一样;

  2. 并且通过聊天机器人技术,使其能用女儿的声音和方式来回答父母的话语,就像当初女儿陪着父母一样。

  这个技术上原理虽然只有两句话,但现实上是有好多难题,首先是:

  怎么生成跟女儿一样的声音:

  对于这个问题,这里有两个难题待解决:

  1.陈瑾生前的录音很少。

  2.录音都在视频里,杂音很大。

  针对这种在语料少的情况,业界通常是这么做的:先把音色提取出来,生成映射。映射这个词对非专业人士来说有点难懂,简单的说,其实就是“对应关系”。比如1 -> 3, 3->5,映射(对应关系)就是+2。当然在实际语音合成中的映射要复杂得多。根据映射,进行转换。利用语音转换(voice conversion)或者自适应(adaptation)技术,按照映射生成语音。语音转换是将一个人的声音映射到另外一个人的声音上,而自适应技术是在一个大的TTS(Text To Speech)模型上依赖小的数据集adaptation出目标说话人的TTS模型。

  但这个做法并不完美。用部分词句生成的映射来作为所有语料的映射,就好像一学期没上课,仅靠突击几道数学题就去考试一样,也许能拿点分,但分数肯定不高。由于是直接把文字(Text)映射到语音(Speech),实际上还是“读书”而不是“说话”。所以生成效果不太好,就好像我们几年前听到的机器语音一样冰冷生硬。

  既然我们知道陈瑾生前语料由于较少,那么可以人为的创造更多语料吗?可以的,这里用到一种叫数据增强的方法。

  回想你上次车展看到一个漂亮的汽车,你会从不同的角度拍照,或者调整光圈大小拍不同效果。虽然是同一个车,但你拍了几张不一样的。把这个过程看做数据增强,你拍得越多,你对那个汽车认识越深。(如下图)

  同样地,为了解决语料少的问题,同时增强语音效果,数据增强+全神经网络的端到端声音克隆技术架构就诞生了。这个架构工作的原理分三步:除去原始噪声。首先对数据进行降噪、去混响等操作。数据处理与生成。打个比方,就是把从市场买回来的菜进行清洗,分拆,把一把菜做成几道菜。具体到这个架构上,就是分析音频中核心频段,预加重处理,同时提取影响音色的核心频段,从说话人数据库中匹配相关频谱,匹配相近数据扩充数据量,最后对数据添加随机噪声(不会覆盖到原声),增加模型的泛化能力避免过拟合。这样就生成新的语料。虽然看起来还是那段语音,但对于模型来说,等于从不同的角度“观察”这段语音,等于一把菜做成了几道菜。端到端生成语音。利用全神经网络的端到端声音克隆技术,直接端到端生成语音,无需再经过Text To Speech了。这种神经网络的模型精度更高,生成的语音效果更自然更接近陈瑾本身。比起TTS要通过text生成speech,端到端直接生成的好处是什么?用那句熟悉的话来打比方:“没有中间商赚差价”。

  第一个问题原理大概就是这样。第二个难题是什么呢?

  如何打造和女儿一样性格的应答系统:

  如果你用过语音聊天机器人,总会感觉它们很木讷,就像个书呆子一样,没有感情。可陈瑾离世时才14岁,她和家人的互动是很活泼,甚至偶尔有点叛逆的。这意味着在做聊天模型时,需要对人物的性格做调整。

  应用AliGenie的语义泛化模型能解决这个问题。所谓模型的简单介绍,就是一个具有大量参数的基于大数据来调整表现的数学系统。在李杨帮助下,模型根据陈瑾经常习惯行表达习惯做了针对性优化训练。到这步还不足以让应答系统和女儿性格一样,还需要:利用AliGenie非常前沿的语音语义一体化理解联合模型来提升这方面能力,以纠正与减少由于语音识别错误带来的语义理解能力方面的影响。提升了答案检索相关准确性。由于并不能保证所有的问题都在知识库中,为了避免“冒犯”行为产生,针对专门话题领域进行强化训练以及建设更加丰富知识库积累,以确保回答是可控的。在答案权威性和对话策略准备方面,需要与心理学家进行紧密合作,失去挚爱后的疗愈过程进行建模,进行全周期守候,让李杨进一步辅助疗愈。

  最后再说几点内心的话。虽然这么解释技术显得有点冰冰冷,但我们可以看得,在硬核技术打造的坚硬外壳保护下,李杨的破碎的心在慢慢恢复。这也是最让人欣慰的事。

  但我并不鼓励大家使用这个技术。我认为大家都需要花一些时间对这个项目做进一步的跟进和思考,毕竟这是一个全新的课题,而且也不仅仅和技术相关,其背后的心理影响、伦理思考和社会反应都需要一些时间来沉淀。

  技术不能让时间倒流,陈瑾离开了没法再回来,技术手段只能帮助尚在世的亲人稍微抚平心灵的创伤。正如原文最后一句,“人工智能或许能在疗愈的过程中起到辅助作用,但最终能帮助人类的,还是人类”。衷心希望每个家庭都幸福一生,没人再需要这个技术。

  先从技术的角度来还原一下这件事吧。

  还是相当困难的。

  大多数人在生活中留下的音频、视频文件,一个是数量可能没有那么多,一个是可能包含着很多混响、环境噪声、其他人说话等无关声音。

  比如这次阿里拿到的数据,据他们透露,提取出来说话的实际音频数据不足1分钟。

  另外就是,「留下挚爱」,肯定不只是希望听到Ta的声音,还希望能还原Ta的语态。这就涉及到把握目标说话人的认知水平、三观。

  还有一个难点,是精准地理解自然语言和语音输入。比如,同一语义问题也会有很多表达方式。

  这毕竟是全球首例已故人声合成案例。阿里也是在摸索中前进。

  他们的第一步尝试,是采用业界通用的语音转换(voice conversion)和自适应(adaptation)技术。不过都不是很成功。

  语音转换是将一个人的声音映射到另外一个人的声音上。这样的方法转出来语音音质不错,但跟目标说话人的音色不像。

  自适应技术是在一个大的tts(语音合成技术)模型上,依赖小的数据集自适应出目标说话人的tts模型。这样做音色会比较接近,但音质很差。

  于是,他们采用了新的解决方案:数据增强+全神经网络的端到端声音克隆技术。

  因为前期的实验表明,在只能提取出两三分钟有效训练语料的情况下,不做数据增强,是没办法学到关键的音色信息、也无法将音质提高的。

  具体而言,数据增强分以下几步:

  1、对数据进行降噪、去混响等操作,同时分析音频中核心频段,预加重处理

  2、分析音频数据的频谱,提取影响音色的核心频段,从说话人数据库中匹配相关频谱,匹配相近数据扩充数据量

  3、对数据添加随机噪声,增加模型的泛化能力避免过拟合

  而全神经网络的端到端声音克隆技术是融合了前两种技术的特点,提高了模型的精度。

  另外,阿里利用AliGenie语音语义一体化理解联合模型降低了语音识别错误率,提升了语义理解能力。

  以及用深度语义匹配模型,提升了答案检索相关准确性。

  由于并不能保证所有的问题都在知识库中,为了避免“冒犯”行为产生,他们针对专门话题领域进行了强化训练,以及建设更加丰富知识库积累,以确保回答是可控的。

  但更重要的也许不是技术本身,而是技术是否真的能疗愈心灵。

  在「失独妈妈」这件事上,阿里人工智能实验室与心理学家进行了紧密合作,对失去挚爱后的疗愈过程进行建模,进行全周期守候以期待能够进一步辅助疗愈。

  阿里方面表示,这个项目是完全可以复制的,但他们暂时没有进一步计划。

  因为这是一个全新的课题,不仅仅关乎技术,其背后的心理影响、伦理思考和社会反应都需要一些时间来沉淀。

  阿里在这个问题上是很慎重的。《人物》的访谈也提到了,「更大的难度存在于非技术层面」,用技术的手段「留住」亲人,是会让失去亲人的人沉溺其中无法自拔,还是真的能疗愈他们心中的隐痛?

  这也是阿里毫不犹豫地对这位失独妈妈伸出了援手,却在交付时犹豫的原因。

  接下来,阿里希望,花更多时间对这个项目做进一步的跟进和思考。

  单纯从技术的角度来看,资料留存主要需要考虑两方面:数量和质量。

  目前AI算法主要还是基于数据去学习,数据越多、质量越好,还原的相似度就越大。

  比如像这次,阿里团队最后只拿到了1分钟左右的可用音频,虽然采用了上述的新技术,实现的成本还是很高的。

  所以,如果需要存留,尽可能是保留足够干净的、不夹杂其他人说话的音视频数据,越多越好,资料的数量和质量决定了还原的成本和难度。

  钉钉、微信、email等聊天和通信数据,写过的作文,发过的微博,BBS帖子……语音聊天数据和演讲音频等都是非常珍贵的。

  简而言之,要“复制“一个人的对话能力,需要大量的对话数据。

  在了解技术的全貌之后,接受与否,每个人心里就都有自己的答案了。

  最后的最后,希望人类的科技,能帮助每一个需要帮助的人,走出心中的苦痛。

  —完—

  @量子位 · 追踪AI技术和产品新动态

  深有感触的朋友,欢迎赞同、关注、分享三连?'?' ? ??

  知乎上已经没有看过《铁臂阿童木》的人了吗?

上一篇:站在局外人角度看爱情是什么体验?喜马拉雅十周年邀请柳岩和沈奕斐“一起聊聊吧”
下一篇:读书笔记(耽美文)