失独妈妈把女儿做成 AI，这样留下挚爱的方式你能接受吗？

栏目：生活资讯时间：2023-08-17

　　如题，用科技留住亲人的方式，你是否接纳？人工智能在这种情境下的应用，你怎么看？如果有一种方法，能够让死后的亲人永远「留」在身边，大多数人会做出什么样的选择？比如，用亲人的声音合成一个类似Siri的交互软件。它可以用逝去亲人的声音告诉你，今天天气是多少度，出门需要穿什么衣服，甚至可以用亲人的语气人进行安慰和劝导，帮助家人慢慢从悲痛中走出来。据社科院的研究，中国目前至少有100多万个失独家庭，而根据卫生部的数据，这个数字还在以每年7.6万的速度在增加。在这个庞大的群体中，母亲李杨是特殊的一个。她想走一条没人走过的路。她的女儿陈瑾因为T淋巴母细胞性淋巴瘤离开时，还不到15岁。一些小小的举动，或许可以填补缺位。直到现在，李杨去咖啡馆时，会为女儿也点上一杯美式咖啡。这是她们共同喜欢的口味。女儿还在的时候，偶尔会在放学后去李杨办公的地方玩，那里有一家咖啡馆。陈瑾是个外向的孩子，去了几次之后，就和里面的哥哥姐姐混熟了，大家会送她咖啡喝，送她甜品吃。但更多遗憾是无法弥补的，它们是幸存在世上的人心里最深的隐痛。陈瑾爱吃，也会吃。生病后，很多东西都吃不了了，她的爱好就变成看吃播。这是儿童病房里的孩子们共享的爱好。癌细胞和化疗让他们口唇溃烂、吞咽困难，他们会看大胃王的吃播，或是在外卖软件上添加很多食物到购物车里，但不下单。吃不进嘴，看一看也好。女儿喜欢旅游，但因为生病，哪里都去不了。戴上两层口罩去家附近的幸福里文创园区逛一逛，都是一场冒险，何况是长途旅行。李杨答应过，白细胞到二点几三点几的时候，就去济州岛。落地签，很方便，玩个两三天，就回来接着化疗。但顾虑很快又出现了，万一旅行的过程中发烧了怎么办？在李杨的描述里，女儿总是懂事的。她从来不因为无法出去玩而表现出不快，总是说，那就治好了再去吧。女儿生病后，这个精致的上海女人开始有了白头发，她没有心思再打扮自己。生活的秩序随着疾病和死亡被打破，即使是最普通的愿望，最终也只能停在许下的那个时刻。她想，如果可以把女儿带在身上就好了。那可能是一个应用了人工智能技术的小设备，也可能是一个手机上的APP，可以跟她打招呼，聊一聊当天的新闻，家里的趣事，而这一切都是以陈瑾的声音和思维方式展现出来的。在李杨的想象里，她可以带着AI陈瑾去任何地方：去咖啡馆，去济州岛看海，去澳大利亚，那里有懒懒的考拉和蹦蹦跳跳的袋鼠，或是土耳其，乘坐热气球看风景……她们可以一起旅行，一起说笑和分享美食，就像以前一样。

　　一个失独妈妈决定把女儿做成AI

　　这是件特别好，特别好的事情。

　　事实上，你我都知道，以当前的技术，并不能真正做到“把人做成AI”“留下挚爱”。目前技术所能实现的，也就是让AI用逝去亲人的影像和声音说说话，做做简单的问答。最顶天的，大概也就是通过大数据分析，模拟逝去亲人的讲话习惯吧。我们都知道这是假的。

　　但假的，不代表没有意义。

　　早些年，我也经历过至交好友的逝去。那时候她还是少年人，青春正盛，活泼开朗，还有一整个世界等着她去探索，却因为一场疾病而故去。在之后的好几年，我每去一处漂亮的景点，每干成一件牛逼的事情，总会想着：要是她还在的话，能见到这一幕就好了。

　　有时候几个朋友围坐聊天，偶然聊起她，也会想起：要是她还活着，现在也快三十了吧，以她的性子，肯定不会做什么普普通通坐办公室的工作，估计这会儿正在非洲救犀牛吧。说着说着大家都会笑起来。毕竟一别十多年，该哭的早哭过了。

　　只是，终究心里会遗憾啊，她离开的时候还有那么多东西没有见过，我们之后的人生她都没有参与过。

　　从唯物主义角度来看，人死如灯灭，既没有灵魂也没有死后世界，所谓的“她若还在，也会高兴的”，终究只是活人的臆想罢了。

　　但人终究是感情动物。这种臆想于已经死去的她来说并无意义，但对活着的人有意义。人类掩埋同伴的遗体，用葬礼和陪葬品来为逝者划下终点，是“文明”的一大共性——丧仪通过仪式感让活人感受到，“逝者将始终与我们同在，只是换了一种方式”。这本身就是一种对人的慰藉。

　　从这个意义上来说，生在现代的我们比古人要幸运一些。我们活在这个世界上的痕迹更多一些，能够借以凭吊慰藉的东西也就多一些。记得之前看过一个故事——有位老太太经常到伦敦地铁站，一坐就是半天。原因是，她的亡夫是伦敦地铁报站音的录制者，她每天坐在地铁站，就是为了听一句“mind the gap”。后来，伦敦地铁采用了新的报站系统，她也失去了最后的一丝慰藉。

　　还好，这个故事有个不错的结尾——伦敦地铁主管听说了她的故事后，给了她一份录音的复制版，同时恢复了老太太常去车站的录音。

　　而有了AI技术，失去孩子的母亲，能够在慰藉里留得再久一些。尽管我们都知道这是假的。事实上，这一点非常重要——如果哪天真的出现《黑镜》里那样与真人99.99%相似的AI，那倒是值得人担忧了。从这个意义上来说，阿里的谨慎是对的。他们没有迫不及待地把产品推给失独的母亲，而是思考了“当这种虚拟的陪伴愈发真实，对于疗愈来说是否是一件好事”这个问题。

　　在这一点上，我很认可《人物》这篇报道提出的大哉问：我们到底该如何面对挚爱的离去？是直面丧失，经过时间的流淌和恒久忍耐，重新面对生活；还是借助技术，永久地让亲人以虚拟的方式停留在身边？

　　这不是一个科幻问题。尽管今天我们还不太可能实现“永久地让亲人以虚拟的方式停留在身边”，但伴随着个人留存数据信息的激增和技术的爆炸，这件事情很可能会在我们这一代人老去之前得到实现。

　　而我的答案是，死去的人就是死去了。我们用AI所做的一切，都应该基于“我们都知道这是假的”这一点，来提供更多的慰藉和疗愈。就如这位失独的母亲自己所认知到的：“这是一种疗愈的手段，和去看心理医生、去旅行消遣一样，最终目的是帮助整个家庭慢慢愈合，只不过用了新方法而已。”

　　希望她能够走出来。我想，她的女儿一定会很高兴的。

　　昨晚看完这篇文章，恰好我爸打来视频，每到过年我快回去的时候，他就例行倒计时，计划几号炖肉，几号上坟。

　　每次去上坟，我们都提前准备很多纸钱，带上酒肉水果和点心。

　　有时候在墓地里，他会边烧纸边开玩笑，“过年了，给你爷爷奶奶烧钱，让他们去唱歌跳舞。”

　　我一直以为，到了他这个年纪，父母过世这么多年，对于无父无母这件事，早没了感觉。

　　直到一次上坟结束，山路颠簸，他看着倒车镜说，“我妈过世太早了，要是再晚几年，还能留下个声音。”

　　我才发现，亲人离开带来的遗憾，从来不会随着时间推移减少。只是年龄变了，年代变了，遗憾的内容不一样了。

　　但那种留下东西做纪念的心思，从没变过。就像他收着年少时和自己父亲写过的家信，就像家里不管换了多少东西，爷爷留下的药柜一直还在。

　　那是一种存在过的佐证。

　　我问他，如果能用奶奶的声音合成一个跟你说话的机器人，你想要吗？

　　他说，想啊。

　　我想起我和哥哥考上大学的那个暑假，我们去上坟，他在坟头说“妈，你孙子孙女考上大学了“。

　　那天刮着微风，墓地边上的草被风吹得来回摆动，我爸说，“你奶奶肯定听到了，你们看这草跳得多欢。“

　　故去的人听没听到我不知道，我知道我爸想要把自己的喜悦分享给他妈妈。

　　爷爷奶奶过世都很早，爸爸把亏欠父母的，全都寄托在姥姥身上，但姥姥有很多个儿子，女婿再好，也是外人。

　　我知道他有很多快乐，很多难过，很多委屈，想分享。

　　如果AI能让他得到自己妈妈的回复，他一定会很开心吧。

　　那是一种漫过时光的慰藉。

　　小丛说，如果有这样的AI，她想不到任何拒绝的理由。

　　她想把父亲生前，自己没说的话都说了，想告诉他，自己决定去留学了，最近收到了什么offer。想告诉他很多大事小事。如果能够得到回应，而不只是在心里自说自话，那弥足珍贵。

　　如果她爸爸还活着，今年该55岁了。去年，因为非常突然的脑梗，她永远失去了爸爸，在自己20岁的时候。

　　手机里至今还存着一些爸爸发来的语音消息，想念的时候就听听。

　　我说，如果这个AI和你对话的时候，说了一些让你不开心的话，你还想要吗？

　　“不开心的话，比如像父亲一样教育我？如果真的能完全还原的话，我会觉得很欣慰的。”

　　但东辉不想要这个AI。

　　她在15岁的时候失去了妈妈，妈妈活着的最后几年，她常搀着妈妈下楼做理疗，她是一点一点看着生命体征在妈妈的身体里流逝的。

　　我问她，你知道什么是死亡吗？

　　她说，死了就是死了。

　　“那你不想再听到妈妈的声音，得到妈妈的回复吗？”

　　“我知道都是假的，（听到声音）我会更无助。每个人都不一样，每个人的人生不一样，我有过妈妈，虽然很想她，但是没人能替代。没有人规定父母健在的人生才是正常的。”

　　她说，“接受妈妈不在了已经足够难过，用假象蒙蔽自己，会更难过。”

　　我知道，我们都知道，生老病死，是最不能改变的自然规律。技术的发展，给了人缓冲悲伤的依仗。但AI技术也是让人矛盾的，它跟爱一样，也是想触碰又收回的手。

　　虽然有争议，有伦理问题，但如果科学家和社会学家心理学家一起探讨，如何帮助和引导特殊人群更好的面对死亡，缓解伤痛，其实真的是好事一桩。

　　看完这篇文章，其实多少人都有感触，我们这代年轻人多数是独生的一代，我相信很多人都有想过，万一自己不小心先离去了，父母怎么办。AI是硬核的，人心是柔软的，AI是像坚硬的外壳一样保护起柔软的心呢？还是像石头一样扎破脆弱的鸡蛋？AI能否帮助失独父母走出悲伤？这都是我们应该思考的问题。

　　但是有一点需要达成共识：技术本身不可怕。想要消除对技术的恐惧，利用技术行善，需要先了解技术的原理。

　　失独妈妈把女儿做成AI这个标题有点唬人，事实上原理可以用两句话概括：把女儿的声音通过技术方式留了下来，使得机器使用的声音和女儿银色一样；

　　2. 并且通过聊天机器人技术，使其能用女儿的声音和方式来回答父母的话语，就像当初女儿陪着父母一样。

　　这个技术上原理虽然只有两句话，但现实上是有好多难题，首先是：

　　怎么生成跟女儿一样的声音：

　　对于这个问题，这里有两个难题待解决：

　　1.陈瑾生前的录音很少。

　　2.录音都在视频里，杂音很大。

　　针对这种在语料少的情况，业界通常是这么做的：先把音色提取出来，生成映射。映射这个词对非专业人士来说有点难懂，简单的说，其实就是“对应关系”。比如1 -> 3, 3->5，映射（对应关系）就是+2。当然在实际语音合成中的映射要复杂得多。根据映射，进行转换。利用语音转换（voice conversion）或者自适应（adaptation）技术，按照映射生成语音。语音转换是将一个人的声音映射到另外一个人的声音上，而自适应技术是在一个大的TTS（Text To Speech）模型上依赖小的数据集adaptation出目标说话人的TTS模型。

　　但这个做法并不完美。用部分词句生成的映射来作为所有语料的映射，就好像一学期没上课，仅靠突击几道数学题就去考试一样，也许能拿点分，但分数肯定不高。由于是直接把文字（Text）映射到语音（Speech），实际上还是“读书”而不是“说话”。所以生成效果不太好，就好像我们几年前听到的机器语音一样冰冷生硬。

　　既然我们知道陈瑾生前语料由于较少，那么可以人为的创造更多语料吗？可以的，这里用到一种叫数据增强的方法。

　　回想你上次车展看到一个漂亮的汽车，你会从不同的角度拍照，或者调整光圈大小拍不同效果。虽然是同一个车，但你拍了几张不一样的。把这个过程看做数据增强，你拍得越多，你对那个汽车认识越深。(如下图）

　　同样地，为了解决语料少的问题，同时增强语音效果，数据增强+全神经网络的端到端声音克隆技术架构就诞生了。这个架构工作的原理分三步：除去原始噪声。首先对数据进行降噪、去混响等操作。数据处理与生成。打个比方，就是把从市场买回来的菜进行清洗，分拆，把一把菜做成几道菜。具体到这个架构上，就是分析音频中核心频段，预加重处理，同时提取影响音色的核心频段，从说话人数据库中匹配相关频谱，匹配相近数据扩充数据量，最后对数据添加随机噪声（不会覆盖到原声），增加模型的泛化能力避免过拟合。这样就生成新的语料。虽然看起来还是那段语音，但对于模型来说，等于从不同的角度“观察”这段语音，等于一把菜做成了几道菜。端到端生成语音。利用全神经网络的端到端声音克隆技术，直接端到端生成语音，无需再经过Text To Speech了。这种神经网络的模型精度更高，生成的语音效果更自然更接近陈瑾本身。比起TTS要通过text生成speech，端到端直接生成的好处是什么？用那句熟悉的话来打比方：“没有中间商赚差价”。

　　第一个问题原理大概就是这样。第二个难题是什么呢？

　　如何打造和女儿一样性格的应答系统：

　　如果你用过语音聊天机器人，总会感觉它们很木讷，就像个书呆子一样，没有感情。可陈瑾离世时才14岁，她和家人的互动是很活泼，甚至偶尔有点叛逆的。这意味着在做聊天模型时，需要对人物的性格做调整。

　　应用AliGenie的语义泛化模型能解决这个问题。所谓模型的简单介绍，就是一个具有大量参数的基于大数据来调整表现的数学系统。在李杨帮助下，模型根据陈瑾经常习惯行表达习惯做了针对性优化训练。到这步还不足以让应答系统和女儿性格一样，还需要：利用AliGenie非常前沿的语音语义一体化理解联合模型来提升这方面能力，以纠正与减少由于语音识别错误带来的语义理解能力方面的影响。提升了答案检索相关准确性。由于并不能保证所有的问题都在知识库中，为了避免“冒犯”行为产生，针对专门话题领域进行强化训练以及建设更加丰富知识库积累，以确保回答是可控的。在答案权威性和对话策略准备方面，需要与心理学家进行紧密合作，失去挚爱后的疗愈过程进行建模，进行全周期守候，让李杨进一步辅助疗愈。

　　最后再说几点内心的话。虽然这么解释技术显得有点冰冰冷，但我们可以看得，在硬核技术打造的坚硬外壳保护下，李杨的破碎的心在慢慢恢复。这也是最让人欣慰的事。

　　但我并不鼓励大家使用这个技术。我认为大家都需要花一些时间对这个项目做进一步的跟进和思考，毕竟这是一个全新的课题，而且也不仅仅和技术相关，其背后的心理影响、伦理思考和社会反应都需要一些时间来沉淀。

　　技术不能让时间倒流，陈瑾离开了没法再回来，技术手段只能帮助尚在世的亲人稍微抚平心灵的创伤。正如原文最后一句，“人工智能或许能在疗愈的过程中起到辅助作用，但最终能帮助人类的，还是人类”。衷心希望每个家庭都幸福一生，没人再需要这个技术。

　　先从技术的角度来还原一下这件事吧。

　　还是相当困难的。

　　大多数人在生活中留下的音频、视频文件，一个是数量可能没有那么多，一个是可能包含着很多混响、环境噪声、其他人说话等无关声音。

　　比如这次阿里拿到的数据，据他们透露，提取出来说话的实际音频数据不足1分钟。

　　另外就是，「留下挚爱」，肯定不只是希望听到Ta的声音，还希望能还原Ta的语态。这就涉及到把握目标说话人的认知水平、三观。

　　还有一个难点，是精准地理解自然语言和语音输入。比如，同一语义问题也会有很多表达方式。

　　这毕竟是全球首例已故人声合成案例。阿里也是在摸索中前进。

　　他们的第一步尝试，是采用业界通用的语音转换（voice conversion）和自适应（adaptation）技术。不过都不是很成功。

　　语音转换是将一个人的声音映射到另外一个人的声音上。这样的方法转出来语音音质不错，但跟目标说话人的音色不像。

　　自适应技术是在一个大的tts（语音合成技术）模型上，依赖小的数据集自适应出目标说话人的tts模型。这样做音色会比较接近，但音质很差。

　　于是，他们采用了新的解决方案：数据增强+全神经网络的端到端声音克隆技术。

　　因为前期的实验表明，在只能提取出两三分钟有效训练语料的情况下，不做数据增强，是没办法学到关键的音色信息、也无法将音质提高的。

　　具体而言，数据增强分以下几步：

　　1、对数据进行降噪、去混响等操作，同时分析音频中核心频段，预加重处理

　　2、分析音频数据的频谱，提取影响音色的核心频段，从说话人数据库中匹配相关频谱，匹配相近数据扩充数据量

　　3、对数据添加随机噪声，增加模型的泛化能力避免过拟合

　　而全神经网络的端到端声音克隆技术是融合了前两种技术的特点，提高了模型的精度。

　　另外，阿里利用AliGenie语音语义一体化理解联合模型降低了语音识别错误率，提升了语义理解能力。

　　以及用深度语义匹配模型，提升了答案检索相关准确性。

　　由于并不能保证所有的问题都在知识库中，为了避免“冒犯”行为产生，他们针对专门话题领域进行了强化训练，以及建设更加丰富知识库积累，以确保回答是可控的。

　　但更重要的也许不是技术本身，而是技术是否真的能疗愈心灵。

　　在「失独妈妈」这件事上，阿里人工智能实验室与心理学家进行了紧密合作，对失去挚爱后的疗愈过程进行建模，进行全周期守候以期待能够进一步辅助疗愈。

　　阿里方面表示，这个项目是完全可以复制的，但他们暂时没有进一步计划。

　　因为这是一个全新的课题，不仅仅关乎技术，其背后的心理影响、伦理思考和社会反应都需要一些时间来沉淀。

　　阿里在这个问题上是很慎重的。《人物》的访谈也提到了，「更大的难度存在于非技术层面」，用技术的手段「留住」亲人，是会让失去亲人的人沉溺其中无法自拔，还是真的能疗愈他们心中的隐痛？

　　这也是阿里毫不犹豫地对这位失独妈妈伸出了援手，却在交付时犹豫的原因。

　　接下来，阿里希望，花更多时间对这个项目做进一步的跟进和思考。

　　单纯从技术的角度来看，资料留存主要需要考虑两方面：数量和质量。

　　目前AI算法主要还是基于数据去学习，数据越多、质量越好，还原的相似度就越大。

　　比如像这次，阿里团队最后只拿到了1分钟左右的可用音频，虽然采用了上述的新技术，实现的成本还是很高的。

　　所以，如果需要存留，尽可能是保留足够干净的、不夹杂其他人说话的音视频数据，越多越好，资料的数量和质量决定了还原的成本和难度。

　　钉钉、微信、email等聊天和通信数据，写过的作文，发过的微博，BBS帖子……语音聊天数据和演讲音频等都是非常珍贵的。

　　简而言之，要“复制“一个人的对话能力，需要大量的对话数据。

　　在了解技术的全貌之后，接受与否，每个人心里就都有自己的答案了。

　　最后的最后，希望人类的科技，能帮助每一个需要帮助的人，走出心中的苦痛。

　　—完—

　　@量子位 · 追踪AI技术和产品新动态

　　深有感触的朋友，欢迎赞同、关注、分享三连?'?' ? ??

　　知乎上已经没有看过《铁臂阿童木》的人了吗？

上一篇：站在局外人角度看爱情是什么体验？喜马拉雅十周年邀请柳岩和沈奕斐“一起聊聊吧”
下一篇：读书笔记（耽美文）

失独妈妈把女儿做成 AI，这样留下挚爱的方式你能接受吗？

最近更新生活资讯