为什么我们需要医学知识图谱?

栏目:学历教育  时间:2022-12-01
手机版

  人工智能正在变得司空见惯。在医疗领域,医生也越来越重视人工智能所带来的疾病诊断效率和治疗价值的提升。要实现医疗人工智能,需要构建医学知识图谱以满足医疗领域对知识的应用需求。

  ◆ ◆ ◆

  知识图谱是什么?

  知识图谱,顾名思义,就是用图的形式将知识表示出来,其本质是通过结构化而非纯文本的方式描述事物的属性以及事物之间的关联。

  知识图谱由节点和边组成,节点表示实体、概念或属性值,任何物体、地点或人都可以是一个节点;边表示实体的属性或实体间的关系,而三元组是知识图谱的基本表示形式。举个例子来说,一个节点可以是一个组织机构,比如心内科,也可以是一个疾病,比如高血压;边则描述了高血压和心内科之间的“疾病-科室”关系,(高血压,科室,心内科)就是一条简单的三元组。

  

  知识图谱示例

  ◆ ◆ ◆

  为什么我们需要医学知识图谱?

  随着自然语言处理等技术的逐渐成熟,医学人工智能已成为推动行业发展的强劲动力。然而,要想让机器具有智能,能做到像人一样去理解和思考,就必须让机器具有知识。

  在专业化程度集中的医疗领域,这些知识往往来源于经过严格的行业内审核、在行业内达成共识的内容,例如教科书、临床指南、临床路径等资料。然而,这些资料大多以非结构化的形式呈现,存在数据处理复杂,开发门槛高的问题,限制了知识能力的释放,更不用说让机器去理解和应用知识。

  如果我们提前把这些资料以一种机器可读的形式整理好,让机器直接去读取,是否可行呢?

  答案是可行的,以这些医学资料为基础建立医学知识图谱,可以将其中自由文本形式的内容转化为完全结构化、计算机可理解的形式,与非结构的文本数据相比,结构化的知识图谱可以一种更加清晰、准确的方式表示人类知识,便于机器读取和应用。

  

  知识图谱结构化示例

  ◆ ◆ ◆

  医学知识图谱应用场景

  医学知识图谱的使用价值也可以从主流应用场景中一探究竟,目前医学知识图谱主要应用于语义搜索、知识问答、临床决策支持等场景中。

  1. 语义搜索。传统的搜索主要为关键词搜索,这种搜索引擎对查询的处理局限于词的表面形式,缺乏知识处理能力和理解能力。知识图谱描述了事物的分类、属性和关系,具有丰富的语义信息,将其应用于语义搜索可实现准确地捕捉到用户所输入语句后面的真正搜索意图,从而更准确地返回最符合用户需求的搜索结果。

  2. 知识问答。基于知识库的问答(Knowledge-Based Question Answering,KBQA)也称知识问答,主要依托于大型的知识库,将用户的自然语言问题转化成结构化查询语句,直接从知识库中导出用户所需的答案。医学知识较其他领域相比专业性更高,非专业人士很难通过自主理解一堆资源文档,来精准地找到相关问题的答案。因此,基于医学知识图谱的KBQA可以帮助患者更加快捷、便利地获得问题的答案,适用于医学知识科普、智能导诊、自诊等领域。

  3. 临床决策支持。临床决策支持(Clinical Decision Support,CDS)是指运用相关的、系统的临床知识和患者基本信息及病情信息,向临床医务工作者提供加强医疗相关的决策和行动的信息,提高医疗质量和医疗服务水平。具有临床决策支持功能的系统,称为临床决策支持系统(Clinical Decision Support System,CDSS),医学知识图谱中包含丰富的医学基础知识,可以作为CDSS知识库中的重要组成部分,它为CDSS的推荐结果提供了可解释的依据,能够协助系统从辅助诊断、治疗方案推荐、合理用药检测等方面为临床医务人员提供决策支持。

  随着技术和行业的发展,目前知识图谱也被应用于辅助药物研发、公共卫生事件的预警场景中。

  1. 药物研发。近年来,人工智能辅助药物研发逐渐成为研究的热点。知识图谱可应用于药物研发的知识的聚类分析,帮助提出新的可以被验证的假说,从而加速药物研发的过程,降低研发成本。

  2. 公关卫生事件应对。在流行病学调查和疫情发生事件的分析和预警等公共卫生事件场景中,知识图谱采用图存储数据的理念可以起到非常大的帮助。例如,利用知识图谱的形式可以直观地表示流行病调查中的人员分布、人员活动轨迹、发病时间等信息,基于图展示出的信息可以更方便的用于病例之间相关性的分析,更快地分析和梳理出感染源头。

  ◆ ◆ ◆

  构建医学知识图谱的难点在哪?

  医学知识主要具有术语多样化、知识分散、质量参差不齐、知识复杂等特点,这些特点也为医学知识图谱的构建、应用带来一定挑战。

  1.术语多样化。医学术语是医学专业领域中一般概念的词语指称,广泛分布在医疗记录、医学文献和医学教科书等信息资源中。目前我国还未建立规范、统一的医学术语标准,这也就使得相关从业者在不同场景下使用医学术语较为随意,最终导致同一个医学概念存在多种术语表达方式的现象普遍存在。此外,外文翻译导致的错别字等问题,也是导致术语多样性的原因。

  2.知识分散。以疾病为例,目前为止没有任何一个知识源可以涵盖针对某一疾病的所有知识。产生这一现象的主要原因有两个:一个是医学知识更新迭代迅速,新知识无法快速地在原知识源上更新;另一个是不同的机构由于发布目的不同,导致所发布的知识源通常仅包含某些特定维度的知识。

  3.知识复杂。医学是经验性总结的科学,主要分为基础医学、临床医学以及预防医学三大类学科。三大类学科各自分工研究复杂的人体问题,相应的知识也是复杂多变。单从医学概念上就能看出医学知识的复杂性,一个医学概念往往存在多个上位概念和下位概念。以肺炎为例,肺炎不仅有肺组织炎症和肺实变两个上位概念,还有新生儿肺炎、间质性肺炎和支气管肺炎等多个下位概念,如下图所示。

  

  肺炎的多个上位概念和下位概念

  将复杂的医学知识完整地、清晰地表达出来,可以使计算机在辅助人类开展医疗活动过程中显得更加智能,让用户获得更加全面的医学知识。

  4.质量参差不齐。众多的医学知识来源势必会导致知识质量参差不齐。临床路径、临床指南和医学教科书等资源的权威性较高,且临床指南会标识证据等级,相应的医学知识质量高、可信度高。一些互联网开放平台上的知识由于维护者身份和审核等原因,其权威性通常有争议。

  以上这些特点也一定程度上加大了医学知识图谱构建、应用的难度。在此背景下,OMAHA以满足行业内对数字化医学知识的底层共性需求为切入点,自主构建中文医学知识图谱——“汇知”医学知识图谱(简称“汇知”图谱)。围绕疾病、药品、检验检查、手术操作四大领域,选取临床指南、临床路径、医学教材、药品说明书和中国药典等权威、高质量的医学知识作为知识源,采用“机器+人工”的方式抽取基础医学知识形成高质量的知识图谱,为精准的医学知识智能化和应用提供基础。

  目前,汇知”图谱已发布疾病知识图谱和药品知识图谱,共计约12万实体,96万三元组。

  疾病知识图谱

  疾病知识图谱以疾病为中心,主要构建疾病与检验检查、手术操作和药品之间的关系。疾病知识图谱共建立心血管系统疾病、神经系统疾病、消化系统疾病等17个疾病细分领域知识图谱,描述疾病的临床表现、科室、相关检查、治疗方式、症状、治疗药物、并发症等110+关系,为人工智能技术在不同疾病领域的辅助诊疗、风险预测等场景应用提供更全面的知识支撑。累计发布7.5万实体,37.0万三元组,其中53%的实体与“七巧板”医学术语集建立了映射。

  药品知识图谱

  药品知识图谱以药品为中心,构建药品与疾病、检验检查、手术操作之间的关系。截至目前,药品知识图谱覆盖3.0万种药品(通用名),累计发布4.5万实体,60.0万三元组,其中56%的实体与“七巧板”医学术语集建立了映射。已发布关系类型包括医保支付类型、剂型、适应证、适用人群、禁忌证、禁忌人群等。

  注:部分内容节选自《imit白皮书第二十二期发布:医学知识图谱:医学人工智能的基石》,版权归原作者所有,如涉及侵权,请联系后台处理。

  有件重要的事和你说

  关注并标注星号,查看历史文章,更多精彩!

上一篇:网课高阶版:七项值得培养的网课技能 | 网师外脑
下一篇:2022二建各科电子版教材(可复制)

最近更新学历教育