病历回顾性研究的可视化分析及方法学刍议

栏目：旅游资讯时间：2023-07-09

　　病历回顾性研究（retrospective chart review，RCR）是指基于现有的患者病历信息或相关数据库，通过数据提取、数据整理、统计分析等一系列研究流程以回答特定研究问题的一类回顾性研究[-]。作为RCR的主要数据来源，“病历”的范围有狭义与广义之分。狭义上的“病历”仅指记录患者具体诊疗信息的相关文档，如门诊/住院病历、护理记录、会诊记录、检验/检查报告、出入院报告等，故既往也称之为病案回顾研究（medical record review，MRR）[]。随着电子信息技术的快速发展，基于患者医疗信息构建的电子数据库，如临床专病数据库、医疗保险公司的病历信息系统、各省（市、区）的医疗保障信息平台等，也被纳为RCR的数据来源，以开展诸如流行病学调查、医疗服务体系评估、医疗决策模型构建等多种实证研究[-]，因此广义上的“病历”还包括源自于科研机构、医疗保险公司和（或）政府卫生部门的院外卫生保健档案/报告等一切可获得患者医疗信息的文件[,]。基于广义上的概念，有学者指出，任何从医疗文件中提取信息的研究都可以归类为RCR[]。尽管此定义过于宽泛，但对于RCR的数据来源却做出了相应界定，即任何记录并留存的、与患者卫生保健相关的资料信息。

　　近年来，随着医疗大数据的使用越来越规范和普遍，加之实施流程相对简单、信息获取成本较低，RCR在医学研究领域中的应用日益广泛[-]。仅在急诊医学研究领域中，通过RCR发表的期刊论文占比就可达25%～53%[]。然而，现有RCR在设计、实施及报告方面的质量参差不齐，例如研究人群或研究变量选择不恰当、研究设计不合理或实施流程不清晰、数据提取时产生较大偏倚、报告透明度欠佳等[, ]，因而不同程度地影响了研究结果的科学性和真实性。本文对近5年收录于科学引文索引（science citation index，SCI）的高质量RCR进行可视化分析以探索当前研究现状及热点，并进一步系统梳理了RCR的方法学内核，以期为未来的合理化、规范化研究提供指导与建议。

　　计算机检索Web of Science（WoS）数据库核心合集，检索策略为：Topic Search（主题检索）=（retrospective chart review）OR（medical record review），检索时间限制在2018年1月1日至2022年12月31日。通过阅读文章标题与摘要，按照纳入与排除标准来筛选合格文献。纳入标准为：① 明确说明研究数据来源于病历资料；② 研究类型为实证研究且发表类型为期刊论文；③ 研究收录于SCI并能通过WoS数据库核心合集检索获得。排除标准为：① 发表类型为研究方案、会议论文、社论或评论；② 重复发表的文献。

　　将纳入的文献题录以txt格式导出，并以“download_**.txt”命名后导入CiteSpace软件（V6.1.R1）进行格式转换[]。设置时间跨度为2018―2022年，间隔为1年；主题词来源默认全选；节点类型中“作者”、“机构”、“国家/地区”的阈值（Top N Per slice）设置为20，“关键词”的阈值（Top N Per slice）设置为50。选择路径发现（pathfinder）、切片网络剪枝（pruning sliced networks）、整体网络剪枝（pruning the merged network）的图谱剪切方式简化网络结构以突出重要结构特征，并采用聚类静态（cluster view-static）和展示整体网络（show merged network）的可视化方式呈现最终分析图谱。

　　在WoS数据库中共检索出RCR相关文献12 847篇，经去重、纳入与排除标准筛选后，最终纳入合格文献9 260篇，其中2018年1 691篇，2019年1 700篇，2020年1 869篇，2021年2 173篇，2022年1 829篇。5年间的发文量总体上呈现逐年递增的趋势，但在2022年较前一年有所下滑。具体发文量变化趋势见附件图1。

　　国家/地区合作网络图谱（附件图2）共获得25个节点，25条连线，网络密度0.083 3。结果显示，发文量排名前20位的国家/地区分别为美国、加拿大、中国、韩国、澳大利亚、日本、德国、沙特阿拉伯、意大利、英格兰、以色列、印度、土耳其、法国、瑞士、荷兰、泰国、西班牙、南非、巴西；分属于亚洲（8个）、欧洲（8个）、北美洲（2个）、南美洲（1个）、大洋洲（1个）、非洲（1个），在全球地理位置上的分布较为均匀。共现关系图谱表明，欧洲诸国之间的合作最为普遍，其中西班牙是开展跨国合作研究最多和最为频繁的国家。美国、中国、加拿大尽管在发文量上位居前三，但更倾向于开展本土化研究。

　　机构合作网络图谱（附件图3）共获得38个节点，38条连线，网络密度0.054 1。结果显示，发文量超过20篇的研究机构数量为38个，其中35个位于美国，2个位于加拿大，1个位于以色列。主流发文机构多为公立医疗机构、大学医学院系或其附属医院。发文量排名前20位的机构见附件表1。发文量最多的研究机构是哈佛医学院，且与其他机构存在最多的共现关系。整体来看，美国国内的研究机构间相互合作十分普遍，这也是其发文量独占鳌头的重要原因之一。

　　作者合作网络图谱（附件图4）共获得215个节点、228条连线，网络密度为0.009 9。节点越大代表该作者的发文量越多；连线表示作者的共现关系，线条越粗代表两者的合作越紧密；紫色、蓝色、绿色、黄色、红色依次代表2018—2022年中的各个自然年。结果显示，5年来发文量最多的作者为Moon，累计发表期刊论文12篇；累计发文量排名前10位的作者均发表了不少于8篇的论文数量，具体见附件表2。图谱的可视化分析表明，中高产作者间存在较为紧密的合作关系，并形成了多个具有一定规模的研究团队。但此类团队的核心成员最多为8名，并且共同合作的年数不超过3年。此外，节点、连线比例与低网络密度表明，不同的研究团队间几乎未见合作关系，提示各团队的研究领域或方向重叠性极低。

　　关键词共现网络图谱（附件图5）共获得80个节点、200条连线，网络密度为0.063 3。节点大小代表关键词的出现频次，连线粗细表示表示共现关系强度，线的颜色表示对应节点第一次共现时间，两者联合可以在一定程度上呈现出研究领域中的热点。结果显示，出现频次超过100的关键词有42个，其中排名前20位的关键词见附件表3。图谱的可视化分析表明，高频次关键词间存在相当紧密的联系，结合中心度可将RCR的研究热点总结为以下三类：① 疾病治疗/干预措施的管理、并发症、结局与随访情况（关键词：therapy、surgery、guideline、management、complication、outcome、follow up）；② 疾病的流行病学特征、危险因素与预后（关键词：risk factor、mortality、prevalence、epidemiology、infection、cancer、survival）；③ 婴幼儿/儿童/青少年（即未成年人群）的患病风险、损伤特征与诊断（关键词：infant、children、adolescent、age、disease、risk、injury、diagnosis）。依赖病历资料中丰富、翔实的临床信息，前两类研究重点关注疾病本身，不仅仅是疾病的临床特征，还囊括了从筛查、诊断、治疗乃至预后的疾病发生、发展全过程；第三类则重点关注未成年人群在临床中的特征性表现。

　　关键词突现是指关键词在短时间内的出现频次显著增加，通过对突现情况的分析可进一步探究研究热点的起止时间及动态变化。以关键词共现网络为基础，通过检测关键词突现情况进一步展示近5年来中国RCR的热点变化及现状（附件图6）。从时间线来看，从2018年到2021年，各自涌现出一批不同的研究热点。结合研究内容综合分析，epidemiology、risk、risk factor、association等多个起止于不同时间点的突现关键词表明，疾病的流行病学研究始终是近年来的最大热点，而诊断与预后研究同样备受关注；研究疾病方面，癌症作为突现强度最大的具体病种关键词，体现出我国研究人员对其的关注度高；研究人群方面，与全球范围内的研究热点一致，儿童亦是我国RCR的热门研究对象；手术、疗效分别是研究热度最高的干预措施和结局指标。

　　通过log-likelihood ratio（LLR）算法对关键词共现网络进行聚类分析。最终形成了9个聚类标签，模块化Q=0.787，平均轮廓S=0.950，代表聚类结构显著且结果可信度高。主要针对聚类标签中范围较大且k值大于2的前4个核心聚类网络进行分析，其中聚类大小与序号成反比（）。第一类别children（#0）为最大聚类，包含了disease、risk、injury、pain、classification等高频关键词，主要围绕儿童、婴幼儿等未成年人群而开展不同主题的临床回顾性研究。这可能由于从伦理角度和研究配合程度而言，未成年人群相较于成人更难于开展前瞻性的临床研究，因此采用RCR可以弥补相关研究领域的空白。第二类别complication（#1）包含risk factor、mortality、infection、impact、bariatric surgery等高频关键词，主要采用RCR以探索临床疾病或干预/治疗手段引起的并发症特征及相关危险因素、特定临床结局。值得注意的是，COVID-19作为出现频次较高的关键词被归入此类别，提示RCR作为一种回顾性研究，亦能针对新型冠状病毒肺炎（以下简称为“新冠肺炎”）这样的突发公共卫生事件而取得数量较为可观的研究成果。第三类别palliative care（#2）包含cancer、quality of life、cost、depression、mental health、validation等高频关键词，主要通过RCR回顾性评价姑息治疗对癌症患者生活质量、心理健康状况、治疗费用等不同结局指标的影响及有效性。第四类别diagnosis（#3）包含prevalence、population、women、emergency department、symptom、feature等高频关键词，主要关注疾病在特定人群或特定地点中的临床特征情况及对应诊断。

　　2018―2022年间发表的高质量RCR具有以下特点：① 研究发文量较大，且广泛开展于全球各地；② 除欧洲诸国外大多数国家更倾向于开展本土化研究，其中又以美国的研究数量为最，其机构间的合作关系也最为普遍和紧密，这可能与地理位置、国家人口、病历资料获取难易程度等多种客观因素有关；③ RCR的研究团队成员通常数量不多但相互合作关系稳定，且涉及的研究领域及方向十分繁杂，各研究团队间几乎无合作关系；④ 研究热点可总结为三类：疾病治疗/干预措施的管理、并发症、结局和随访；疾病的流行病学特征、危险因素与预后；未成年人群的患病风险、损伤特征与诊断，其中我国的RCR研究热点与全球范围内的高度重合；⑤ 具体的研究领域主要集中于儿童人群、并发症、姑息治疗、疾病诊断等特定主题。

　　美国食品药品监督管理局（Food and Drug Administration，FDA）在《英格兰医学杂志》上发文指出：基于真实世界数据开展的真实世界研究，其产生的证据与“传统”临床随机对照试验（randomized controlled trial，RCT）证据的本质区别并非在于研究方法和研究设计，而在于获取数据的背景环境[]。即真实世界数据是指源于医疗机构、家庭或社区日常所收集的患者健康状况和（或）诊疗及保健相关的数据，与科研机构通过诸多严格方法学限制而产生的数据具有本质区别[]。RCR不施加额外干预，且所应用的数据均产生于研究开展之前、符合常规收集医疗卫生数据的定义，即基于临床或管理目的、事先没有针对特定研究目标而收集的一类数据[]，因此可以归类为真实世界研究。然而，也正是由于研究数据来源于真实世界，在从病历资料的原始信息中提取研究数据时，不可避免会存在诸多偏倚。例如，患者报告的信息有误或是遗漏（回忆偏倚）；负责记录的医护人员因疏忽或固有思维而漏记、少记信息（信息偏倚）；研究者对原始记录信息的解读存在误解而导致分类错误（错分偏倚）；对所提取数据的分析及结果解读与真实情况存在偏差（报告偏倚）等。除此之外，还存在研究类型不适用或伦理考量缺失等问题。因此，部分研究受到了方法学层面的诟病。以下将通过归纳开展RCR的具体流程（），刍议其在方法学层面需要考虑的问题及相应对策。

　　研究问题应当是基于现有知识或证据合理推导且需要进一步验证的一个或一系列具体问题，其对研究设计及研究结果表达具有直接影响作用[]。参考Morgan等[]提出的分类框架，并结合应用现状，可以将RCR的研究问题大致归纳为三类：① 描述性问题：为获取现有或既往已发生事件/结局/特征而提出的问题，例如获得现在或过去某一时点在某地区某种疾病的发病率/患病率，归纳、总结某一罕见疾病的实验室及影像学特征性表现等，其结果通常以频数、百分比、集中趋势指标（均数、中位数）、离散程度指标（标准差、方差、四分位数间距）等进行报告并通过相应的图片、表格形式来呈现；② 关联性问题：为分析不同现象之间的关联关系而提出的问题，例如确定暴露与结局间的因果关系，探索特定干预措施与患者结局变化的关联程度等，其结果通常以相关系数或模型来呈现；③ 比较性问题：为比较不同自变量与因变量之间的关系而提出的问题，例如比较不同干预措施在相同人群中的疗效差异，或比较相同干预措施对不同人群的疗效差异，其结果除了以定量与定性数据表达外，通常还需要结合统计学检验进行分析。采用PICOS原则可进一步将研究问题转化为更为具体化、结构化的研究假设，从而使后续研究方案设计更具针对性[]。

　　在正式开展研究之前，还应当对现有文献进行系统检索并全面回顾、了解既往研究能否全面回答或是部分回答当前的研究问题。这不仅有助于调整、优化研究问题及研究假设，更能为研究者提供关于研究变量的重要信息，例如何种变量的作用或价值已被充分阐明，何种变量已有研究提及但尚未了解其全貌，以及何种变量还未曾有研究挖掘和加以探索。

　　适用性是指数据满足使用者需求的质量评价程度[]。病历资料具有真实世界数据的属性（并非基于特定研究目的而记录），因此RCR病历资料适用性的评估具体可参考真实世界数据适用性的评价维度[-]，通过相关性、完整性、准确性、一致性、合理性、时效性（即时性、准时性）、可及性等多个不同维度来评估病历资料的适用性。与严格控制偏倚、记录目的明确的RCT数据相比，病历资料提取的数据存在一定程度的质量缺陷。例如选择的研究样本无法代表特定患者群体的特征，记录的原始数据包含的关键研究变量信息不全，数据采集过程中系统误差较大等。故对于病历资料适用性的评估约等于评价RCR是否适合解决当前提出的研究问题。此外，在确定了RCR可以回答研究问题之后，为了确保结果具备足够的精确度，还应进一步计算样本量以评估病历资料的数量能否满足研究需求。

　　研究设计类型关乎后续方法学的具体运用，故应在研究方案设计阶段首先明确。常用的设计类型包括回顾性队列研究设计、病例-对照研究设计、横断面研究设计、病例系列研究设计、中断时间序列设计以及相关的衍生设计类型，应当围绕研究问题、研究假设以及病历资料的适用性选择适宜的设计类型。

　　以医疗实践为主要记录内容的病历资料信息通常敏感性与特异性较低，其中对于研究变量的描述，尤其是相对主观的临床症状，可能存在不一致甚至矛盾的情况[]。以疼痛这一变量为例，其在病历书写中存在多种形式的表达，如手刺痛可被记录为针扎样不适感，头胀痛可被记录为自觉头晕头胀、难以忍受等，这与患者的表述及临床医师的书写习惯均有一定关系。若在变量的识别上出现混淆，将直接影响后续的数据提取、分类等工作。故在研究设计阶段，必须预先明确并定义研究变量，并制订包含各变量定义和编码的指南或操作手册等标准化文件以进一步规范研究变量的识别过程[]。

　　考虑到数据质量问题，RCR中的纳入和排除标准要求通常远低于RCT，但对研究目标人群及变量特征的详细界定仍必不可少，同时还应尽可能地识别并排除混杂因素以确保样本人群可以代表总体人群的特征情况[]。随机抽样是规避各种偏倚以提高研究内部真实性的重要手段，研究者应尽可能确保所有合格的个体病例在随机抽样时被选中的概率相同，同时绘制流程图以详细阐述确定研究样本的完整过程，内容应包括：① 基线特征描述；② 排除病例数量及具体理由；③ 合格病例数量及具体随机抽样方法；④ 最终纳入的研究样本量。此外，需对已纳入或排除病例进行定期审查，以确保标准实施的准确性。

　　对于样本量较大或提取变量数据繁杂的RCR而言，还应在正式研究开展前通过试点研究（一般为正式研究样本量的10%）以提前评估研究方案的科学性及可行性。其作用主要有5个方面：① 进一步确定病历资料及抽样方法的适用性；② 形成对数据质量（完整度、准确度、全面度）的初步认识；③ 测试纳入/排除标准对于确定研究目标人群的合理性和有效性；④ 提前发现数据提取过程中可能出现的问题并制订对应的处理预案；⑤ 评估数据的内部一致性，即采集的数据是否真实、可靠。

　　尽管RCR仅围绕已有的病历资料，而非针对患者群体本身开展研究，但在各医疗记录或管理文件中可能包含患者的敏感信息，因此仍需要通过研究实施机构的伦理委员会批准。通常仅在同时符合下列两种情况时可以申请豁免伦理审查：① 病历资料获取来源公开；② 以匿名方式记录的信息无法直接或（通过标识符）间接地暴露患者个人信息[]。当超出以上范围，尤其是研究方案中存在侵犯患者隐私和（或）违反研究相关保密条款的风险时，则需要对病历资料进行严格的内容审查，并在获得伦理许可后方能开展正式研究。

　　数据提取是RCR实施过程中最易产生偏倚的环节，而偏倚主要来源于数据提取者与数据提取工具两个方面。首先，就数据提取的人选而言，由于数据提取者通常来自于研究团队内部，其作为系统接受过医学教育的专业人员（如医生、护士、药师、医学生等），在了解研究背景及研究目的/假设的情况下，极易在提取过程中有意识或潜意识地选择有利于证明研究假设的变量数据（暴露怀疑偏倚）；而若是选择没有医学教育背景的人员提取数据，则可能无法识别专业的医学术语或错误地解读原始记录，从而导致无法找到特定信息或提取错误信息（测量偏倚）。因此，在理想状态下，应当由不直接参与研究设计及数据统计分析的医学专业人员进行数据提取，并在研究目的/假设及患者组别分配（当研究存在两组及以上患者的比较时）上对其实施盲法，同时开发、应用能够维持稳定盲态的方法[, ]。当设盲不可行时，替代方案为分配不同的数据提取者独立提取不同的变量集，如一位负责提取人口统计学特征、既往史、用药史等基线变量，而另一位负责提取治愈率、死亡率、生存率等结局变量。此外，定期开展数据提取标准化的统一培训是进一步减少测量偏倚的重要手段。培训内容应当包括提取变量的准确识别方法、结构化的操作步骤以及相关培训手册/指南应用的讲解等[, ]。其次，缺乏标准化的数据提取工具还可能造成严重的错分偏倚，尤其当原始记录中的信息模棱两可或前后矛盾时。处理对策为采用具有实时监测、提醒功能的电子数据收集系统或是统一规范的病例报告表以最大限度地减少遗漏、模糊或录入错误的数据[]。同时，应在试点研究中测试其性能并尽可能地完善其不足之处。对于多中心的电子病历数据库、医疗保险数据库等大型电子数据库，可通过国际疾病分类编码、自然语言处理（natural language processing，NLP）技术等识别目标疾病及抽取病历信息。

　　除了可靠性与准确性，还需进一步关注数据一致性的问题。数据提取的一致性主要包含两个方面：① 内部一致性，即同一数据提取者对于不同病历资料中相同变量的提取差异程度；② 组间一致性，即不同数据提取者对于相同病历资料中相同变量的提取情况差异程度[]。对于两种一致性的检验，前者可采用克朗巴哈系数分析，后者则可采用Kappa一致性检验[]。理想状态下，采用系统评价的数据提取模式（双人独立提取+第三方共同协商以解决分歧）能够确保最佳的数据提取质量。但受限于人力、物力，往往难以实施。对于数据提取者较多的多中心RCR而言，若不对数据提取的组间一致性进行检验，可能无法分辨不同中心之间的结果差异是源于各中心样本自身的差异还是数据提取过程因不一致性所致的差异。一致性的评价既可以在预先开展的试点研究中进行，也可以在正式研究过程中随时对已有数据进行抽样调查。尽管对于提取的数据需要到达何种程度的一致性尚无金标准，但对于最重要或易混淆的变量数据提取，研究者需要基于具体问题来共同讨论并明确可接受的一致性程度或标准。例如采用Kappa一致性检验时，定义效应量Kappa值在大于0.85时可认为组间一致性较好。

　　针对数据中的缺失部分还应进行统计学处理。缺失数据比例过大可能会造成严重的选择偏倚，如果剔除大量不完整的个案数据而只分析小部分的完整数据集可能会导致错误结论。因此，若一个病历数据库中的研究变量信息缺失比例过大，则不建议采用此库进行分析。研究方案中应预先确定针对缺失数据的具体处理方法，例如采用敏感性分析观察缺失数据的影响；采用多重填补的方法处理缺失数据，最后综合分析此类数据对于研究结果的影响等。

　　对于数据收集时间较长的研究，可能出现准确性下降或者处理流程的变化。因此，还应对数据处理过程进行监察，例如定期比对病历资料中的原始记录以核验已提取数据的准确性、检查处理流程的规范程度等[]。具体监察方案需由研究者提前制订并严格实施，并定期与数据提取者沟通以解决过程中可能出现的问题及争议[]。

　　具体的统计分析方法需视预先的研究设计而定，故不作为本文的重点在此展开讨论。但仍然有以下两个方面值得强调：① 在实施统计分析前，确保研究问题的定义明确，且相关的无效假设或备择假设可以通过现有的统计方法检验；② 尽可能地构建一个完整、明晰的数据库，并选择便于将其直接导入并分析的统计软件。具体统计分析的实操需由具备一定数理统计专业知识且不直接参与研究过程的人员负责。

　　病历资料中的原始数据包含了多种复杂的主观和客观信息，尽管可以从多个角度尽可能地提高研究的方法学质量，但RCR相较于前瞻性研究仍不可避免地更易产生各种偏倚。参照Kaji等[]绘制的有关RCR研究过程中可能产生偏倚的流程图（），即使是最为细微的偏倚在经过多个环节的逐步累积后也能使得研究结果的真实性大打折扣。因此，对于结果的解读应当包含两个方面：一方面应该结合现有研究背景，详细分析其可能的价值及意义，例如对现存的研究领域空白做了何种程度的填补，或是为未来更深入的研究指明方向；另一方面对结论的表达及适用范围需持谨慎态度，应尽可能地总结研究存在的局限性并在讨论部分详细阐明。

　　全面、透明地报告回顾性研究实施过程和结果对于识别研究的潜在偏倚和判断结论的适用性至关重要。这不仅有助于读者全面了解研究具体内容，更有助于对研究结果真实性和有效性的客观评价。由于RCR的开展可以采用多种不同的设计类型，迄今为止尚缺少通用格式的报告规范或指南，但仍有部分指导性文献可供参考。

　　《美国临床药学期刊》基于既往RCR的方法学质量，编制了一份包含10项报告要点的条目清单以提高相关研究结果的严谨性[]。条目内容包括伦理许可、设计类型、研究场所/数据来源、研究问题及纳入/排除标准、样本人群、观察基线、研究变量、样本量估算和检验效能计算、数据收集、局限性讨论。由于该清单的制定初衷在于提高方法学层面的标准化水平以提升研究质量和结论的严谨性，仅对与研究方案设计相关的4项条目做了强制性报告要求，因此尽管可适用于不同设计类型的RCR报告，却无法全面覆盖所有研究领域中RCR的报告信息要求，故其应用仍具有一定局限性。对于以流行病学调查为研究主题的RCR（如回顾性队列研究、横断面研究等）而言，可采用加强观察性流行病学研究报告的声明（strengthening the reporting of observational studies in epidemiology statement，STROBE），即SREOBE声明[]，其作为经典、实用性较强的流行病学研究报告规范可以有效促进该类型RCR报告质量的提升。而对于非临床实践、管理用途的常规收集卫生数据，如来自于疾病登记库、公共卫生报告、医疗保险数据库的数据，则可采用常规收集卫生数据开展观察性研究的报告规范（report of studies conducted using observational routinely collected data，RECORD）[]。RECORD规范可以视作为SREOBE声明的扩展版，其在SREOBE声明的基础上，又进一步对作者提出了关于数据收集规范程度及适用性方面的报告要求。通过更为全面地总结研究结论的优势、局限性和准确性，RECORD规范可以加强基于常规收集卫生数据开展的观察性研究报告的透明度和完整性[]。以上三者对于报告内容的侧重点既有重合、也有不同，因此需根据具体RCR的设计及实施情况来具体分析并灵活选用。

　　可视化分析表明RCR正日益受到临床研究人员的青睐并广泛开展于全球各地，然而通过方法学层面的回顾，提示仅通过无科研导向性的病历资料而获得的研究结论可能与真实情况存在不同程度的偏差。究其原因，同时也是RCR最难以克服的缺陷在于无法同RCT一样提供“稳定、准确且可以复现”的研究数据[]，这在一定程度上影响了研究结论的稳健性和可靠性。既往有不同学者试图为病历资料的数据提取过程设立各类操作标准以提高研究质量[, -]，但由于缺少统一的指导性文件而采纳者寥寥、难以验证其有效性，且随着大型公共数据库的不断建立，在其适用性方面更是存疑[]。迄今为止通用范式的RCR报告规范缺失更是进一步限制了研究的透明度，不利于结果的推广应用。此外，RCR在国内的中文称谓较为混乱，常代之以“病历挖掘”、“病历分析”、“病历调查”之名，在研究名称方面的不统一亦会影响具体方法学的规范运用，并可能使读者对RCR的研究范式产生困惑与质疑。

　　尽管存在以上不足之处，RCR的独特优势和发展前景仍然无法掩盖。首先就临床实践而言，当研究疾病为罕见病或难治性疾病时，综合病历资料获取的难易程度及伦理因素的考量，都难以对此类疾病开展前瞻性的观察性或干预性研究。尤其对于某些无法开展RCT或前瞻性队列研究以获取临床数据的疾病而言，RCR是良好甚至是唯一能够产生科学结论的研究形式。例如开展烟雾病的流行病学调查以及观察不同基因表型对于患者结局的影响[-]，分析Sagliker综合征的颅面影像学特征[]，观察不同治疗方案下瓦尔登斯特伦巨球蛋白血症患者的临床结局[]，探讨孕期寨卡病毒感染与先天性寨卡综合征的关联性等[]。针对诸如新冠肺炎这样的突发公共卫生事件，RCR亦有一席用武之地，例如有国内学者对新冠肺炎爆发前后儿童医院住院病例的特征进行对比，以探讨防疫政策及措施对于住院患儿疾病分布、类型和住院模式的影响[]。而我国作为人口大国，在病例数量及种类方面具有开展RCR的天然优势。其次在数据质量方面，随着信息技术的发展，尤其是病历记录电子化、结构化和标准化程度的提高，原始数据的准确性、完整性及可追溯性亦随之显著提高。除了对原始信息的获取、甄别乃至溯源上更为便捷、规范之外，甚至还可将相关量表及问卷嵌入、加载至医院电子病历系统中以备后续研究所需[]。以上在数据来源方面的质量控制举措无疑是对研究结论的临床相关性和可靠性的实质性提升[]。最后，机器学习技术、数据挖掘技术、NLP技术等新兴人工智能技术可以在数据处理过程中发挥文字识别、数据分类、数据清洗等多重作用，从而显著弥补人工提取在处理过程中的缺陷[]。

　　总而言之，医学的进步势必会催生更多的研究问题，随着方法学的不断完善以及科研技术的持续发展，RCR在未来医学研究进程中将发挥积极作用。

　　声明　本研究不存在任何利益冲突。

上一篇：第二版--医学伦理学经典案例分析100
下一篇：计算人口学的学科范式、理论基础与技术方法

病历回顾性研究的可视化分析及方法学刍议

最近更新旅游资讯