临床数据质量评估指标研究(2)
3.1.2 基于文献的语料集整理 为收集文献中碎片化数据质量知识,对纳入的30篇文献进行全文阅读,摘录其中质量维度的相关描述。摘录遵循以下3条准则以确保内容相关:文献中关于数据质量维度的定义;对维度的解释说明;所列举的实际数据质量问题示例。最终得到包含247个段落或句子的语料集。
3.1.3 问题数据报告收集 在实际临床数据应用中,数据使用者会记录数据中的问题,形成数据问题报告,以便提高数据质量。数据问题报告中包含丰富的数据质量知识,为构建指标提供可用资源。本研究选择区域卫生信息平台构建和临床科研表单数据采集两类临床数据应用场景,收集该场景数据问题报告。构建区域化卫生信息平台是我国基础卫生建设的重要任务,国内各省市均开展相关建设[36];注册研究是针对性地收集特定诊断或病情数据并开展相关研究工作的一种常见临床研究手段[37]。针对以上两类常见的应用场景,分别选择两个典型案例进行数据问题收集。案例1:哈尔滨市2020年4-9月间,13家医疗机构产生25份数据问题报告,总计1 810条数据问题。每份报告涉及1家医疗机构,报告中的每条数据问题代表该医疗机构1张数据库表中所发现的一类数据质量问题。案例2:山西省某三甲医院2020年5-8月间,面向区域卫生健康信息平台构建的19份数据问题报告,总计1 372条数据问题。每份报告涉及该医院一类临床业务数据库表的数据质量问题,其中每条问题代表1张数据库表中的一类数据质量问题。案例3:国内某冠心病患者注册数据集。该研究数据由16家医疗机构共同参与收集,从2016年至今累积收集超过33 000例冠心病患者临床、随访数据。本研究收集该研究2019年6月-2020年1月期间6份数据问题报告,总计207条数据质量问题。案例4:国内某老年糖尿病患者注册研究数据集。该研究数据由全国141家医疗机构共同参与收集,2015-2017年间累积收集2 806例老年糖尿病患者(年龄>65岁)诊疗和随访数据。收集该研究2016年7月-2017年1月期间的8份数据问题报告,总计323条数据质量问题。案例1代表在区域卫生信息平台构建中多家不同医疗机构所发现的数据质量问题;案例2则代表同一家机构在长期多次数据递交中所发现的数据质量问题。两个案例结合能有效代表该场景中遇到的数据质量问题,具有典型性。案例3和案例4则是多中心、跨地区、大规模的患者注册研究,具有典型性。
3.2 指标属性设计
为使指标清晰、唯一描述数据质量问题,对指标进行结构化描述十分必要。Johnson曾在研究中提出一套临床数据质量本体,对质量评估相关概念进行定义[6]。我国卫健委发布的电子病历数据评估相关标准中也对指标进行一定描述[38-39]。Johnson本体和我国相关标准中出现的11个与质量评估相关的概念,见表1。本研究选择其中9个概念作为指标属性。其中问题描述和评估对象两个属性是区分指标的两个重要属性,分别代表指标所描述的临床问题类型以及指标所适用的数据对象类别。没有选择数据集、评估结果两个概念作为指标属性,因为本研究针对临床数据提出评估指标,不面向其他领域数据集;评估结果也不是描述评估过程的属性。
表1 指标属性以及对应文献依据属性名称说明文献来源依据是否选择代码 指标的代码[7,39,40]√名称 指标的名称[7,39,40]√问题描述指标的解释和说明[7,39,40]√
续表1数据业务类别 指标所适用数据的临床业务类别,按照评级标准中的分类,包括:病房医师、病房护士、门诊医师、检查科室、检验处理、治疗信息处理、医疗保障、病历管理、电子病历基础和信息利用[7]√评估对象指标所适用的数据类别,按照文献中的分类包括:元数据、数据元、数据值、数据记录、多数据值、多数据记录[7]√评估方式指标适用的实现方式[7]√需求来源评估的需求来源[7]√任务场景指标所适用的临床任务场景。“通用”代表适用于一般任务;“科研”代表一般在科研分析任务中才会涉及的指标[7]√计算方法指标的计算方法[7]√数据集 待评估数据集的说明[7]-评估结果质量评估的结果[7]-
3.3 指标归纳
3.3.1 确定热点维度 临床数据质量维度是用来描述临床数据质量特性的专用概念。统计文献中不同维度出现的次数得到当前关注高的质量维度[8]。统计所得文献中各维度的出现频次。由于目前缺乏统一术语标准,相同维度可能会使用同义词来表示,例如consistency和conformance, accuracy 和correctness等;不同含义的术语在不同研究中也可能代表相同维度。因此根据维度定义统计相同维度出现的次数并记录相关同义词,最后得到当前关注最高的5种维度,构建相关指标。
文章来源:《冶金自动化》 网址: http://www.yjzdhzz.cn/qikandaodu/2021/0502/468.html