这篇文档是关于临床研究过程中数据管理方面的工作,希望能通过这篇文档了解规范的数据管理是什么样以及为什么要遵守这些原则. 最后在我们现有工作的基础上采取什么样的措施能向这些规范性的工作靠拢, 以达到提高科研成果质量和效率的目的.
这篇文档是关于临床研究过程中数据管理方面的工作,希望能通过这篇文档了解规范的数据管理是什么样以及为什么要遵守这些原则. 最后在我们现有工作的基础上采取什么样的措施能向这些规范性的工作靠拢, 以达到提高科研成果质量和效率的目的.
- 临床研究设计
- 数据收集管理
- 数据整理分析
所有的数据库包含一个或多个数据表格, 其中:
📌 例如, 最简单的研究数据库只有一个表格构成, 每行对应一个研究对象, 每列对应研究对象的特定属性如: 姓名、出生日期、性别以及预测或结局状态.
SubjectID | FName | DOB | Sex | Jaundice | IQ |
2101 | Robert | 1/16/2005 | M | 1 | 104 |
2322 | Helen | 1/6/2005 | F | 0 | 94 |
2376 | Amy | 1/13/2005 | F | 1 | 85 |
2390 | Alejandro | 1/14/2005 | M | NA | NA |
2497 | Isiah | 1/18/2005 | M | 0 | 74 |
2569 | Joshua | 1/23/2005 | M | 1 | 115 |
2819 | Ryan | 1/26/2005 | M | NA | NA |
3019 | Morgan | 1/29/2005 | F | 0 | 105 |
3031 | Cody | 2/15/2005 | M | 0 | 132 |
3290 | Amy | 2/16/2005 | F | 1 | 125 |
3374 | Zachary | 2/212005 | M | NA | NA |
3625 | David | 2/22/2005 | M | 1 | 134 |
3901 | Jackson | 2/28/2005 | M | NA | NA |
一般情况下, 第一列是唯一的研究对象识别编码(subject identification number)(“研究对象ID”).
使用唯一的研究对象标识(这些标识在研究数据库外没有意义)可以简化从研究对象个体到研究数据的“去标识”过程, 从而实现保护研究对象隐私的目的, 所以使用身份证作为唯一标识并不是一个可取的办法.
如果数据库包含记录了检查、实验室结果或通话记录的其他表格时, 这些表格的第一列都应该是唯一的记录标识, 如检查ID、实验结果ID或电话ID. 数据表格的唯一记录标识也称为表格的主关键字(primary key), 用于表格之间的相互连接.
📌 这是一个简单的数据表:
SubjectID | FName | DOB | Sex | Jaundice | ExamDate | WghtKg | HghtCm | IQ |
2101 | Robert | 1/16/2005 | M | 1 | 1/29/2010 | 23.9 | 118 | 104 |
2322 | Helen | 1/6/2005 | F | 0 | 1/29/2010 | 18.3 | 109 | 94 |
2376 | Amy | 1/13/2005 | F | 1 | 3/22/2010 | 18.5 | 117 | 85 |
2390 | Alejandro | 1/14/2005 | M | NA | NA | NA | NA | |
2497 | Isiah | 1/18/2005 | M | 0 | 2/18/2010 | 20.5 | 121 | 74 |
2569 | Joshua | 1/23/2005 | M | 1 | 2/13/2010 | 24.8 | 113 | 115 |
2819 | Ryan | 1/26/2005 | M | NA | NA | NA | NA | |
3019 | Morgan | 1/29/2005 | F | 0 | 219/2010 | 19.1 | 105 | 105 |
3031 | Cody | 2/15/2005 | M | 0 | 4/16/2010 | 15.2 | 107 | 132 |
3290 | Amy | 2/16/2005 | F | 1 | 4/12/2010 | 18.0 | 102 | 125 |
3374 | Zachary | 2/212005 | M | NA | NA | NA | NA | |
3625 | David | 2/22/2005 | M | 1 | 2/10/2010 | 19.2 | 114 | 134 |
3901 | Jackson | 2/28/2005 | M | NA | NA | NA | NA |
当研究数据限制在单一表格(single table)中, 如上表, 它们很容易与电子数据表格或统计软件包兼容. 我们通常将二维表格的数据库称作“平面文件”(flat file). 此表格可直接导入统计软件进行分析.
但是如果研究要对每一个研究对象追踪多个实验室结果、用药或其他重复测量, 一般会有多个数据表分别记录不同时间的测量结果. 这时候, 单一表格已经不适合整理相关的数据. 可取的办法是: 将数据从多个电子数据表格中转移到数据库管理软件.
用多个关联表格构建数据库, 而不是尝试将数据容纳在一个很宽很复杂的单一Excel表格中, 称为规范化(normalization). 标准化减少了冗长的存储和数据不一致发生的机会.
表格拼接问题?
每个研究对象一行的单一数据表不适合样本量大且变量多的重复测量. 数据库应使用单独的表格存储用药信息、实验室结果或其他重复测量, 这些表格明显不同于研究对象表格. 这些独立表格中的行对应单个测量, 例如, 包括测量类型、测量日期/时间, 以及测量结果或者测量值.
行中的字段必须包括研究对象识别编码(研究对象 ID), 将测量结果与研究对象特定字段连接起来. 在这种"多表格关系型数据库(multi-table relational database)中, 研究对象表格与测量结果表格之间的关系是一对多的关系(one-to-many)
SubjectID | FName | DOB | Sex | Jaundice | ExamDate | WghtKg | HghtCm | IQ |
2101 | Robert | 1/16/2005 | M | 1 | 1/29/2010 | 23.9 | 118 | 104 |
2322 | Helen | 1/6/2005 | F | 0 | 1/29/2010 | 18.3 | 109 | 94 |
2376 | Amy | 1/13/2005 | F | 1 | 3/22/2010 | 18.5 | 117 | 85 |
2390 | Alejandro | 1/14/2005 | M | NA | NA | NA | NA | |
2497 | Isiah | 1/18/2005 | M | 0 | 2/18/2010 | 20.5 | 121 | 74 |
2569 | Joshua | 1/23/2005 | M | 1 | 2/13/2010 | 24.8 | 113 | 115 |
2819 | Ryan | 1/26/2005 | M | NA | NA | NA | NA | |
3019 | Morgan | 1/29/2005 | F | 0 | 219/2010 | 19.1 | 105 | 105 |
3031 | Cody | 2/15/2005 | M | 0 | 4/16/2010 | 15.2 | 107 | 132 |
3290 | Amy | 2/16/2005 | F | 1 | 4/12/2010 | 18.0 | 102 | 125 |
3374 | Zachary | 2/212005 | M | NA | NA | NA | NA | |
3625 | David | 2/22/2005 | M | 1 | 2/10/2010 | 19.2 | 114 | 134 |
3901 | Jackson | 2/28/2005 | M | NA | NA | NA | NA |
ExamID | SubjectID | ExamDate | WightKg | HghtCm |
608 | 2322 | 1/29/2010 | 18.3 | 109 |
609 | 2101 | 1/29/2010 | 22.0 | 118 |
610 | 2376 | 2/1/2010 | 18.3 | 117 |
611 | 3290 | 2/5/2010 | 17.6 | 102 |
612 | 3019 | 2/9/2010 | 191.0 | 105 |
613 | 3625 | 2/10/2010 | 192.0 | 114 |
614 | 2569 | 2/13/2010 | 24.8 | 113 |
615 | 2497 | 2/18/2010 | 20.5 | 121 |
616 | 3031 | 2/26/2010 | 15.5 | 102 |
617 | 2322 | 3/9/2010 | 18.6 | 109 |
618 | 2376 | 3/22/2010 | 18.5 | 117 |
619 | 3290 | 3/26/2010 | 17.8 | 101 |
620 | 2322 | 45//2010 | 19.1 | 110 |
621 | 3290 | 4/12/2010 | 18.0 | 102 |
622 | 3031 | 4/16/2010 | 15.2 | 107 |
623 | 3031 | 5/3/2010 | 15.6 | 108 |
虽然在这个婴儿黄疸研究中, 研究对象只在5岁时接受了一次智商测验, 但是他们中的大多数在研究期间接受了其他检查, 在接受其他检查时, 会评估身高和体重. 身高和体重的数据用于计算体重指数(BM)和生长百分曲线, 使以上数据兼容的最好方法是采用独立的检查表, 其中每一行对应具体检查, 每一列对应检查日期、检查结果, 以及研究对象识别编码(“研究对象ID”) [采用此编码可以实现这些独立检查表与研究对象表, 如性别、出生日期(DOB)以及是否有新生儿黄疸的链接]
实验室结果的详细追踪也需要单独的表格. 新生儿黄疸在这里表示为二分类的研究对象特征字段. 如果研究者需要出生后完整的胆红素水平变化数据, 那么数据库应该包括含有每次实验记录和实验检测日期/间、实验检测类型(总胆红素)、检测结果(胆红素水平)的单独的实验结果表格, 以及用于链接到研究对象特定信息的研究对象ID(如下表).
LabResultID | SubjectID | LablD | LabResult | LabDate |
28 | 2322 | LDH | 300.0 | 1/30/2010 |
37 | 2376 | bili, tot | 22.3 | 1/13/2005 |
38 | 2376 | bili, tot | 25.1 | 1/14/2005 |
39 | 2376 | bli, tot | 29.4 | 1/15/2005 |
40 | 2376 | bil, tot | 22.1 | 1/16/2005 |
41 | 2376 | bil, tot | 190.0 | 1/17/2005 |
42 | 2390 | WBC | 14.1 | 1/14/2005 |
43 | 2390 | HgB | 10.1 | 1/4/2005 |
44 | 2390 | HCT | 32.1 | 1/14/2005 |
45 | 2390 | PLT | 403.0 | 1/14/2005 |
一般原则:
数据字典(data dictionary): 清晰明了定义变量. 由于数据字典是数据库本身的信息表格, 因此被称为元数据(metadata).
到目前为止, 我们只在“数据表”视图中看到过表格. 每列或字段有一个名称, 并且隐含着数据类型和定义.
在下表的“研究对象”表中:
ExamID | SubjectID | ExamDate | WightKg | HghtCm |
608 | 2322 | 1/29/2010 | 18.3 | 109 |
609 | 2101 | 1/29/2010 | 22.0 | 118 |
610 | 2376 | 2/1/2010 | 18.3 | 117 |
611 | 3290 | 2/5/2010 | 17.6 | 102 |
612 | 3019 | 2/9/2010 | 191.0 | 105 |
613 | 3625 | 2/10/2010 | 192.0 | 114 |
614 | 2569 | 2/13/2010 | 24.8 | 113 |
615 | 2497 | 2/18/2010 | 20.5 | 121 |
616 | 3031 | 2/26/2010 | 15.5 | 102 |
617 | 2322 | 3/9/2010 | 18.6 | 109 |
618 | 2376 | 3/22/2010 | 18.5 | 117 |
619 | 3290 | 3/26/2010 | 17.8 | 101 |
620 | 2322 | 45//2010 | 19.1 | 110 |
621 | 3290 | 4/12/2010 | 18.0 | 102 |
622 | 3031 | 4/16/2010 | 15.2 | 107 |
623 | 3031 | 5/3/2010 | 15.6 | 108 |
变量描述和数据类型
Field Name | Daka Type | Description |
SubjectID | Number | Unique subject identifier |
FName | Texr | First name |
DOB | Date/Time | Date of birth |
Sex | Text | Sex; "M" or "F" |
Field Name | Daka Type | Description |
ExamID | Auto Number | Unique examination identifier |
SubjectID | Number | Subject identifier |
DocID | Number | Examiner identifier |
ExDate | Date\Time | Exam date |
ExamSequence | Number | |
WghcKg | Number | Exam weight (kg) |
HghtCm | Number | Exam height (cm} |
IQ | Number | Scaled Total WPPSI |
注: 虽然这里放了两个数据字典, 一个是“研究对象”表, 一个是“检查”表, 但是整个数据库可以被看作只有一个数据字典而不是每个表格均有一个数据字典. 对于数据库中的每个字段, 除字段名、字段类型、字段描述和允许值范围之外, 单一的数据字典要求定义字段的表格名称.
数据有效域
例如:
一些基金和监管机构发起倡议来开发用于临床研究特定领域的研究数据库的公共数据元素. 这些组织包括政府机构, 如国家神经系统疾病和卒中研究所国家癌症研究, 美国食品和药品管理局, 以及欧洲药品管理局和非政府、非营利协会, 如临床数据交换标准协会(CDISC). 其理论依据是在同一临床领域的研究通常需要收集相同的测量(变量).
标准化的记录结构、字段名称/定义、数据类型/格式和数据收集表(病例报告表)将消除在新的研究中经常发生的"无用功, 使多个独立研究间实现数据的共享和合并. 这需要建立一个数据字典和一套数据收集说明, 并鼓励某一特定研究领域的所有研究者使用. 自己选择的研究领域中部分学术人员了解既有的数据标准.
无论研究数据库是否包含一个或多个表格, 是否使用电子表格、统计或数据库管理软件, 填充数据表(populating the data tables)的过程(录入数据)是必不可少的.
以前, 填充数据库的常用方法是首先用纸质表格(paper forms)收集数据. 在临床试验中, 对应特定研究对象的纸质数据表格通常称为病例报告表(case report form)或CRF. 研究者或研究团队成员可以填写纸质表格, 在某些情况下, 由研究对象本人填写. 然后由研究人员使用键盘将纸质表格的数据转录到计算机表格中. 录入可以直接在数据表中进行(例如, 将第10个研究对象对第3个问题的回答录入到第10行、第3列的空格中), 或通过设计的屏幕形式使数据录入更容易且包括数据自动验证核查功能.
录入应该在数据收集后尽快进行, 以便发现缺失或超范围答案时, 还可以找到研究对象和访谈者或数据收集人员.
一旦数据录入计算机数据库后, 要实施数据问题监察(如异常值)和初步分析.
如果从纸质表格转录, 研究者可以考虑双重数据录入(double data entry)以确保转录的精确性. 数据库程序比较每个变量输入的两个值, 并列出不匹配的数值. 然后针对有差异的条目核查原始表格并进行更正. 双重数据录入的避免数据错误录入的代价是需要双倍数据录入时间. 另一种稍微省时的方法是对数据的随机样本进行双重录入. 如果错误率较低, 就可以不用费时间和精力对剩余数据进行双重录入.
如果在多个分中心收集数据, 各分中心可以通过电子邮件或传真形式将数据发送到研究中心并转录到计算机数据库中, 但这种做法越来越少见. 更常见的是, 由各个分中心直接将数据以在线形式录入研究数据库. 如果网络连接存在问题, 可以将数据存储在分中心的本地计算机上, 并通过网络或便携式存储装置如USB驱动器进行转运. 政府法规要求电子健康信息要去标识或安全传输(如加密和密码保护).
研究应使用在线表格(online forms)收集主要数据. 在临床试验中, 电子表格称为电子病例报告表(eCRFs).
通过在线形式录入数据有很多优点:
比如, 变量孕周:
缺少相应监控机制
像门诊号这种特别重要, 用于合并不同数据库表格的数据列, 不应该有缺失数据. 在数据库软件中可以设置录入提醒, 此字段为必填项.
在数据表中定义变量或字段包括确定其允许值范围. 为了后续分析, 最好将答案限制在一个可编码数值范围内, 而不允许用自由文本应答.
如果答案的可能范围不清楚, 那么在研究预实验阶段收集的原始数据可以允许将自由文本答案用于未来开发答案备选项编码.
问题的一套答案备选项应该是详尽的(exhaustive)(提供所有可能的选项)且互斥的(mutually exclusive)(没有两个选项同时正确). 一套相互排斥的答案备选项总是通过加入“其他”而趋于详尽.
在数据表中, 每一个字段对应带有一套互斥答案的问题. 相反, “适用于所有”的问题答案不是互斥的.
在编码是/否(二分类)变量时, 默认统一使用0表示否或没有, 1表示是或存在. 使用这种编码, 变量平均值可解释为属性所占比例.
很多研究信息, 如医院登记系统的基线人口学信息、实验室计算机系统中的实验室结果, 以及通过双能X射线吸收扫描仪和动态心电图监测仪获得的数据, 已经是数字化电子格式.
只要有可能, 可以将这些数据直接导入到研究数据库中, 以避免在再次录入数据时出现人工和潜在的转录错误.
例如, 在婴儿黄疸研究中, 人口学数据和联系方式是从医院数据库中获得的. 计算机系统通常能产生直接导入数据库软件的制表符分隔的文本文件.
备注: 导入的数据不能进行任何认为的操作, 包括用Excel 打开查看, 如果一定要查看, 可以复制一份, 用于观察使用, 但是导入到数据库的文件必须是源文件, 从另一个数据库中导出, 直接导入到研究数据库当中.
通过前面数据表和数据录入的了解, 我们大致可以区别研究数据库的后台和前端.
由一个数据表组成的简单研究数据库, 可以使用电子表格或统计软件处理后台数据表格, 并且研究人员可以将数据直接录入到数据表的单元空格中, 而不需要通过前端数据收集表格.
更复杂的研究数据库由多个数据表组成, 它们需要关系型数据库(relational database)软件来维持后台数据表.
如果数据首先收集在纸质表格上, 需要将数据转录到在电子表格中. 一些统计软件包, 已经开发了数据录入模块. 集成的桌面数据库(integrated desktop database)程序, 如 Microsoft Access和 FileMaker Pro, 研究越来越多地使用集成的、基于网络的研究数据管理平台.
一旦建立数据库并录入数据, 研究者将要整理(organize)排序(sort)筛选(filter)并查看(view)(“查询”)数据.
数据查询(query)被用于监查数据输入、报告研究进程, 以及最终的结果分析.
📊
避免数据错误的第一个步骤是将数据收集和管理系统的检验作为整个研究预实验的一部分.
应该使用虚拟数据测试完整的系统(数据表、数据录入表单和查询). 对于向FDA提交的临床试验, 这是联邦法规第21章1部分(21CFR11)的条例要求.
前面已经讨论过从数据收集开始时就提高键盘录入或电子数据采集精确度的方法. 超出允许范围的值不应该通过数据录入过程.
但是, 也应该对数据库缺失值和异常值(异常值是指无论如何都不在允许范围之内的极端值)进行质疑. 例如, 对5岁的孩子来说35kg体重可能在允许值范围之内, 但如果他比数据集的其他任何孩子都重5kg, 那么就需要调查一下.
许多数据录入系统无法做跨字段校验, 这意味着数据表格的某一字段值可能在允许范围内, 但与其他字段一起考虑就不太正常. 例如, 对于35kg重的5岁儿童, 身高为100cm是不可能的. 虽然体重和身高值都在允许范围内, 但体重(对5岁儿童是极高的)与身高(对5岁儿童是极低的)并不一致. 这种不一致可以用图16.6所描述的数据质疑方法发现可疑数据.
📊
缺失值、异常值、不一致, 以及其他数据问题可以通过查询并和研究人员的交流识别, 这些研究人员可以通过核查原始数据文件、访问与者或重复测量来应对. 如果研究依赖于纸质数据文件, 那么针对数据的任何改变应进行标识(如用红线), 注明日期并签名. 电子数据库应该保留所有数据变化的审核记录.
如果由多个研究者从不同的地点收集数据, 应该比较不同研究者和地点之间的均数和中位数. 研究者和地点之间的重要差异会提示测量或数据采集的系统差异.
对于越重要的变量, 越应重视数据的编辑和清理. 例如, 在一项随机化试验中, 最重要的变量是结局变量, 所以应保证缺失数据和错误最小化. 相反, 其他变量的错误, 如访视日期, 可能基本上不影响结果分析.
数据编辑是反复进行的过程; 在识别和纠正错误后, 应重复编辑过程直到几乎不能发现重要错误. 对一些研究而言, 这时会宣布完成编辑的数据库为最终的或“锁定”(locked)的数据库, 因此, 不再允许更多改变
BMIPerc 的百分位数变量尤为重要, 这些变量需要复杂的程序或单独的“查询”表格.SubjectiD | Sex | ExamDate | AgeMonths | WghtKg | HghtCm | BMIcalc | BMIPerc |
2497 | M | 2/18/2010 | 61 | 20.5 | 121 | 14.0 | 8 |
2569 | M | 2/13/2010 | 60 | 24 8 | 113 | 19 4 | 99 |
3031 | M | 2/26/2010 | 59 | 15.5 | 102 | 14.9 | 33 |
3625 | M | 2/10/2010 | 59 | 19.2 | 114 | 14.7 | 26 |
4430 | M | 2/23/2010 | 59 | 35.0 | 100 | 35.0 | 100 |
5305 | M | 2/23/2010 | 60 | 20.5 | 116 | 15.2 | 43 |
5310 | M | 2/24/2010 | 60 | 19.6 | 115 | 14.8 | 28 |
如果研究对象既有门诊患者又有住院患者, 必须遵循《健康保险隐私及责任法案》(Health Insurance Portability and Accountability Act, HIPAA)中隐私保护条例保护他们的识别信息10; 也就是说, 无论研究对象是否为患者, 研究者均有义务在道德和法律上保护其隐私.
数据库应该为每一个研究对象提供唯一的研究对象识别编码(subjectID), 该编码在研究数据库外没有意义(即研究对象识别编码不应体现参与者姓名、缩写、出生日期或病案号). 任何包含个人身份信息的数据库字段应该在数据共享前删除. 如果数据库有多个表, 个人识别信息可以保存在单独的表中. 必须将包含个人身份信息的研究数据库保存在安全的服务器上, 只有研究团队授权的成员才可以获取, 每个人有一个用户ID和密码.
专用的基于网络的研究数据管理平台, 如 FileMaker允许指定字段包含参与者标识信息. 允许或禁止不同的用户角色进行导出、更改甚至查看这些特别指定的字段.
数据库系统应该审核所有的数据录入和编辑(data entry and editing). 审核可以确定数据元何时被更改, 谁做出的更改, 以及做了什么样的更改. 对于新药试验, 这是一项法定要求. 专用的基于网络的研究平台, 如REDCap可以自动提供用户验证和审核.
研究数据库必须定期备份(backed up)并异地存储(stored off–site)应当通过恢复数据的备份副本对备份程序进行周期性测试作为用户验证和审核, 托管平台如FileMaker会自动提供备份以保证数据安全.
在研究结束时, 原始数据、数据字典、最终数据库以及研究分析应该存档(archived)以供将来使用. 这些存档可以在未来几年内重新查询, 允许研究者回答与数据完整性或分析有关的问题, 开展进一步分析以解决新的研究问题, 并与其他研究人员共享数据.
大致分一下三步:
数据分析前的数据清理规范
数据收集流程规范
数据分析工具的学习
推荐工具: