临床研究数据管理

这篇文档是关于临床研究过程中数据管理方面的工作,希望能通过这篇文档了解规范的数据管理是什么样以及为什么要遵守这些原则. 最后在我们现有工作的基础上采取什么样的措施能向这些规范性的工作靠拢, 以达到提高科研成果质量和效率的目的.

刘吉星 https://jixing.netlify.com/ (深圳市妇幼保健院)http://www.deepdrug.cn/en/
2020-08-21

Table of Contents


这篇文档是关于临床研究过程中数据管理方面的工作,希望能通过这篇文档了解规范的数据管理是什么样以及为什么要遵守这些原则. 最后在我们现有工作的基础上采取什么样的措施能向这些规范性的工作靠拢, 以达到提高科研成果质量和效率的目的.

  1. 临床研究设计
  2. 数据收集管理
  3. 数据整理分析

数据表格

数据格式

所有的数据库包含一个或多个数据表格, 其中:

📌 例如, 最简单的研究数据库只有一个表格构成, 每行对应一个研究对象, 每列对应研究对象的特定属性如: 姓名、出生日期、性别以及预测或结局状态.

SubjectID

FName

DOB

Sex

Jaundice

IQ

2101

Robert

1/16/2005

M

1

104

2322

Helen

1/6/2005

F

0

94

2376

Amy

1/13/2005

F

1

85

2390

Alejandro

1/14/2005

M

NA

NA

2497

Isiah

1/18/2005

M

0

74

2569

Joshua

1/23/2005

M

1

115

2819

Ryan

1/26/2005

M

NA

NA

3019

Morgan

1/29/2005

F

0

105

3031

Cody

2/15/2005

M

0

132

3290

Amy

2/16/2005

F

1

125

3374

Zachary

2/212005

M

NA

NA

3625

David

2/22/2005

M

1

134

3901

Jackson

2/28/2005

M

NA

NA

研究对象 ID

一般情况下, 第一列是唯一的研究对象识别编码(subject identification number)(“研究对象ID”).

📌 这是一个简单的数据表:

SubjectID

FName

DOB

Sex

Jaundice

ExamDate

WghtKg

HghtCm

IQ

2101

Robert

1/16/2005

M

1

1/29/2010

23.9

118

104

2322

Helen

1/6/2005

F

0

1/29/2010

18.3

109

94

2376

Amy

1/13/2005

F

1

3/22/2010

18.5

117

85

2390

Alejandro

1/14/2005

M

NA

NA

NA

NA

2497

Isiah

1/18/2005

M

0

2/18/2010

20.5

121

74

2569

Joshua

1/23/2005

M

1

2/13/2010

24.8

113

115

2819

Ryan

1/26/2005

M

NA

NA

NA

NA

3019

Morgan

1/29/2005

F

0

219/2010

19.1

105

105

3031

Cody

2/15/2005

M

0

4/16/2010

15.2

107

132

3290

Amy

2/16/2005

F

1

4/12/2010

18.0

102

125

3374

Zachary

2/212005

M

NA

NA

NA

NA

3625

David

2/22/2005

M

1

2/10/2010

19.2

114

134

3901

Jackson

2/28/2005

M

NA

NA

NA

NA

数据存储规范: 关系型数据库

当研究数据限制在单一表格(single table)中, 如上表, 它们很容易与电子数据表格或统计软件包兼容. 我们通常将二维表格的数据库称作“平面文件”(flat file). 此表格可直接导入统计软件进行分析.

但是如果研究要对每一个研究对象追踪多个实验室结果、用药或其他重复测量, 一般会有多个数据表分别记录不同时间的测量结果. 这时候, 单一表格已经不适合整理相关的数据. 可取的办法是: 将数据从多个电子数据表格中转移到数据库管理软件.

用多个关联表格构建数据库, 而不是尝试将数据容纳在一个很宽很复杂的单一Excel表格中, 称为规范化(normalization). 标准化减少了冗长的存储和数据不一致发生的机会.

表格拼接问题?

SubjectID

FName

DOB

Sex

Jaundice

ExamDate

WghtKg

HghtCm

IQ

2101

Robert

1/16/2005

M

1

1/29/2010

23.9

118

104

2322

Helen

1/6/2005

F

0

1/29/2010

18.3

109

94

2376

Amy

1/13/2005

F

1

3/22/2010

18.5

117

85

2390

Alejandro

1/14/2005

M

NA

NA

NA

NA

2497

Isiah

1/18/2005

M

0

2/18/2010

20.5

121

74

2569

Joshua

1/23/2005

M

1

2/13/2010

24.8

113

115

2819

Ryan

1/26/2005

M

NA

NA

NA

NA

3019

Morgan

1/29/2005

F

0

219/2010

19.1

105

105

3031

Cody

2/15/2005

M

0

4/16/2010

15.2

107

132

3290

Amy

2/16/2005

F

1

4/12/2010

18.0

102

125

3374

Zachary

2/212005

M

NA

NA

NA

NA

3625

David

2/22/2005

M

1

2/10/2010

19.2

114

134

3901

Jackson

2/28/2005

M

NA

NA

NA

NA

ExamID

SubjectID

ExamDate

WightKg

HghtCm

608

2322

1/29/2010

18.3

109

609

2101

1/29/2010

22.0

118

610

2376

2/1/2010

18.3

117

611

3290

2/5/2010

17.6

102

612

3019

2/9/2010

191.0

105

613

3625

2/10/2010

192.0

114

614

2569

2/13/2010

24.8

113

615

2497

2/18/2010

20.5

121

616

3031

2/26/2010

15.5

102

617

2322

3/9/2010

18.6

109

618

2376

3/22/2010

18.5

117

619

3290

3/26/2010

17.8

101

620

2322

45//2010

19.1

110

621

3290

4/12/2010

18.0

102

622

3031

4/16/2010

15.2

107

623

3031

5/3/2010

15.6

108

虽然在这个婴儿黄疸研究中, 研究对象只在5岁时接受了一次智商测验, 但是他们中的大多数在研究期间接受了其他检查, 在接受其他检查时, 会评估身高和体重. 身高和体重的数据用于计算体重指数(BM)和生长百分曲线, 使以上数据兼容的最好方法是采用独立的检查表, 其中每一行对应具体检查, 每一列对应检查日期、检查结果, 以及研究对象识别编码(“研究对象ID”) [采用此编码可以实现这些独立检查表与研究对象表, 如性别、出生日期(DOB)以及是否有新生儿黄疸的链接]

研究对象表与实验检查表

实验室结果的详细追踪也需要单独的表格. 新生儿黄疸在这里表示为二分类的研究对象特征字段. 如果研究者需要出生后完整的胆红素水平变化数据, 那么数据库应该包括含有每次实验记录和实验检测日期/间、实验检测类型(总胆红素)、检测结果(胆红素水平)的单独的实验结果表格, 以及用于链接到研究对象特定信息的研究对象ID(如下表).

LabResultID

SubjectID

LablD

LabResult

LabDate

28

2322

LDH

300.0

1/30/2010

37

2376

bili, tot

22.3

1/13/2005

38

2376

bili, tot

25.1

1/14/2005

39

2376

bli, tot

29.4

1/15/2005

40

2376

bil, tot

22.1

1/16/2005

41

2376

bil, tot

190.0

1/17/2005

42

2390

WBC

14.1

1/14/2005

43

2390

HgB

10.1

1/4/2005

44

2390

HCT

32.1

1/14/2005

45

2390

PLT

403.0

1/14/2005

变量名

一般原则:

数据字典、数据类型及有效域

数据字典(data dictionary): 清晰明了定义变量. 由于数据字典是数据库本身的信息表格, 因此被称为元数据(metadata).

到目前为止, 我们只在“数据表”视图中看到过表格. 每列或字段有一个名称, 并且隐含着数据类型和定义.

在下表的“研究对象”表中:

ExamID

SubjectID

ExamDate

WightKg

HghtCm

608

2322

1/29/2010

18.3

109

609

2101

1/29/2010

22.0

118

610

2376

2/1/2010

18.3

117

611

3290

2/5/2010

17.6

102

612

3019

2/9/2010

191.0

105

613

3625

2/10/2010

192.0

114

614

2569

2/13/2010

24.8

113

615

2497

2/18/2010

20.5

121

616

3031

2/26/2010

15.5

102

617

2322

3/9/2010

18.6

109

618

2376

3/22/2010

18.5

117

619

3290

3/26/2010

17.8

101

620

2322

45//2010

19.1

110

621

3290

4/12/2010

18.0

102

622

3031

4/16/2010

15.2

107

623

3031

5/3/2010

15.6

108

变量描述和数据类型

  1. “FName”是包含研究对象名字的文本字段
  2. “DOB”是包含研究对象出生日期的日期字段
  3. “Jaundice”为表示出生后2天胆红素是否超过25mg/dl的是/否字段在“检查”表
  4. “WghtKg”是以千克为单位的真实体重数值
  5. “IQ”是取整的IQ分值

Field Name

Daka Type

Description

SubjectID

Number

Unique subject identifier

FName

Texr

First name

DOB

Date/Time

Date of birth

Sex

Text

Sex; "M" or "F"

Field Name

Daka Type

Description

ExamID

Auto Number

Unique examination identifier

SubjectID

Number

Subject identifier

DocID

Number

Examiner identifier

ExDate

Date\Time

Exam date

ExamSequence

Number

WghcKg

Number

Exam weight (kg)

HghtCm

Number

Exam height (cm}

IQ

Number

Scaled Total WPPSI

注: 虽然这里放了两个数据字典, 一个是“研究对象”表, 一个是“检查”表, 但是整个数据库可以被看作只有一个数据字典而不是每个表格均有一个数据字典. 对于数据库中的每个字段, 除字段名、字段类型、字段描述和允许值范围之外, 单一的数据字典要求定义字段的表格名称.

数据有效域

例如:

公共数据元

一些基金和监管机构发起倡议来开发用于临床研究特定领域的研究数据库的公共数据元素. 这些组织包括政府机构, 如国家神经系统疾病和卒中研究所国家癌症研究, 美国食品和药品管理局, 以及欧洲药品管理局和非政府、非营利协会, 如临床数据交换标准协会(CDISC). 其理论依据是在同一临床领域的研究通常需要收集相同的测量(变量).

标准化的记录结构、字段名称/定义、数据类型/格式和数据收集表(病例报告表)将消除在新的研究中经常发生的"无用功, 使多个独立研究间实现数据的共享和合并. 这需要建立一个数据字典和一套数据收集说明, 并鼓励某一特定研究领域的所有研究者使用. 自己选择的研究领域中部分学术人员了解既有的数据标准.

数据录入

无论研究数据库是否包含一个或多个表格, 是否使用电子表格、统计或数据库管理软件, 填充数据表(populating the data tables)的过程(录入数据)是必不可少的.

键盘转录

以前, 填充数据库的常用方法是首先用纸质表格(paper forms)收集数据. 在临床试验中, 对应特定研究对象的纸质数据表格通常称为病例报告表(case report form)或CRF. 研究者或研究团队成员可以填写纸质表格, 在某些情况下, 由研究对象本人填写. 然后由研究人员使用键盘将纸质表格的数据转录到计算机表格中. 录入可以直接在数据表中进行(例如, 将第10个研究对象对第3个问题的回答录入到第10行、第3列的空格中), 或通过设计的屏幕形式使数据录入更容易且包括数据自动验证核查功能.

分布式数据录入

如果在多个分中心收集数据, 各分中心可以通过电子邮件或传真形式将数据发送到研究中心并转录到计算机数据库中, 但这种做法越来越少见. 更常见的是, 由各个分中心直接将数据以在线形式录入研究数据库. 如果网络连接存在问题, 可以将数据存储在分中心的本地计算机上, 并通过网络或便携式存储装置如USB驱动器进行转运. 政府法规要求电子健康信息要去标识或安全传输(如加密和密码保护).

电子数据采集

研究应使用在线表格(online forms)收集主要数据. 在临床试验中, 电子表格称为电子病例报告表(eCRFs).

通过在线形式录入数据有很多优点:

  1. 将数据直接录入(keyed directly)到数据表中不需要第二步转录, 可以消除错误来源.
  2. 计算机表格可以包括验证核查(validation checks), 并在录入数值超出范围时提供即时反馈.
  3. 计算机表格也可以整合逻辑跳转(skip logic). 例如, 只有在研究对象对有关吸烟的问题回答“是”时, 才会出现每天吸几包烟的问题, 提高录入的效率.
  4. 表格是可视化的, 而且可以在便携式无线设备(portable wireless devices)如平板电脑(iPad)、智能手机或笔记本电脑上录入数据.
  5. 备注: 当使用在线表格进行电子数据采集时, 在收集完成后立即打印纸质记录有时是有意义的. 类似于在自动取款机上办理完一笔交易后打印凭据. 在收集数据后立即将记录的纸质“快照”打印出来, 并在需要提供纸质版本时作为原始文件.

格式不统一和无效录入

比如, 变量孕周:

填写错误

缺少相应监控机制

数据缺失严重

像门诊号这种特别重要, 用于合并不同数据库表格的数据列, 不应该有缺失数据. 在数据库软件中可以设置录入提醒, 此字段为必填项.

有编码的答案与自由文本

在数据表中定义变量或字段包括确定其允许值范围. 为了后续分析, 最好将答案限制在一个可编码数值范围内, 而不允许用自由文本应答.

导入: 测量和实验室结果

数据数据管理软件

通过前面数据表和数据录入的了解, 我们大致可以区别研究数据库的后台和前端.

由一个数据表组成的简单研究数据库, 可以使用电子表格或统计软件处理后台数据表格, 并且研究人员可以将数据直接录入到数据表的单元空格中, 而不需要通过前端数据收集表格.

更复杂的研究数据库由多个数据表组成, 它们需要关系型数据库(relational database)软件来维持后台数据表.

如果数据首先收集在纸质表格上, 需要将数据转录到在电子表格中. 一些统计软件包, 已经开发了数据录入模块. 集成的桌面数据库(integrated desktop database)程序, 如 Microsoft Access和 FileMaker Pro, 研究越来越多地使用集成的、基于网络的研究数据管理平台.

数据查询和提取

一旦建立数据库并录入数据, 研究者将要整理(organize)排序(sort)筛选(filter)并查看(view)(“查询”)数据.

数据查询(query)被用于监查数据输入、报告研究进程, 以及最终的结果分析.

📊

识别和校正数据的错误

避免数据错误的第一个步骤是将数据收集和管理系统的检验作为整个研究预实验的一部分.

应该使用虚拟数据测试完整的系统(数据表、数据录入表单和查询). 对于向FDA提交的临床试验, 这是联邦法规第21章1部分(21CFR11)的条例要求.

📊

数据分析前的数据清理

SubjectiD

Sex

ExamDate

AgeMonths

WghtKg

HghtCm

BMIcalc

BMIPerc

2497

M

2/18/2010

61

20.5

121

14.0

8

2569

M

2/13/2010

60

24 8

113

19 4

99

3031

M

2/26/2010

59

15.5

102

14.9

33

3625

M

2/10/2010

59

19.2

114

14.7

26

4430

M

2/23/2010

59

35.0

100

35.0

100

5305

M

2/23/2010

60

20.5

116

15.2

43

5310

M

2/24/2010

60

19.6

115

14.8

28

保密和安全

如果研究对象既有门诊患者又有住院患者, 必须遵循《健康保险隐私及责任法案》(Health Insurance Portability and Accountability Act, HIPAA)中隐私保护条例保护他们的识别信息10; 也就是说, 无论研究对象是否为患者, 研究者均有义务在道德和法律上保护其隐私.

数据库应该为每一个研究对象提供唯一的研究对象识别编码(subjectID), 该编码在研究数据库外没有意义(即研究对象识别编码不应体现参与者姓名、缩写、出生日期或病案号). 任何包含个人身份信息的数据库字段应该在数据共享前删除. 如果数据库有多个表, 个人识别信息可以保存在单独的表中. 必须将包含个人身份信息的研究数据库保存在安全的服务器上, 只有研究团队授权的成员才可以获取, 每个人有一个用户ID和密码.

专用的基于网络的研究数据管理平台, 如 FileMaker允许指定字段包含参与者标识信息. 允许或禁止不同的用户角色进行导出、更改甚至查看这些特别指定的字段.

数据库系统应该审核所有的数据录入和编辑(data entry and editing). 审核可以确定数据元何时被更改, 谁做出的更改, 以及做了什么样的更改. 对于新药试验, 这是一项法定要求. 专用的基于网络的研究平台, 如REDCap可以自动提供用户验证和审核.

研究数据库必须定期备份(backed up)并异地存储(stored off–site)应当通过恢复数据的备份副本对备份程序进行周期性测试作为用户验证和审核, 托管平台如FileMaker会自动提供备份以保证数据安全.

在研究结束时, 原始数据、数据字典、最终数据库以及研究分析应该存档(archived)以供将来使用. 这些存档可以在未来几年内重新查询, 允许研究者回答与数据完整性或分析有关的问题, 开展进一步分析以解决新的研究问题, 并与其他研究人员共享数据.

一些默认原则

怎么做

大致分一下三步:

  1. 数据分析前的数据清理规范

  2. 数据收集流程规范

  3. 数据分析工具的学习

资源

推荐工具

  1. 编程语言: R

  1. 图形界面: SPSS 或 Prism