基于MIMIC-IV数据库建立并验证重症肺炎患者短期死亡风险预测模型

高雅雯1 周 睿2

1.成都市妇女儿童中心医院,四川 成都 610000 ;2.重庆市渝北区中医院,重庆 401120

摘要: 摘要:目的:探讨重症监护室重症肺炎患者短期内死亡危险因素,并建立个体化死亡预测模型。方法:回顾性分析2008年至2019年MIMIC-IV数据库中776名重症肺炎患者的诊疗资料,将研究对象随机分为训练集(70%)与验证集(30%)。在训练集数据基础上
  • DOI:

    10.13738/j.cnki.acc.qklw60536

  • 专辑:

    科学Ⅰ辑;信息科技

  • 专题:

    信息、科学;综合科技

  • 分类号:

    G90;N92

摘要:目的:探讨重症监护室重症肺炎患者短期内死亡危险因素,并建立个体化死亡预测模型。方法:回顾性分析2008年至2019年MIMIC-IV数据库中776名重症肺炎患者的诊疗资料,将研究对象随机分为训练集(70%)与验证集(30%)。在训练集数据基础上通过LASSO回归、多因素logistic回归筛选预测因子并构建模型。验证集数据用于模型内部验证。采用ROC曲线、校准图、Hosmer-Lemeshow检验和决策分析曲线评估模型的预测效能、准确性及临床有效性。结果:年龄(OR=1.043,95% CI:1.028-1.059)、合并恶性肿瘤(OR=2.312,95% CI:1.316-4.088)、心率(OR=1.020,95% CI:1.008-1.034)、平均动脉压(OR=0.966,95% CI:0.943-0.989)、血氧饱和度(OR=0.901,95% CI:0.833-0.966)、体温(OR=0.707,95% CI:0.528-0.939)、格拉斯哥评分(OR=0.916,95% CI:0.873-0.961)、白蛋白(OR=0.506,95% CI:0.356-0.709)、凝血酶原时间(OR=1.021,95% CI:1.006-1.038)、乳酸(OR=1.035,95% CI:0.992-1.102)是影响重症肺炎患者短期预后的危险因素,依此构建预测模型。模型在训练集中AUC为0.802(95% CI:0.763~0.841),在验证集中AUC为0.779(95% CI:0.720~0.838)。校准图、Hosmer-Lemeshow检验及决策分析曲线显示预测模型有较好的准确度和临床有效性。结论:由年龄、合并恶性肿瘤、心率、平均动脉压、血氧饱和度、体温、格拉斯哥评分、白蛋白、凝血酶原时间、乳酸构建的重症肺炎患者短期死亡风险模型有较好的预测性,有助于临床医务人员甄别该类患者中的死亡高风险人群,及早制定干预决策。

关键词:重症肺炎;死亡风险;ICU;预测模型;列线图

中图分类号:R742 

重症肺炎是重症监护病房(intensive care units, ICU)中病死率高的危重症之一,随着人口老龄化加剧、细菌耐药率的上升,重症肺炎(severe pneumonia, SP)的发生率逐渐升高[1]。重症肺炎常累及循环、肝脏、肾脏、神经等系统,导致多器官功能障碍综合征,死亡率高达49%,造成严重的社会经济负担[2]。对重症肺炎患者而言,及时开展病情评估与预后判断具有重要的临床价值。通过准确判断疾病严重程度,科学预测短期死亡风险,可为临床决策提供依据。肺炎严重指数评分(pneumonia severity index, PSI)以及CURB-65评分等工具被广泛用于监护病房重症肺炎患者病情评估。但不同评分系统在对重症肺炎患者进行病情评估时存在显著差异,有研究显示在评估老年重症肺炎患者时PSI的敏感性下降[3],对于有基础合并症的患者,CURB-65的预测性能表现不佳[4]。因此,本研究构建监护病房重症肺炎患者短期死亡风险的列线图模型,为及时给予针对性干预提供依据,从而降低重症肺炎患者的病死率。

1资料与方法

1.1研究对象

本研究采用的重症监护医学信息数据库IV(MIMIC-IV)是由美国哈佛医学院贝斯以色列女执事医疗中心建立的公开医疗数据库,收录了2008-2019年间73181例重症监护病房患者的临床资料。该数据库遵循严格的伦理规范,所有患者相关信息均匿名,并获得伦理审查委员会批准免除知情同意。研究者已取得MIMIC-IV v2.2版本的使用授权(证书编号:51169373)。基于该数据库,我们筛选了3107例初步诊断为重症肺炎的患者。根据2019年美国感染病学会与胸科学会联合发布的《成人社区获得性肺炎诊疗指南》,制定了严格的病例筛选标准。纳入标准包括:(1)入住重症监护室且主要诊断为感染性肺炎;(2)符合指南中重症肺炎诊断标准,即满足至少1项主要标准或3项次要标准。主要标准为:①需机械通气支持的呼吸衰竭;②感染性休克经充分液体复苏后仍需血管活性药物维持。次要标准包括:①呼吸频率≥30次/分;②氧合指数≤250;③影像学显示多肺叶浸润;④意识障碍或定向力异常;⑤血尿素氮≥20mg/dL;⑥白细胞计数<4×109/L;⑦血小板计数<100×109/L;⑧中心体温低于36℃;⑨需积极液体复苏的低血压状态。排除标准设定为:(1)未满18周岁的患者;(2)临床资料不完整者;(3)妊娠期或哺乳期女性;(4)住院期间接受外科手术干预的患者。经过严格筛选,最终纳入776例符合标准的研究对象进行后续分析。

1.2 研究方法和指标

使用结构化查询语言(SQL)从数据库中提取数据,收集资料包括年龄、性别、入住ICU后30天转归情况、合并症、生命体征、实验室及影像学结果、诊疗资料。提取格拉斯哥评分(glasgow coma scale, GCS) 、急性生理评分III(acute physiology score III, APSIII)、SOFA评分来衡量疾病严重程度。胸部影像学资料以患者入住ICU后的首次检查结果为准,其他临床指标则选取入住ICU后24小时内的最差检测值进行记录。对于多次入住ICU的患者,仅采集其首次住院期间的诊疗信息作为研究数据。

1.3 统计学方法

采用R软件(R 4.3.1)进行数据分析,缺失值≥20%的指标及有缺失值的病例不纳入本次研究,纳入病例按7:3随机分为训练集与验证集。对服从正态分布/近似正态分布的计量资料,采用均值±标准差表示,组间比较采用独立样本t检验;对偏态分布的计量资料采用中位数(四分位距)表示,两组间比较采用Mann-Whitney U检验;计数资料用例数和率表示,两组间比较采用χ2检验。采用最小绝对值收敛和选择算子(the least absolute shrinkage and selection operator, LASSO)、多因素Logistic回归分析筛选指标,构建预测模型。采用Bootstrap重复抽样法对模型进行内部验证,受试者工作特征曲线(receiver operating characteristic curve, ROC)、校准图、Hosmer-Lemeshow检验(HL检验)、决策分析曲线(decision curve analysis, DCA)用以评估模型的区分度、校准度、临床有效性。以P<0.05表示差异有统计学意义。

2结果

2.1 训练集和验证集患者临床数据  776例ICU重症肺炎患者被随机分为训练集(543, 70%)和验证集(223, 30%),两组大多数临床数据指标(48, 94%)无差异,P>0.05,见表1。

表1 训练集和验证集患者临床数据

Table.1 Clinical characteristics of training set and testing set.


类别

训练集(n=543)

验证集(n=233)

χ2/t/Z

P

ICU30天结局(例,%)

死亡

200(36.8)

101(43.4)

2.92

0.088


存活

343(63.2)

132(56.7)



年龄(岁,`x±s)


64.86±16.14

64.02±15.95

-0.66

0.058

性别(例,%)

238(43.8)

103(44.2)

0.01

0.923


305(56.2)

130(55.8)



尼古丁依赖(例,%)


182(33.5)

96(41.2)

4.19

0.041

酒精滥用(例,%)


86(15.8)

44(18.9)

1.09

0.298

合并症(例,%)

 高血压

314(57.8)

134(57.5)

0.01

0.935


心肌梗死

104(19.2)

39(16.7)

0.63

0.426


充血性心衰

195(35.9)

84(36.1)

0.001

0.970


肺心病

25(4.6)

17(7.3)

2.31

0.129


支气管扩张

7(1.3)

1(0.4)

1.18

0.277


慢性肺病

74(13.6)

36(15.5)

0.45

0.505


脑血管疾病

62(11.4)

36(15.5)

2.40

0.121


糖尿病

160(29.5)

63(27.0)

0.47

0.493


肾脏疾病

119(21.9)

52(22.3)

0.02

0.901


恶性肿瘤

75(13.8)

41(17.6)

1.84

0.175


肝脏疾病

52(9.6)

29(12.4)

1.44

0.231

生命体征

体温(℃)

37.01±0.76

37.01±0.82

-0.06

0.956

[`x±s/M(IQR)]

心率(次/min)

90.86±17.91

93.03±18.14

1.55

0.123


呼吸(次/min)

22.03±4.85

22.22±4.53

0.51

0.614


平均动脉压(mmHg)

75.98±9.51

76.19±9.45

0.29

0.775


血氧饱和度(%) 

97.00 (3.00)

96.00 (4.00)

-1.95

0.051


格拉斯哥评分

11.00 (7.00)

11.00 (9.00)

-1.14

0.253

实验室结果

血红蛋白(g/L)

10.30±2.25

10.02±2.14

-1.59

0.113

[`x±s/M(IQR)]

血小板(×109/L)

166.00   (132.00)

166.00   (146.00)

-0.15

0.880


白细胞(×109/L)

14.70   (11.30)

15.10   (10.75)

-0.35

0.730


淋巴细胞(×109/L)

1.04(1.00)

1.06 (1.00)

-0.21

0.833


单核细胞(×109/L)  

0.66(0.75)

0.65(0.65)

-0.27

0.789


中性粒细胞(×109/L)

10.93(9.85)

10.52(8.73)

-0.28

0.783


白蛋白(g/dL)

3.04±0.68

2.98±0.69

-1.13

0.260


丙氨酸氨基转移酶(U/L)

36.00   (77.00)

32.00   (67.00)

-0.72

0.473


天门冬氨酸氨基转移酶(U/L)

56.00   (120.00)

55.00   (119.00)

 

-0.37

 

0.714


血尿素氮(mg/dL)

32.00   (30.00)

32.00   (33.00)

-0.41

0.680


肌酐(mg/dL)

1.40 (1.60)

1.40 (1.50)

-1.07

0.284


凝血酶原时间(s)

15.10 (6.50)

15.60 (9.30)

-1.39

0.165


钠(mmol/L)

140.98±6.86

140.37±6.46

0.64

0.248


钾(mmol/L)

4.60 (1.30)

4.70 (1.30)

-0.37

0.711


氯(mmol/L)

106.20±8.24

105.54±8.06

-1.04

0.301


酸碱度

7.28±0.13

7.27±0.13

-0.64

0.520


乳酸(mmol/L)

2.00 (2.50)

2.00 (2.60)

-0.33

0.742


氧合指数

125.00   (116.67)

116.00   (106.50)

-1.34

0.179

胸部影像结果(例,%)

肺不张

163(30.0)

77(33.0)

0.70

0.403


肺实变

139(25.6)

54(23.2)

0.51

0.474


胸腔积液

269(49.5)

126(54.1)

1.34

0.246


空气支气管征

9(1.66)

8(3.43)

2.40

0.121

治疗信息(例,%)

使用血管活性药

321(59.1)

118(50.6)

4.76

0.029


有创通气

368(67.8)

142(60.9)

3.37

0.066


使用免疫抑制剂

29(5.3)

22(9.4)

4.47

0.035


使用糖皮质激素

143(26.3)

62(26.6)

0.01

0.937


使用至少2种抗生素

437(80.5)

191(82.0)

0.24

0.627


2.2 预测模型构建  本研究采用机器学习方法构建预测模型。首先,运用LASSO回归分析对训练集543例患者的临床数据变量进行筛选,用于模型构建,当调节参数为lambda.1se (λ=0.04)时,筛选出11个具有统计学意义的预测变量,包括患者年龄、合并恶性肿瘤、心率等指标,见图1。随后,采用多因素logistic回归分析方法,通过逐步向后筛选法(backward法)对上述变量进行进一步分析。最终确定年龄、合并恶性肿瘤、心率、平均动脉压、血氧饱和度、体温、格拉斯哥昏迷评分(GCS)、血清白蛋白水平、凝血酶原时间及乳酸值等10个指标为影响重症肺炎患者短期结局的独立危险因素,见表2。基于这些危险因素,构建了预测模型,并绘制了相应的列线图以直观展示模型预测结果,见图2。

基于MIMIC-IV数据库建立并验证重症肺炎患者短期死亡风险预测模型(图1)

注:A,48个变量的LASSO系数曲线;B,10折交叉验证筛选lambda.min及lambda.1se

图1 LASSO回归进行变量筛选

Fig.1  Variables screened by LASSO regression 

表2 监护病房重症肺炎患者短期死亡风险多因素Logistic回归分析

Table.2  Multivariate logistic regression analysis of short-term mortality in ICU admitted patients with SP

预测变量

β

SE

P值

OR (95% CI)

年龄

0.042

0.007

<0.001

1.043(1.028-1.059)

合并恶性肿瘤

0.838

0.288

0.004

2.312(1.316-4.088)

心率

0.020

0.007

0.002

1.020(1.008-1.034)

平均动脉压

-0.034

0.012

0.005

0.966(0.943-0.989)

血氧饱和度

-0.105

0.038

0.006

0.901(0.833-0.966)

体温

-0.347

0.146

0.017

0.707(0.528-0.939)

格拉斯哥评分

-0.087

0.024

<0.001

0.916(0.873-0.961)

白蛋白

-0.682

0.175

<0.001

0.506(0.356-0.709)

凝血酶原时间

0.021

0.008

0.008

1.021(1.006-1.038)

乳酸

0.035

0.026

0.185

1.035(0.992-1.102)

 基于MIMIC-IV数据库建立并验证重症肺炎患者短期死亡风险预测模型(图2)

图2  预测监护病房重症肺炎患者30天死亡风险的列线图模型

Fig.2  An nomogram for predicting 30-day mortality in ICU admitted patients with SP

2.3 预测模型内部验证  为评估预测模型的性能,本研究采用Bootstrap重抽样方法进行内部验证,重复抽样1000次。验证集包含233例患者数据,结果显示该模型具有良好的判别效能:训练集的ROC曲线下面积(AUC)达到0.802(95% CI:0.763~0.841),验证集的AUC为0.779(95% CI:0.720~0.838),见图3。模型校准度分析显示,训练集和验证集的Hosmer-Lemeshow检验P值分别为0.397和0.793,表明预测值与实际观察值具有良好的一致性,见图4。此外,通过绘制临床决策曲线进一步证实,该预测模型在两组患者中均展现出良好的临床应用价值,见图5。

基于MIMIC-IV数据库建立并验证重症肺炎患者短期死亡风险预测模型(图3)基于MIMIC-IV数据库建立并验证重症肺炎患者短期死亡风险预测模型(图4)

注:A为训练集,B为验证集

图3 预测模型ROC曲线

Fig.3  ROC curve of prediction model

基于MIMIC-IV数据库建立并验证重症肺炎患者短期死亡风险预测模型(图5)

基于MIMIC-IV数据库建立并验证重症肺炎患者短期死亡风险预测模型(图6)

注:A为训练集,B为验证集

图4 预测模型校准曲线

基于MIMIC-IV数据库建立并验证重症肺炎患者短期死亡风险预测模型(图7)

基于MIMIC-IV数据库建立并验证重症肺炎患者短期死亡风险预测模型(图8)

Fig.4  Calibrition curve of prediction model

注:A为训练集,B为验证集

图5 预测模型决策分析曲线

Fig.5 DCA curve of prediction model

3讨论

重症肺炎预后不佳,短期死亡率高[2]。本研究通过LASSO回归特征筛选和Logistic多因素回归分析,确定年龄、合并恶性肿瘤、心率、平均动脉压、血氧饱和度、体温、血清白蛋白水平、乳酸浓度、凝血酶原时间及GCS评分等10个指标与ICU患者30天病死率显著相关。基于这些独立预测因子构建的风险评估模型,可为临床医师提供重要的决策支持。该模型的应用有助于优化重症肺炎患者的早期病情评估体系,促进个体化治疗方案的制定,从而有效控制疾病进展,提高生存率,改善临床结局。

心率增快、平均动脉压及体温下降是循环衰竭的早期表现,乳酸水平增高提示组织灌注不足、血管通透性增加、血管壁受损,与肺炎患者短期不良结局相关[5-9],以上因素在本研究中亦作为研究对象短期死亡预测模型的预测因子。由于病原体引起肺组织直接损伤以及引发的炎症反应,肺泡壁渗透性增加,肺间质水肿,支气管黏膜水肿使管腔变窄,从而引起肺功能障碍,导致低氧血症[10],本研究结果显示血氧饱和度下降也是研究对象短期死亡的危险因素之一。高龄患者由于免疫功能与机体功能下降、合并基础疾病,更易出现多脏器功能障碍,同时作为多重耐药菌感染易感人群,较其他年龄组患者短期不良结局的风险增加[11, 12]。恶性肿瘤会导致机体免疫功能受抑制,使得病原更容易入侵,且化疗相关合并症导致肺炎患者预后不良风险增加[13, 14]。本研究中,年龄及合并恶性肿瘤也是患者短期死亡的危险因素,其中,合并恶性肿瘤也是PSI评分中的一大重要指标。Ma等人[15]证实低白蛋白血症与肺炎合并糖尿病患者的短期死亡率相关,白蛋白低于25g/L为最主要的独立危险因素,重要性大于尿素氮>11mmol/L、心率≥125次/min。白蛋白在免疫调节中具有重要作用,可提示患者的营养状况及机体的感染程度[16]。本研究中,白蛋白水平过低是患者短期死亡的另一重要危险因素。凝血酶原时间及GCS评分也是本研究预测重症肺炎患者短期治疗结局的指标,凝血功能障碍同重症肺炎的进展恶化相关[17, 18],GCS评分越低反映意识障碍越严重、预后越差[19]

本研究为单中心、回顾性研究,因数据缺失排除了数据库中部分符合纳入标准的病例,导致样本量减少及部分可能影响研究对象短期预后的指标(如炎症指标、病原学等)未纳入本研究,且未开展外部验证。由于数据库的局限性,未能提取研究对象的CURB-65和PSI评分,故无法将模型与肺炎特异性评分工具进行比较。因此,为了进一步改进该模型,需要进行多中心、前瞻性研究,并扩大样本规模。

作者简介:高雅雯(1994—),女,汉族,四川成都人,研究生学历,医学硕士学位,住院医师,主要从事呼吸系统疾病的研究,现为成都市妇女儿童中心医院儿童呼吸内科医生。


更多
引文网络
  • 参考文献
  • 引证文献
  • 共引文献
  • 同被引文献
  • 二级参考文献
  • 二级引证文献