临床研究
Copyright ©The Author(s) 2023. Published by Baishideng Publishing Group Inc. All rights reserved.
世界华人消化杂志. 2023-07-08; 31(13): 544-554
Published online 2023-07-08. doi: 10.11569/wcjd.v31.i13.544
XGBoost机器学习模型对乙型肝炎肝硬化诊断的应用价值研究
李季, 韩可兴, 沈佳培, 孙伟杰, 高龙, 郜玉峰
李季, 韩可兴, 沈佳培, 孙伟杰, 高龙, 郜玉峰, 安徽医科大学第一附属医院感染病科 安徽省合肥市 230032
李季, 主治医师, 主要研究方向是肝硬化的早期诊断及治疗.
基金项目: 安徽省自然科学基金, No. 2208085MH204.
作者贡献分布: 李季与韩可兴对此文所作贡献两均等; 此课题由李季、韩可兴、沈佳培、孙伟杰设计; 研究过程由李季、韩可兴、沈佳培、孙伟杰、高龙、郜玉峰操作完成; 数据分析由李季、韩可兴、郜玉峰完成; 本论文写作由李季、韩可兴、孙伟杰完成; 郜玉峰提供了基金支持.
通讯作者: 郜玉峰, 主任医师, 23000, 安徽省合肥市蜀山区绩溪路218号, 安徽医科大学第一附属医院. aygyf@ahmu.edu.cn
收稿日期: 2023-04-20
修回日期: 2023-05-25
接受日期: 2023-06-21
在线出版日期: 2023-07-08
Abstract
背景

慢性乙型肝炎病毒感染(chronic hepatitis B virus infection, CHBV)进展成肝硬化是缓慢且容易被忽略的, 通过临床常规指标来构建肝硬化无创诊断模型成为研究热点. 然而, 目前有关肝硬化早期诊断的机器学习模型仍是缺乏的.

目的

探讨极限梯度提升机(eXtreme gradient boosting, XGBoost)机器学习模型在乙肝肝硬化无创诊断中的效能.

方法

回顾性分析2010-2018年首次就诊于安徽医科大学第一附属医院和第二附属医院感染病科的CHBV患者1087例, 按照随机原则以3:1的比例分为训练集和验证集. 收集所有研究对象的临床资料并利用XGBoost机器学习模型构建预测模型. 同时, 计算谷草转氨酶与血小板比率指数(aspartate aminotransferase/platelet ratio index, APRI)、纤维蛋白-4(fibrosis-4 index, FIB-4)评分并与XGBoost机器学习模型进行比较. 受试者工作特征曲线下面积(area under curve, AUC)以评估模型区分度, 校准曲线(calibration curve, CA)及决策曲线(decision curve analysis, DCA)以评估模型校准度及获益度.

结果

共纳入CHBV病例1087例, 其中训练集817例, 验证集270例. 训练集与验证集两组间所有预测变量均无统计学差异(P>0.05). 训练集中有103例患者发生肝硬化, 肝硬化患者APRI和FIB-4评分明显高于非肝硬化患者(P<0.05). 在所有预测因子中血小板的相对重要度最高. 训练集和验证集的AUC分别为0.95和0.86(P<0.05), 两者Kappa值分别为0.78和0.74, 提示模型可重复性较好. CA曲线提示模型预测情况与真实情况拟合情况吻合度较高. 训练集和验证集的DCA曲线提示所建立模型能够使患者获得较高的获益度. XGBoost机器学习模型对于肝硬化的效能优于APRI评分和FIB-4评分.

结论

本研究利用CHBV患者常见的临床信息构建的XGBoost模型对肝硬化的诊断具有良好的性能, 值得临床进一步推广.

Keywords: 慢性乙型病毒性肝炎; 肝硬化; 预测模型; XGBoost机器学习模型

核心提要: 本研究重点探究以慢性乙型肝炎病毒感染患者年龄和临床常见指标构建极限梯度提升机机器学习模型, 为肝硬化的早期管理提供参考依据.