• 主管部门:
  • 中国科学院
  • 主办单位:
  • 中科院科技战略咨询研究院
  • 出版单位:
  • 世界科学技术杂志社
    科学出版社
  • 主编:
  • 陈凯先
  • 执行主编:
  • 胡镜清 陈士林 叶阳
  • 副主编:
  • (按姓氏笔划排列)王 伟 王 阶 王拥军 王喜军 孔令义 吕文亮 孙晓波 李 萍 李志刚 张卫东 陈立典 果德安 罗国安 赵军宁 徐宏喜 高秀梅 唐旭东 梁繁荣 葛金文
  • 名誉社长:
  • 徐伟宣
  • 社长:
  • 张志华
  • 编辑部主任:
  • 王 瑀
  • 编辑部:
  • 张娜娜 马雅静 方垚 王涵 何岸波 郭嫦娥
  • 责任译审:
  • 王晶
  • 国际刊号:
  • 1876-3553
  • 国内刊号:
  • 11-5699/R
  • 社址:
  • 北京市海淀区中关村东路55号思源楼1203
  • 邮编:
  • 100190
  • 电话:
  • 010-62616352
  • 网址:
  • www.wst.ac.cn
  • E-mail:
  • wst@casipm.ac.cn
  • 海外发行号:
  • M1644
  • 邮刊代号:
  • 2-534

不平衡数据处理方法对中药不良反应预测的应用研究
Application Research of Imbalanced Data Processing Methods on Prediction of Adverse Reactions of Traditional Chinese Medicine
投稿时间:2017-05-13  修订日期:2017-08-25
DOI:10.11842/wst.2017.09.008
中文关键词:  不平衡数据 不良反应 集中监测数据 采样 boosting
英文关键词:Imbalanced data, adverse reaction,centralized monitoring data, sampling, boosting
基金项目:国家自然科学基金委青年科学基金项目(81502898):大型观察性医学数据的因果图模型研究,负责人:杨伟;重大新药创制专项子课题(2015ZX09501004-001-007):临床需长期使用的中药口服制剂安全性监测研穷,负责人:李学林。
作者单位
吴东苑 中央民族大学理学院 北京 100081 
杨伟 中央民族大学理学院 北京 100081中国中医科学院中医临床基础医学研究所 北京 100700 
唐进法 河南中医药大学第一附属医院 郑州 450000 
李学林 河南中医药大学第一附属医院 郑州 450000 
王晓艳 河南中医药大学第一附属医院 郑州 450000 
刘红梅 国家康复辅具研究中心附属康复医院 北京 100176 
易丹辉 中国人民大学统计学院 北京 100872 
摘要点击次数: 104
全文下载次数: 132
中文摘要:
      目的:针对中药不良反应数据的不平衡性,探索并应用不平衡数据的处理方法,对中药的不良反应进行预测。本文以使用丹红注射液的患者为研究对象,对来自37家医院集中监测数据进行深度挖掘,在使用了丹红注射液的患者中预测是否发生不良反应。方法:从数据层面采用四种方法:不处理、随机欠采样、随机过采样、SMOTE采样;从算法层面采用四种模型或算法:决策树、随机森林、AdaBoost算法、GradientBoosting算法,对数据的不平衡性进行处理。两个层面的方法两两结合,对16种方法与模型或算法组合的预测效果进行比较。结果:随机欠采样和AdaBoost算法相结合、随机欠采样和GradientBoosting算法相结合的预测效果较为理想,recall和G-mean都达到80%以上,AUC指标也高达0.86。结论:初步探索中药不良反应可能适用的不平衡数据处理方法,预测结果结合实际经验,能较准确地预测使用了丹红注射液的患者是否发生不良反应,在临床实际应用中能起到一定的警示作用。同时,根据输出的变量重要性排名,能最大程度地避免用药后的不良反应的发生,为丹红注射液的安全性再评价提供一些科学参考依据。
英文摘要:
      In view of the imbalance of the adverse reaction data of traditional Chinese medicine (TCM), this paper explored and applied the processing method of imbalanced data to predict adverse reactions of TCM. This paper took patients who used Dan- Hong (DH) injection as the research object, excavated centralized monitoring data from 37 hospitals, and predicted adverse reactions from patients who used DH injection. This paper combined four data-level approaches, including non-processing, random undersampling, random oversampling and SMOTE algorithm, with four algorithm- level approaches, including decision tree, random forest, AdaBoost and Gradient Boosting, to process the imbalanced data, and then to compare their prediction performance. Finally we found that two algorithms, combining random undersampling with AdaBoost, and combining random undersampling with Gradient Boosting, had better prediction performance than other algorithms. Their recall and G -mean both reached 80%; and AUC was more than 0.86. It was concluded that the imbalanced data processing methods were preliminary explored. This method is applicable to the prediction of TCM adverse reactions in combination with practical experiences. It can accurately predict whether adverse reactions occurred in patients who used DH injection. It can play a certain warning role in clinical practice. At the same time, according to the importance of the output variable ranking, we can minimize the occurrence of adverse reactions after treatment. It provided some scientific references for the safety reassessment of DH injection.
查看全文  查看/发表评论  下载PDF阅读器
关闭