• 主管部门:
  • 中国科学院
  • 主办单位:
  • 中科院科技战略咨询研究院
  • 出版单位:
  • 世界科学技术杂志社
    科学出版社
  • 主编:
  • 陈凯先
  • 执行主编:
  • 胡镜清 陈士林 叶阳
  • 副主编:
  • (按姓氏笔划排列)王 伟 王 阶 王拥军 王喜军 孔令义 吕文亮 孙晓波 李 萍 李志刚 张卫东 陈立典 果德安 罗国安 赵军宁 徐宏喜 高秀梅 唐旭东 梁繁荣 葛金文
  • 名誉社长:
  • 徐伟宣
  • 社长:
  • 张志华
  • 编辑部主任:
  • 王 瑀
  • 编辑部:
  • 张娜娜 马雅静 方垚 王涵 何岸波 郭嫦娥
  • 责任译审:
  • 王晶
  • 国际刊号:
  • 1876-3553
  • 国内刊号:
  • 11-5699/R
  • 社址:
  • 北京市海淀区中关村东路55号思源楼1203
  • 邮编:
  • 100190
  • 电话:
  • 010-62616352
  • 网址:
  • www.wst.ac.cn
  • E-mail:
  • wst@casipm.ac.cn
  • 海外发行号:
  • M1644
  • 邮刊代号:
  • 2-534

基于深度表示的中医病历症状表型命名实体抽取研究
Depth Representation-based Named Entity Extraction for Symptom Phenotype of TCM Medical Record
投稿时间:2018-02-11  修订日期:2018-03-14
DOI:10.11842/wst.2018.03.006
中文关键词:  条件随机场 结构化支持向量机 命名实体抽取 中医病历
英文关键词:Conditional random field, structured support vector machines, named entity recognition deep representationtraditional Chinese medical recordst
基金项目:国家中医药管理局2015年度国家中医临床研究基地业务建设第二批科研专项(JDZX2015171):肝病回顾性病例表型信息抽取方法与分析研究,负责人:周雪忠;国家科技部国家重点研发计划项目(2017YFC1703506):中医药大数据挖掘研究与创新应用,负责人:于剑。
作者单位
原旎 1. 北京交通大学计算机与信息技术学院 北京 100044 
卢克治 1. 北京交通大学计算机与信息技术学院 北京 100044 
袁玉虎 1. 北京交通大学计算机与信息技术学院 北京 100044 
舒梓心 2. 湖北省中医院 武汉 430061 
杨扩 1. 北京交通大学计算机与信息技术学院 北京 100044 
张润顺 3. 中国中医科学院广安门医院 北京 100053 
李晓东 2. 湖北省中医院 武汉 430061 
周雪忠 1. 北京交通大学计算机与信息技术学院 北京 100044 
摘要点击次数: 351
全文下载次数: 157
中文摘要:
      目的:命名实体识别在自然语言处理中是最基本的任务之一,本文通过应用深度表示的方法实现临床上的现病史数据的自动标识。方法:本文随机选取了10 426条现病史句子作为主要的文本研究对象,分别用词嵌入(word2vec)和网络结构特征(node2vec)两种构建向量的方法生成不同的词向量特征,再在基于条件随机场(Conditional Random Field,CRF)和结构化支持向量机(Structured Support Vector Machines,SSVM)的方法上进行十重交叉验证,计算并比较基于深度表示的症状表型命名实体抽取的性能。结果:传统的CRF算法的三个评价指标(准确率,召回率,F 值)为(0.888 9,0.786 9,0.834 8);基于WENER方法下的CRF和SSVM的评价指标为(0.975 0,0.984 9,0.979 8)和(0.992 8,0.988 9,0.990 8);在GENER方法下基于词的CRF和SSVM算法的三个评价指标为(0.972 8,0.976 8,0.975 2)和(0.983 3,0.974 5,0.978 8);GENER方法下基于字的CRF和SSVM算法的评价指标为(0.927 8,0.862 8,0.887 9)和(0.943 7,0.946 8,0.941 3)。结论:深度表示的命名实体抽取算法性能要比传统的非深度表示的命名实体标识算法性能好。另外,通过比较深度表示的两种算法的性能后发现,无论是基于word2vec生成的词向量还是基于node2vec生成的词向量,SSVM模型算法性能均优于CRF算法的性能。
英文摘要:
      Named entity recognition is one of most basic tasks in natural language processing. In this paper, deeprepresentation-based method is applied to automatic identification of clinical data. First, 10,426 sentences about presenthistory were selected randomly as text training data. Then word2vec-based and node2vec-based deep representationmethods were used to construct low-dimensional word embedding. Based on word vectors of symptoms, we conductedconditional random field (CRF) and structured support vector machine (SSVM) to extract symptom named entity. Finally,the performance of different named entity extraction algorithms for TCM’s symptom phenotype were compared with 10-fold cross validation. Three evaluation metrics: precision (P), recall (R) and F1-score (F1) were considered. The results showed, compared with classic CRF algorithm (PR: 0.888 9; RE: 0.786 9; F1:0.834 8), WENRE-based CRF (P: 0.975 0;R: 0.984 9; F1: 0.979 8), WENRE-based SSVM (P: 0.992 8; R: 0.988 9; F1: 0.990 8), word-based CRF under GENER(P:0.972 8; R:0.976 8; F1:0.975 2), word-based SSVM under GENER (P: 0.983 3; R: 0.974 5; F1: 0.978 8), characterbasedCRF under GENER (P: 0.927 8; R: 0.862 8; F1: 0.887 9), character -based SSVM under GENER (P: 0.943 7; R:0.946 8; F1: 0.941 3). In conclusion, compared with classic CRF algorithm, deep representation-based named entityextraction method of symptom phenotype has a better performance. For both word2vec-based and node2vec-based vectorrepresentation, SSVM algorithm has a better performance than CRF algorithm.
查看全文  查看/发表评论  下载PDF阅读器
关闭