2019 年底暴发的新型冠状病毒肺炎(COVID-19)疫情是人类史上一次重大突发公共卫生事件。中国医学工作者在短时间内,经历了对该未知病毒的逐步认识、证据积累和临床实践。截至目前,中国国家卫生健康委员会在数十天内密集发布了七个版本的《新型冠状病毒感染的肺炎诊疗方案》(简称《诊疗方案》)。然而,快速准确地比较各版本的异同和掌握新版本的重点对临床医护人员和非专业人员来说存在一定困难。本文提出一种基于机器学习的计算机辅助智能分析方法,对文本主题进行无监督学习,自动分析不同版本《诊疗方案》的异同,主动给医护人员推送新版本的关注重点,降低《诊疗方案》解读的专业难度,提高非专业人员对诊疗方案的认识水平。实验证明,与人工解读方式相比较,本文方法能自动计算文本主题,实现主题的精准匹配,准确率达 100%,并可自动生成关键词和语句级别的解读报告,实现《诊疗方案》的计算机自动智能解读。
引用本文: 蒲晓蓉, 陈柯成, 刘军池, 文进, 郑尚维, 李鸿浩. COVID-19 中国诊疗方案的机器学习智能分析方法. 生物医学工程学杂志, 2020, 37(3): 365-372. doi: 10.7507/1001-5515.202003045 复制
引言
自 2019 年底以来全球相继暴发新型冠状病毒肺炎(COVID-19),其感染速度之快、范围之广属历史罕见。中国医学工作者在短时间内,经历了对该未知病毒的逐步认识、证据积累和临床实践。截至目前,中国国家卫生健康委员会组织相关专家研究、制定并发布了七个《新型冠状病毒感染的肺炎诊疗方案》(以下简称《诊疗方案》)试行版本[1-7]。该系列版本内容差异较大,主要内容涵盖冠状病毒病原学特点、临床特点、病例定义、鉴别诊断、病例的发现与报告、治疗、解除隔离和出院标准、转运原则和医院感染控制等项目。《诊疗方案》是全国各医疗机构医务人员对新型冠状病毒肺炎患者进行诊断和救治的指导性文件。该系列诊疗方案的高度专业性和不同版本之间存在的诸多差异,导致临床医护人员和非专业人员在短时间内快速、准确解读并掌握相关信息存在一定困难。因此,有必要研制计算机辅助的智能文本理解方法,自动区分不同版本的差异,并标识新版本的关注重点。
本课题针对国家卫生健康委员会正式发布的《诊疗方案》七个版本,基于认知计算理论[8],提出一种基于机器学习的隐狄利克雷分配(latent Dirichlet allocation,LDA)模型[9]的无监督聚类方法,自动挖掘不同版本《诊疗方案》的主题,进行版本间异同分析比较。
1 方法
1.1 总体架构
本文所提出的基于机器学习的计算机辅助智能分析方法的整体架构如图 1 所示。其中,对文本主题分布的学习使用若干已有诊疗方案,作为训练集,用于训练 LDA 模型。将待分析诊疗方案作为测试样本,基于训练好的 LDA 模型,预测和匹配文本主题。最后,进行文本差异性分析,标注文本之间存在的差异。

1.2 诊疗方案主题生成的 LDA 模型
首先,假设每一版《诊疗方案》由 个单词组成,每一个词可以表示成 one-hot 的向量形式,则一个版本的《诊疗方案》可以表示为:
![]() |
其中 是《诊疗方案》中的第
个词的向量表示。假设已有
个版本的《诊疗方案》,这些文本可以看作是进行主题分析的语料库 D,可表示为:
![]() |
《诊疗方案》的文本可表示为潜在的 个主题上的随机混合,每个主题又被单词的分布所表征。LDA 假设语料库
中的每个文本
都有以下生成过程:
(1)对于每一版《诊疗方案》,得到方案
的主题分布参数
。
(2)对于每个主题 ,得到主题
上词的多项式分布 φk。
(3)对于语料库 D 中的第 i 个单词 ,根据多项式分布
得到主题
;根据多项式分布
,得到词
。
实际应用中,一般使用 Gibbs 抽样算法对 LDA 模型进行参数估计[10]。其中,潜在的主题个数是一个先验数据,需要手动设置。主题数的设定一定程度上会影响主题生成的准确性。由于《诊疗方案》文本具有明显的主题分段结构,每个段落对应一个相对独立的主题,所以,《诊疗方案》的主题生成具备先验基础。基于此,本研究将《诊疗方案》按一级标题划分为 个主题。
1.3 诊疗方案文本主题匹配
对于一个待分析的《诊疗方案》,需要基于训练好的 LDA 模型预测每一段落所属主题分布的概率,即通过待分析的《诊疗方案》 及其组成单词
,推测潜在的主题
。由于
和
已知,所以可计算出
。基于 LDA 模型和《诊疗方案》已知的文本-单词概率
,可以训练《诊疗方案》的文本-主题概率
和主题-单词概率
:
![]() |
计算文本中每个词的生成概率:
![]() |
再利用最大期望算法(expectation-maximization,EM)[11]估计主题概率 ,即待分析《诊疗方案》
的第
段属于语料库 D 中 H 个预设主题内的哪个主题的概率。本文取预测概率最高(即相关度最高的预设主题)的主题
与待分析的《诊疗方案》
的第
段
相匹配。
1.4 差异性挖掘
计算获得《诊疗方案》 和与之主题分布最相似的文本
以后,就可以对某《诊疗方案》版本
与
进行对应主题的差异性挖掘。
文本差异性挖掘的整体架构如图 2 所示。基于文本关键词级别的差异性挖掘,可以进一步挖掘语句级别的差异,从而最终获得关键词和语句一致性的《诊疗方案》解读结论。特别指出:

(1)《诊疗方案》比一般通用文本具有更强的专业性和特殊用途。所以,需要将一些自适应的停用词添加到停用词表。
(2)如果某语句存在删除和新增的关键词,该语句会被重复匹配,所以需要进行去重操作。
(3)对于新增的主题文本,LDA 模型的主题预测结果一般会呈现主题概率的多峰性特点(见后文实验),可结合此属性进行差异性挖掘。
2 实验
2.1 数据集和实验设计
数据集:本课题使用《诊疗方案》第一至第六版本作为训练集,第七版本作为测试集。实验主要解读了《诊疗方案》的第七版和第六版。特别地,本文方法适合其他任何版本间的对比解读。
实验设计:训练集的所有《诊疗方案》被合并成一个文本。首先需要对训练集进行预实验,以消除噪声干扰(第一版本除外)和超参数设置。LDA 模型中,一级标题主题数设置为 9,训练迭代数为 800,passes 设置为 40,训练集的特征数目(单词类型数量)为 965,文本数目(文本段落)为 43。LDA 模型的主题偏差指数收敛后停止训练。
2.2 预实验
预实验对训练集的所有《诊疗方案》进行初步分析,包括《诊疗方案》的总体分析和各方案的特征分析,预实验为 LDA 模型的训练提供基础。
2.2.1 文本总体相似度分析
为了对不同版本的《诊疗方案》进行初步分析,本文将余弦相似度作为评价指标来度量《诊疗方案》之间的差异度,从而初步评估各个方案的变化程度。余弦相似度是基于语义的关键字的字向量之间的相似度评价指标,可定义为:
![]() |
其中,、
表示词
和
的词向量表征,本文词向量采用 one-hot 编码形式。由图 3 可见:

(1)《诊疗方案》第一版相比之后各版本,存在显著的差异。
(2)《诊疗方案》第二版至第五版的内容总体趋近稳定。特别指出,实验使用《诊疗方案》各版本对应的余弦相似度都是与第六版进行比较的结果。
2.2.2 《诊疗方案》各版本的特征分析
不同版本《诊疗方案》的总体相似度一定程度上反映了不同方案的相似性,但是无法精准刻画每个方案的特征。本研究进一步基于关键词的频率统计对不同版本《诊疗方案》的总体特征进行刻画。
针对《诊疗方案》进行分词、去除停用词等预处理以后,得到各方案主要关键词的统计数据,见图 4 所示。分析发现:

(1)相比其他诊疗方案,《诊疗方案》第一版的主要关键词频率差异显著。《诊疗方案》第一版主要关注疫情的防护,出现的高频包括“消毒”“口罩”“防护”“防护用品”等关键词。该结论与图 3 的文本整体相似度的结论一致。
(2)《诊疗方案》第二版至第六版中,“呼吸道”“肺炎”(图 4 中红色标注)两个关键词出现的频率逐步提高。由此可以推断,临床现象和相关研究确定了新冠病毒主要造成呼吸道和肺部感染。因此,在后续多个迭代的版本中逐步增加了这些关键词的权重。
(3)《诊疗方案》第六版中的高频词与此前各版本相似,但是第二至第五版的高频词主要包括“治疗”“患者”“病例”“冠状病毒”等,而第六版出现了关键词“注射液”(见图 4 中绿色标注)。通过查阅《诊疗方案》发现“注射液”与中药相对应,即《诊疗方案》第六版出现了中药注射液推荐治疗方案。
结合上述两部分的预实验可以发现,《诊疗方案》第一版的总体相似度和主要关键词都与其他版本存在显著差异。因此,本研究的 LDA 训练数据不采用第一版,而只使用《诊疗方案》第二至第六版。
2.3 模型特点
表 1 展示了 LDA 主题生成模型的训练结果,包括对训练集中所有诊疗方案相似的主题进行聚类,并产生主题对应的权重值前 10 的关键词和相应权重。从表 1 可见:

(1)每个主题对应的关键词都与某特定主题具有较强的相关性。观察表 1 中加粗的关键词可以发现这些关键词与主题的相关性,如“流行病学”主题的“传播”“途径”关键词,“治疗”主题的“注射液”“疗程”关键词,以及“鉴别诊断”主题的“鉴别”“腺病毒”和“合胞病毒”关键词等。
(2)各主题的高权重关键词与该主题的语义之间存在较强的关联性,如主题“病原学特点”与关键词“病毒”(权重为 0.04)存在较强的语义关联。
基于《诊疗方案》第二至第六版训练 LDA 模型以后,将《诊疗方案》第七版用于验证本文所提的整体架构。众所周知,《诊疗方案》的版本越高其内容越翔实,解读难度越大。本实验选用《诊疗方案》第六版与第七版进行对比解读,例如,使用 LDA 模型能将第七版的主题“临床分型”和“病例发现与报告”,与第六版相应的主题进行精准匹配。
研究显示,本文方法能精准识别任意两个《诊疗方案》之间的不变主题和新增主题。图 5 示意了不变主题的情况,即第七版《诊疗方案》中的“临床分型”和“病例发现与报告”主题精准匹配了第六版的对应主题,两个对应主题之间的相关性接近 1,即匹配准确度接近 100%。实验证明,任意两个《诊疗方案》版本之间,只要主题保持不变,都能准确匹配。图 6 示意了版本之间新增主题情况下的实验结果,即《诊疗方案》第七版新增了主题“病理改变”,用 LDA 模型进行主题匹配时,发现文本整体主题相关性呈现多峰性特点,且都具有较低的相关性。利用这两个特点,可以识别出哪个是新增主题。


2.4 实验结果
利用本文所提的文本差异性挖掘方法,对比《诊疗方案》第六版和第七版,分别针对“临床分型”“病例发现与报告”“治疗”“解除隔离和出院标准”四个主题自动生成解读报告,见表 2 到表 5。


由表 2 到表 5 可见,本文方法能以符合人类认知的角度自动解读《诊疗方案》,自动区分不同版本之间的差异性语句和关键词,帮助医生和非医学专业人士快速、精准识别不同版本的差异,掌握新版本的重点。


3 讨论和结论
本文使用的 LDA 模型是一种基于贝叶斯概率的数学模型,可以广泛用于文本聚类、主题划分和预测。LDA 模型包含词、主题、文本三层结构,可以通过词向量对文本中的词进行表征,以进行文本的相似性推测。LDA 是概率隐含语义分析(probabilistic latent semantic analysis,PLSA)模型[12]的一种改进方法,改进了 PLSA 模型参数随训练文本增加线性增长、产生的语义可定义性差等不足,为本文进行有效的主题聚类提供了保障。
本文的主要贡献包括:
(1)提出一种基于 LDA 模型的无监督学习方法,对不同版本《诊疗方案》的文本主题进行无监督学习。相比基于频率的匹配方法,如 TF-IDF[13],LDA 模型方法具有语义分析功能和更小计算复杂度的优势[14],在实践中往往具有更好的鲁棒性。
(2)提出一种轻量级的相同主题文本内容差异化的挖掘方法。用于确定主题的文本,能自动搜索不同文本之间新增或删减的关键词,以及与之对应的语句。
本文提出的基于机器学习的计算机辅助智能分析方法,对文本主题进行无监督学习,自动计算文本主题,实现主题的精准匹配,准确率达 100%;自动分析不同版本《诊疗方案》的异同,主动给医护人员推送新版本的关注重点;自动生成关键词和语句级别的解读报告,降低《诊疗方案》解读的专业难度,提高非专业人员对诊疗方案的认识水平。本文方法能替代人工解读,实现《诊疗方案》的计算机自动智能解读。
实验证明,相比于人工解读,本文方法通过对现有《诊疗方案》多个版本的主题进行无监督学习,能够实现目标版本的主题匹配,准确率达 100%。此外,本方法能够自动生成语句级和关键词级的《诊疗方案》解读报告,有助于非专业人士理解医学专业知识。下一步,我们会将《诊疗方案》与全国的 COVID-19 确诊和治愈出院等数据相结合,循证研究二者之间的相关性和《诊疗方案》的效果,为医护技术评价、医院管理和卫生决策提供参考。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
自 2019 年底以来全球相继暴发新型冠状病毒肺炎(COVID-19),其感染速度之快、范围之广属历史罕见。中国医学工作者在短时间内,经历了对该未知病毒的逐步认识、证据积累和临床实践。截至目前,中国国家卫生健康委员会组织相关专家研究、制定并发布了七个《新型冠状病毒感染的肺炎诊疗方案》(以下简称《诊疗方案》)试行版本[1-7]。该系列版本内容差异较大,主要内容涵盖冠状病毒病原学特点、临床特点、病例定义、鉴别诊断、病例的发现与报告、治疗、解除隔离和出院标准、转运原则和医院感染控制等项目。《诊疗方案》是全国各医疗机构医务人员对新型冠状病毒肺炎患者进行诊断和救治的指导性文件。该系列诊疗方案的高度专业性和不同版本之间存在的诸多差异,导致临床医护人员和非专业人员在短时间内快速、准确解读并掌握相关信息存在一定困难。因此,有必要研制计算机辅助的智能文本理解方法,自动区分不同版本的差异,并标识新版本的关注重点。
本课题针对国家卫生健康委员会正式发布的《诊疗方案》七个版本,基于认知计算理论[8],提出一种基于机器学习的隐狄利克雷分配(latent Dirichlet allocation,LDA)模型[9]的无监督聚类方法,自动挖掘不同版本《诊疗方案》的主题,进行版本间异同分析比较。
1 方法
1.1 总体架构
本文所提出的基于机器学习的计算机辅助智能分析方法的整体架构如图 1 所示。其中,对文本主题分布的学习使用若干已有诊疗方案,作为训练集,用于训练 LDA 模型。将待分析诊疗方案作为测试样本,基于训练好的 LDA 模型,预测和匹配文本主题。最后,进行文本差异性分析,标注文本之间存在的差异。

1.2 诊疗方案主题生成的 LDA 模型
首先,假设每一版《诊疗方案》由 个单词组成,每一个词可以表示成 one-hot 的向量形式,则一个版本的《诊疗方案》可以表示为:
![]() |
其中 是《诊疗方案》中的第
个词的向量表示。假设已有
个版本的《诊疗方案》,这些文本可以看作是进行主题分析的语料库 D,可表示为:
![]() |
《诊疗方案》的文本可表示为潜在的 个主题上的随机混合,每个主题又被单词的分布所表征。LDA 假设语料库
中的每个文本
都有以下生成过程:
(1)对于每一版《诊疗方案》,得到方案
的主题分布参数
。
(2)对于每个主题 ,得到主题
上词的多项式分布 φk。
(3)对于语料库 D 中的第 i 个单词 ,根据多项式分布
得到主题
;根据多项式分布
,得到词
。
实际应用中,一般使用 Gibbs 抽样算法对 LDA 模型进行参数估计[10]。其中,潜在的主题个数是一个先验数据,需要手动设置。主题数的设定一定程度上会影响主题生成的准确性。由于《诊疗方案》文本具有明显的主题分段结构,每个段落对应一个相对独立的主题,所以,《诊疗方案》的主题生成具备先验基础。基于此,本研究将《诊疗方案》按一级标题划分为 个主题。
1.3 诊疗方案文本主题匹配
对于一个待分析的《诊疗方案》,需要基于训练好的 LDA 模型预测每一段落所属主题分布的概率,即通过待分析的《诊疗方案》 及其组成单词
,推测潜在的主题
。由于
和
已知,所以可计算出
。基于 LDA 模型和《诊疗方案》已知的文本-单词概率
,可以训练《诊疗方案》的文本-主题概率
和主题-单词概率
:
![]() |
计算文本中每个词的生成概率:
![]() |
再利用最大期望算法(expectation-maximization,EM)[11]估计主题概率 ,即待分析《诊疗方案》
的第
段属于语料库 D 中 H 个预设主题内的哪个主题的概率。本文取预测概率最高(即相关度最高的预设主题)的主题
与待分析的《诊疗方案》
的第
段
相匹配。
1.4 差异性挖掘
计算获得《诊疗方案》 和与之主题分布最相似的文本
以后,就可以对某《诊疗方案》版本
与
进行对应主题的差异性挖掘。
文本差异性挖掘的整体架构如图 2 所示。基于文本关键词级别的差异性挖掘,可以进一步挖掘语句级别的差异,从而最终获得关键词和语句一致性的《诊疗方案》解读结论。特别指出:

(1)《诊疗方案》比一般通用文本具有更强的专业性和特殊用途。所以,需要将一些自适应的停用词添加到停用词表。
(2)如果某语句存在删除和新增的关键词,该语句会被重复匹配,所以需要进行去重操作。
(3)对于新增的主题文本,LDA 模型的主题预测结果一般会呈现主题概率的多峰性特点(见后文实验),可结合此属性进行差异性挖掘。
2 实验
2.1 数据集和实验设计
数据集:本课题使用《诊疗方案》第一至第六版本作为训练集,第七版本作为测试集。实验主要解读了《诊疗方案》的第七版和第六版。特别地,本文方法适合其他任何版本间的对比解读。
实验设计:训练集的所有《诊疗方案》被合并成一个文本。首先需要对训练集进行预实验,以消除噪声干扰(第一版本除外)和超参数设置。LDA 模型中,一级标题主题数设置为 9,训练迭代数为 800,passes 设置为 40,训练集的特征数目(单词类型数量)为 965,文本数目(文本段落)为 43。LDA 模型的主题偏差指数收敛后停止训练。
2.2 预实验
预实验对训练集的所有《诊疗方案》进行初步分析,包括《诊疗方案》的总体分析和各方案的特征分析,预实验为 LDA 模型的训练提供基础。
2.2.1 文本总体相似度分析
为了对不同版本的《诊疗方案》进行初步分析,本文将余弦相似度作为评价指标来度量《诊疗方案》之间的差异度,从而初步评估各个方案的变化程度。余弦相似度是基于语义的关键字的字向量之间的相似度评价指标,可定义为:
![]() |
其中,、
表示词
和
的词向量表征,本文词向量采用 one-hot 编码形式。由图 3 可见:

(1)《诊疗方案》第一版相比之后各版本,存在显著的差异。
(2)《诊疗方案》第二版至第五版的内容总体趋近稳定。特别指出,实验使用《诊疗方案》各版本对应的余弦相似度都是与第六版进行比较的结果。
2.2.2 《诊疗方案》各版本的特征分析
不同版本《诊疗方案》的总体相似度一定程度上反映了不同方案的相似性,但是无法精准刻画每个方案的特征。本研究进一步基于关键词的频率统计对不同版本《诊疗方案》的总体特征进行刻画。
针对《诊疗方案》进行分词、去除停用词等预处理以后,得到各方案主要关键词的统计数据,见图 4 所示。分析发现:

(1)相比其他诊疗方案,《诊疗方案》第一版的主要关键词频率差异显著。《诊疗方案》第一版主要关注疫情的防护,出现的高频包括“消毒”“口罩”“防护”“防护用品”等关键词。该结论与图 3 的文本整体相似度的结论一致。
(2)《诊疗方案》第二版至第六版中,“呼吸道”“肺炎”(图 4 中红色标注)两个关键词出现的频率逐步提高。由此可以推断,临床现象和相关研究确定了新冠病毒主要造成呼吸道和肺部感染。因此,在后续多个迭代的版本中逐步增加了这些关键词的权重。
(3)《诊疗方案》第六版中的高频词与此前各版本相似,但是第二至第五版的高频词主要包括“治疗”“患者”“病例”“冠状病毒”等,而第六版出现了关键词“注射液”(见图 4 中绿色标注)。通过查阅《诊疗方案》发现“注射液”与中药相对应,即《诊疗方案》第六版出现了中药注射液推荐治疗方案。
结合上述两部分的预实验可以发现,《诊疗方案》第一版的总体相似度和主要关键词都与其他版本存在显著差异。因此,本研究的 LDA 训练数据不采用第一版,而只使用《诊疗方案》第二至第六版。
2.3 模型特点
表 1 展示了 LDA 主题生成模型的训练结果,包括对训练集中所有诊疗方案相似的主题进行聚类,并产生主题对应的权重值前 10 的关键词和相应权重。从表 1 可见:

(1)每个主题对应的关键词都与某特定主题具有较强的相关性。观察表 1 中加粗的关键词可以发现这些关键词与主题的相关性,如“流行病学”主题的“传播”“途径”关键词,“治疗”主题的“注射液”“疗程”关键词,以及“鉴别诊断”主题的“鉴别”“腺病毒”和“合胞病毒”关键词等。
(2)各主题的高权重关键词与该主题的语义之间存在较强的关联性,如主题“病原学特点”与关键词“病毒”(权重为 0.04)存在较强的语义关联。
基于《诊疗方案》第二至第六版训练 LDA 模型以后,将《诊疗方案》第七版用于验证本文所提的整体架构。众所周知,《诊疗方案》的版本越高其内容越翔实,解读难度越大。本实验选用《诊疗方案》第六版与第七版进行对比解读,例如,使用 LDA 模型能将第七版的主题“临床分型”和“病例发现与报告”,与第六版相应的主题进行精准匹配。
研究显示,本文方法能精准识别任意两个《诊疗方案》之间的不变主题和新增主题。图 5 示意了不变主题的情况,即第七版《诊疗方案》中的“临床分型”和“病例发现与报告”主题精准匹配了第六版的对应主题,两个对应主题之间的相关性接近 1,即匹配准确度接近 100%。实验证明,任意两个《诊疗方案》版本之间,只要主题保持不变,都能准确匹配。图 6 示意了版本之间新增主题情况下的实验结果,即《诊疗方案》第七版新增了主题“病理改变”,用 LDA 模型进行主题匹配时,发现文本整体主题相关性呈现多峰性特点,且都具有较低的相关性。利用这两个特点,可以识别出哪个是新增主题。


2.4 实验结果
利用本文所提的文本差异性挖掘方法,对比《诊疗方案》第六版和第七版,分别针对“临床分型”“病例发现与报告”“治疗”“解除隔离和出院标准”四个主题自动生成解读报告,见表 2 到表 5。


由表 2 到表 5 可见,本文方法能以符合人类认知的角度自动解读《诊疗方案》,自动区分不同版本之间的差异性语句和关键词,帮助医生和非医学专业人士快速、精准识别不同版本的差异,掌握新版本的重点。


3 讨论和结论
本文使用的 LDA 模型是一种基于贝叶斯概率的数学模型,可以广泛用于文本聚类、主题划分和预测。LDA 模型包含词、主题、文本三层结构,可以通过词向量对文本中的词进行表征,以进行文本的相似性推测。LDA 是概率隐含语义分析(probabilistic latent semantic analysis,PLSA)模型[12]的一种改进方法,改进了 PLSA 模型参数随训练文本增加线性增长、产生的语义可定义性差等不足,为本文进行有效的主题聚类提供了保障。
本文的主要贡献包括:
(1)提出一种基于 LDA 模型的无监督学习方法,对不同版本《诊疗方案》的文本主题进行无监督学习。相比基于频率的匹配方法,如 TF-IDF[13],LDA 模型方法具有语义分析功能和更小计算复杂度的优势[14],在实践中往往具有更好的鲁棒性。
(2)提出一种轻量级的相同主题文本内容差异化的挖掘方法。用于确定主题的文本,能自动搜索不同文本之间新增或删减的关键词,以及与之对应的语句。
本文提出的基于机器学习的计算机辅助智能分析方法,对文本主题进行无监督学习,自动计算文本主题,实现主题的精准匹配,准确率达 100%;自动分析不同版本《诊疗方案》的异同,主动给医护人员推送新版本的关注重点;自动生成关键词和语句级别的解读报告,降低《诊疗方案》解读的专业难度,提高非专业人员对诊疗方案的认识水平。本文方法能替代人工解读,实现《诊疗方案》的计算机自动智能解读。
实验证明,相比于人工解读,本文方法通过对现有《诊疗方案》多个版本的主题进行无监督学习,能够实现目标版本的主题匹配,准确率达 100%。此外,本方法能够自动生成语句级和关键词级的《诊疗方案》解读报告,有助于非专业人士理解医学专业知识。下一步,我们会将《诊疗方案》与全国的 COVID-19 确诊和治愈出院等数据相结合,循证研究二者之间的相关性和《诊疗方案》的效果,为医护技术评价、医院管理和卫生决策提供参考。
利益冲突声明:本文全体作者均声明不存在利益冲突。