侯丹
上海达谋智能科技有限公司 200000
摘要;科研水平的高下是区分医院质量和竞争力高低的重要因素,传统的科研开展的方式和效率显得越来越不能适应大数据和人工智能时代的到来,因此医疗机构,尤其是高水平医院非常需要构建一套依托医院自身医疗数据高效率高质量的建设数据智能算法训练平台支撑高水平的科研开展。本文介绍了作者参与多家医疗机构的科研大数据平台和专科病种数据库建设的体会,并针对当下各地医院在建设提升自身的医疗数据智能化水平中面临的问题和开展过的工作,提出了自身的见解,并结合自身的工作经验,提出了高水平医院医疗数据智能算法训练平台的详细建设路径思路,并提供了建设重点的切入点,适用于医院加以建设,并支撑广泛的实际应用场景。
关键词:医疗数据智能算法训练平台、数据治理;模型平台;AI融入CDSS;反馈闭环
1 医院科研数据平台建设状况
1.1 科研数据中心建设背景
随着医院数字化建设的发展,医疗信息数据量正在急剧增长。诊疗、检验、影像、病理等业务产生了大量医疗数据,基于真实世界的大数据研究分析成为了当下业界关注的热点。然而80%的临床诊疗数据为非结构化数据,无法直接分析应用,导致医院积累的宝贵经验没有得到高效的积累和分享,医疗证据没有得到合理的应用。另一方面,当下“以科研促临床”的意识越来越普及,尤其是在全国各地广泛开展高水平医院建设的过程中,临床医疗科研工作被赋予了极其重要的地位。科研氛围和科研成果已经广泛成为了区分医院质量和竞争力高低的重要因素,同时也是考评医生水平高低的关键指标。
为了更好的开展临床及科研工作,推动规范化、个体化、精准化医疗的发展,各级医疗机构,尤其是高水平医院,建设医疗大数据管理平台势在必行。通过现代化技术对医疗大数据进行管理、分析,将医疗数据沉淀的价值释放,助力医疗事业的发展。
1.2 科研数据平台建设的主要方式
基于这样的原因,许多医院前期已经开展建设了科研数据中心,主要都是通过对医院既往多年所沉淀的历史数据进行后结构化数据治理。
笔者过去数年的工作经验中,也参与了多家国内百强医院的全院通用科研数据中心和重点专科专病种数据库建设,基于Trie树结构,进而实现高效的词图扫描,通过独创与优化的医学智能语言识别技术,生成医疗模板和自由撰写文本中,中文文书所可能成词情况构成有向无环图(DAG),通过动态规划查找最大概率路径, 找出基于词频的最大切分组合。在通用中文处理模型基础上,结合医院自身的病例模版、科室定制的临床知识点、国际诊疗指南等制定的医学字典库,对所有医疗文本数据:入院记录、病程记录、术前小结、手术记录、出院记录、死亡记录、临时医嘱单、长期医嘱单等进行自动后结构化处理,挖掘出所有有价值的科研数据点。最终产生结构化以及量化数据,实现了高准确率的结构化转化,大大减轻了临床医生以及科研助理人员的数据采集整理工作,可直接进行分析、运算、建模等。
2 科研数据中心建设存在的问题:
尽管相当数量的各等级医疗机构都一定程度的实现了前述的一些专科病种的建设,但其建设成果往往不甚理想,究其原因存在如下的一些原因:
2.1 进行数据汇聚难
系统繁杂,数据分散,原始数据手写和电子混杂,质量不高,非结构化,非标准化,价值密度低;尽管有了科研数据平台的雏形,以及相当程度准确率的专科病种数据库,但真正去到科研课题与项目所需的精细颗粒度数据,仍然为人工收集录入;因此其工作枯燥,工作量大,工作效率低下;数据重复利用率低,根据项目依据课题,反复填写和整理数据;尤其文本数据和影像数据在医院信息系统内绝大多数情况分属两个管理体系,因而在数据汇总方面往往处于脱离的状态。
2.2 形成科研成果难
医疗数据的所有权和安全性成为高质量科研开展中的巨大瓶颈;要开展人工智能机器学习学科交叉的科研难度较高,需要知识体系不同的医学、数学、统计学、计算机科学等多样化的人才参与,但医疗机构常态化的工作中完全不具备这样的人才组织形态,如果一切项目都跟随各类科研课题开展的话,则带来发展慢周期长的问题,跟不上整个时代的快速发展;此外临床询证医学的理论体系与科研论文的同行评议制度对人工智能AI理解,同机器学习的工作方式以及产生的黑盒结果的不可解释性差异明显,这些都带来科研成果得到认可的难度变得更大。
2.3 进行临床转化难
论文好不容易形成的知识,停留在论文的纸面上,自己发现的规律与经验,无法成为一个可用的流程和评估系统,因而难以转化到临床的常态化使用,更不用说了,缺乏持续的系统迭代和系统使用反馈闭环;人工智能AI难于融入医院业务流程中的CDSS临床决策辅助过程。
2.4 数据源头收集难
科研工作的开展与算法模型的训练所依赖的重要基础是高质量的医疗数据,尽管各医院的信息系统中已经沉淀了相当数量的医疗数据,但由于临床病历的书写过程并未对科研所需的数据点进行完整的收集,导致科研数据中心的数据源头质量不高。
2.5 工作重心兼顾难
从普通的医疗数据转化为高价值的医疗数据资产是一个需要技术与管理双管齐下的过程,建立的过程需要医院各部门诚心静气紧密协同加以完成,然而客观的过程中,由于各个部门临床工作、管理工作、服务工作的繁忙,如果沉淀的数据不能够带来直接的科研价值或管理价值时,大家的工作重心很难调剂。
尽管仍然存在上述的诸多困难,但计算机技术的发展已经将人类的时代推到了人工智能的前沿,各医疗机构如果不能尽早构建医疗大数据的分析管理平台,在医疗AI深度学习的训练和应用方面提早布局,那将会滞后于智慧医院时代的医疗人工智能的发展。
3 解决路径
笔者认为,许多医院经过多年的建设,都有着良好的信息化建设根基,在临床数据中心和科研数据中心的基础上,建立并细化至专科病种数据库,沉淀精准的医疗大数据,建立各自医院自身的模型平台,应当是适合的建设路径。进而实现基于标准化数据支撑的医疗模型训练,进行临床决策支持、科研辅助,并进一步支撑医院管理,提高工作效率、诊疗质量和科研水平。
综合当前各医院信息系统的实际建设的情况,为了提升科研数据中心及算法模型训练建设的质量,可以通过如下的一些方式和步骤开展相关工作,以逐渐减少和化解前面提到的各个方面的困难:
3.1 利用已有数据,开展模型训练
尽管每个人都清楚数据的重要性,但使用者关心的并不是数据本身,而是数据带来的结果。因此建设各医院自身的模型训练平台,以医院各个专科病种自身的数据进行各种类型的模型训练,调动临床医生的积极性,优先选取有一定质量的已有数据,发挥主观能动性,将临床工作中的决策辅助支持类预测事件进行主动的抽象,确定所需研究的临床终点事件,主动整理用于训练AI的数据,并利用平台提供应用工具,得出符合病种训练要求的算法模型,并在临床实践中加以应用和修正,使其感受到数据的应用价值,为临床工作带来的价值。
3.2 医工协作结合,支撑科研成果
利用形成的算法模型,支撑各个专科病种开展科研项目的研究。其中回顾性科研的开展包括将训练完成的算法用于已有的数据的推理验证,通过将医院系统中既有的数据进行训练集、测试集、验证集的区分,则可较快得出模型的准确性和价值,得以发表包括SCI文章在内的各种论述。还可以对前瞻性的科研开展设计,比如针对某特定病种手术的死亡风险、并发症风险以及复发风险进行模型训练,并对未来一段时间的一批患者进行上述风险的预测并加以记录,之后与患者实际的手术结果、预后以及转归进行对比,如能得出较高的准确率(如高于当前业界水准10个百分点以上),则可申请发表较高影响因子的SCI高水平文章。笔者曾参与过某医疗机构基于MRI影像检查的鼻咽癌淋巴结转移识别,通过使用多种卷积神经网络框架进行建模,并对比该领域的业界水准,从而将课题设计与调优后的模型进行论文撰写,发表了较高影响因子的SCI文章,得到了行业认可。
3.3 融入信息系统,提高科研转换
上述依托临床实际数据训练的模型,尽管客观上会存在数据量不足够多而导致的模型准确度不够高、鲁棒性不够强、或者过拟合等现实的情况,但其最大的价值在于两个方面:一是因为模型来源于医院自身的平台,所有模型可以迅速融入信息系统,医生的日常决策立刻可以使用到模型加以开展,科研与临床的转换应用顺畅,无论从提升治疗的同质化水平还是从质控的角度而言,都可帮助临床专科提升全科的医疗决策水平;二是可以依托在这些模型的预测结果上形成医生团队有价值的反馈闭环,提升模型的准确性;而当逐渐应用于更多的患者,纳入更多的训练数据时,模型可以不断的提升性能,进一步的迭代,越来越准确,形成良性的循环。
3.4 重点路径突破,形成示范效应
可以选择从特定的病种或诊疗阶段入手,如从围手术期的医疗决策模型训练启动相关工作,外科围手术期死亡率为0.24%~10%,如何提高围术期患者的生存率、生存质量、满意度等,一直是围术期研究的热点。因此考虑利用人工智能技术,选取围手术期这一特定阶段,进行分病种的智能决策辅助系统训练与建设,出具智能诊疗建议,识别潜在的影响预后的高风险因子加以关注,符合各医院发展建设高水平医院的各相关科室(临床、科研、医务、信息)的诉求,也易于树立典型效果,形成示范效应。
3.5 改变临床认知,自发提升数据质量
当产生于医院医疗团队内部自身的各种训练的人工智能AI模型融入进CDSS临床决策辅助过程,带来临床决策治疗同质化水平的提升、医疗质控提升、科研成果的逐渐显现,形成全院对数据质量的重视,后期容易取得全院对高数据质量的全院共识,从而倒逼原始数据质量的提升把好数据源头。通过将前结构化报告、表格式病历、合规的文本模板等技术形式在包括移动医生APP在内的医生工作站上实现,同时后台叠加自然语义识别的后结构化处理,二者的融合可以在临床工作的过程中间就适度、合理、针对性地汇聚必要的患者群体的高质量数据,为高水平的开展打下基础。
4 数据智能算法训练平台可支撑的应用场景
人工智能AI模型训练及应用可以应用于医疗过程的如下场合:
4.1 治疗决策方案推荐
结合具体疾病的临床治疗路径国际/国家指南,专家共识等,对每一患者具体治疗方案给出建议,供临床医生决策;
4.2 手术风险、术中用药、手术疗效等预测
通过对患者术前信息,麻醉诱导期间数据和术中生命体征数据、术后诊疗数据的分析,建立病情-麻醉-手术三位一体的决策支持系统,可对术前评估、术式选择、术中麻醉维持、术后并发症等进行精准预测。通过AI辅助,临床医生对患者精准评估,及时调整麻醉方案、手术方式等,制定精准围术期管理策略,从而减少相关疾病的术后并发症与死亡的发生,提高手术质量,改善预后。
4.3 预后转归预测
基于根据患者疾病分期、辅助检查结果、治疗方案、术后的机能状况、随访数据等综合数据,对疾病转归进行分析。
5 依托数据智能算法训练平台形成算法模型的典型示例
5.1 课题方向(建模方向)选择
以一个典型需要开展手术治疗的疾病XX为例:针对该疾病治疗所最关心的三个(3)不同的临床终点事件Y1(是否死亡)、Y2(是否再手术)、Y3(是否严重并发症),由对应科室整理相关数据(整理数据过程由三方面结合完成:1、科室既有的临床科研文章发表数据;2、现有的正在为某疾病准备的以EXCEL为代表的数据统计表格;3、医院正在建设中的科研数据中心)。
5.2 数据关系厘清
根据该疾病预测需求,分别选取术前、术前+术中、术前+术中+术后等三个(3)不同的时间阶段的患者数据,并将数据分为训练集和验证集,并对其采用有交叉验证和无交叉验证的两种(2)方法进行预测模型的训练及生成,共生成共18个预测模型(3×3×2=18)
5.3 模型结果应用
根据模型学习的结果,可以得出针对该疾病的不同阶段,不同终点事件的预测模型,进而可以将模型的具体性能与真实的患者数据情况加以对照和评价,其使用的汇总统计结论可供临床科室进行回顾性科研课题、前瞻性科研课题的研究;对每一个患者加以同质化的诊疗流程和手段将有助于实现规范化诊疗质控;一定程度得到验证的模型可以被信息科纳入融和到CDSS临床决策辅助的智慧医院建设过程中;因此模型平台的建设对医院有着若干个方面的应用价值。
6 结论与建议
综上所述,信息化建设已迈入智能化建设的新时代,打造智能化的临床辅助决策支持系统将会是今后医疗信息化建设的一个重要方向。从“治理好数据”到“利用好数据”,将计算机科学、统计学理论、人工智能深度学习等技术与临床知识充分结合,是建设好数据中心和模型平台的最重要初衷。运用人工智能技术,从真实世界中挖掘出有价值临床数据,并有机地整合权威的循证医学知识库和规则引擎,打造人工智能AI决策辅助动态融入CDSS的形态,才能真正实现将“知识”持续不断的转化为“决策”,作为提升诊疗效率和医疗质量重要手段。
未来是人工智能深入融合到各行各业的发展态势,医疗也是如此,因而依托医疗机构既有的数据收集体系,进一步采用以自然语义识别(NLP)为代表的的后结构化治理方式和融入医疗流程的专病种数据库前结构化表单填写的前结构化采集方式,沉淀出全面性好、连贯性好、标准化程度高、结构化程度高的数据体系是医院迎接和拥抱人工智能时代的必经之路。自主规划、掌握主动、及早建设、及早收效,发展将有助于各医院在智慧医疗与人工智能逐渐进入医疗市场中赢得先机。
参考文献:
[1] 朱文珍,胡琼洁. 人工智能与医学影像融合发展:机遇与挑战[J]. 放射学实践,2019,34(9):938-941. DOI:10.13609/j.cnki.1000-0313.2019.09.001.
[2] 袁紫旭,徐挺洋,姚建华,等. 人工智能在恶性肿瘤诊治中的应用[J]. 中华实验外科杂志,2019,36(2):203-207. DOI:10.3760/cma.j.issn.1001-9030.2019.02.002.
[3] 王晨希,王浩,王权,等. 医学人工智能产品的网络安全探讨[J]. 中国医疗设备,2018,33(12):22-25,30. DOI:10.3969/j.issn.1674-1633.2018.12.006.
[4] 刘志先. 基于智能医疗的诊断大数据自动分析系统研究[J]. 现代电子技术,2020,43(10):184-186. DOI:10.16652/j.issn.1004-373x.2020.10.049.
[5] 曾一昕. 基于人工智能的医疗数据分析及预测研究[J]. 中国科技纵横,2018(22):28-29. DOI:10.3969/j.issn.1671-2064.2018.22.014.
[6] 刘伶俐,王端. 人工智能在医疗领域的应用与存在的问题[J]. 卫生软科学,2020,34(10):23-27. DOI:10.3969/j.issn.1003-2800.2020.10.005.
[7] 胡佳迎,钟臻,侯佳音,等. 面向区域医学影像共享平台的AI服务建设[J]. 中国数字医学,2020,15(12):110-112. DOI:10.3969/j.issn.1673-7571.2020.12.031.
[8] 王海旭,陈艳萍,赵凯. 中国人工智能医疗产业发展的现状及国际经验借鉴[J]. 卫生经济研究,2020,37(9):9-11,15.
[9] 刘道文,阮彤,张晨童,等. 基于多源知识图谱融合的智能导诊算法[J]. 中文信息学报,2021,35(1):125-134.
[10] 周吉银,刘丹,曾圣雅. 人工智能在医疗领域中应用的挑战与对策[J]. 中国医学伦理学,2019,32(3):281-286. DOI:10.12026/j.issn.1001-8565.2019.03.01.
[11] 赵阳光. 医疗人工智能技术与应用研究[J]. 信息通信技术,2018,12(3):32-36. DOI:10.3969/j.issn.1674-1285.2018.03.007.
[12] 王若佳,魏思仪,赵怡然,等. 数据挖掘在健康医疗领域中的应用研究综述[J]. 图书情报知识,2018(5):114-123,9. DOI:10.13366/j.dik.2018.05.114.
[13] 厉杰,章富荣. 人工智能提升我国医疗效率的机遇与挑战[J]. 江南论坛,2020(10):30-32.
[14] 安海宁,唐雄风,曹彦龙,等. "智医慧影"——面向基层医疗的多功能辅助诊断平台[J]. 物联网技术,2021,11(4):3-4.