医疗数据资产化还要跨越山海,专有大模型也并非举步维艰|行业风向标
如果2023年是AI大模型元年,那么,2024年就是AI大模型应用落地元年,规模庞大的医疗行业成为热门的应用场景,被大模型厂商纷纷押注。
MarketsandMarkets预测称,到2025年,全球医疗大模型市场规模将达38亿美元,到2030年,这一数字将超过100亿美元。这背后是医疗行业与大模型技术的高度契合性。
一方面,医疗盛产数据,这恰是大模型的核心“养料”;另一方面,医疗行业人员缺口大,更需创新技术快速填补。
数据显示,2010年至2020年的十年间,医疗数据以40%多的增长率快速增长,而中国存在至少近两百万的临床医护缺口,更有预测数据称,到2023年全球医护缺口将达1000万。
今年以来,国内的医疗专有大模型不断落地应用,并已经逐步进入医院场景,但这并未打消外界对于医疗大模型能力的疑问。众所周知,医院拥有最核心的医疗数据,但数据孤岛问题长期存在,而医疗大模型的能力优化离不开高质量数据“投喂”。
医疗数据资产化障碍重重
从“数据”被作为第五大生产要素,到“数据二十条”的出台和国家数据局建立,推动数据走向市场化并进一步成为数据资产和数据产品,是政策已经指明的方向,并已经取得阶段性成果。
就数据应用领域看,金融行业、互联网行业、通信行业数据交易规模占比各为35.0%、24%、9.0%,制造工业、政务及医疗健康行业数据交易情况相当,占整体市场6.0%-7.0%。
但具体到院内场景,仍然困难重重。在2024年西普会上,中国价格协会数据价格专委会健康医疗部主任冉闿睿指出,“数据要素x医疗健康”面临的困境包括低质、安全、估值、撮合四大方面。
当前,医疗健康产业数据交易规模较小,医疗数据的流通究竟有哪些障碍?
据冉闿睿介绍,医疗行业数据流通存在的问题包括医疗机构数据标准不一、医疗机构担心竞争力被削弱、个人隐私数据泄露和数据滥用风险增加,以及目前缺少可信安全的健康信息共享交易平台和有效规范的数据流通交易监管机制,数据流通收益不明,导致持续投入动力不足。
医疗健康数据的一大特点是有极强的隐私性,按照《中华人民共和国民法典》《中华人民共和国个人信息保护法》的规定,医疗健康数据属于敏感个人信息,数据泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害。
“障碍还是合规问题,医院历来对数据比较保守是有理由的,因为医疗类数据涉及到很敏感的个人信息,医院有理由重视但不激进,这是需要突破的点。”北京国际大数据交易所副总经理潘冲表示,医疗数据分级标准的制定是让医院放心拿出数据的一项举措。
他还指出,责任归属也是医疗数据难以流通的关键因素,以往的数据流通是谁提供谁负责,而现在倡导谁使用谁负责,或者制定具体的担责条件,这一改变会有助于清扫医疗数据流通的障碍。
而在医院数据被拿出来使用之前,其数据质量究竟如何也不被外界所知。
“数据领域内一个普遍的观点是,数据越用越好,充分的应用会让数据质量不断提升,数据从来不用,就成了数据垃圾。”进一步延伸至医疗数据领域,潘冲认为,随着医疗行业数字化推进,已经形成了数据,具备转化基础,但数据难出院,也让外界并不清楚院内数据质量究竟达到什么水平。
重压之下,医院与大模型厂商推进共研
到了医院端,庞大的数据也让其不堪重负,青岛数据资产登记评价中心主任赵传启指出,医院对数据的治理能力远跟不上数据资源的膨胀速度和市场需求。有北京大三甲信息科主任就表示,随着数据增多、精度越准,一次全周期数据备份需要半年时间,信息科数据负担正越来越大。
或许这也是医院端更加拥抱有着数据处理优的大模型厂商的因素之一。
此前,商汤医疗与包括瑞金、华西、新华、西京、中科大附属第一医院在内的头部医院达成合作,百度智能云与常州市第一人民医院、杭州全诊通签署战略合作协议,成立国内首家由市级公立三甲医院牵头的“大模型AI医疗应用创新实验室”,等等。
需要注意的是,医疗大模型落地医院场景的关键并不由模型本身决定,其能力的建设核心是数据集。专有模型厂商也一向被视为是医院数据最大需求方之一,目前,他们正在“曲线”达成目标,探索新的数据合作路径。
此前,百度大健康事业群策略研发总经理黄海峰提到,病例数据确实对模型打造比较重要,但部分医院对病例数据的权限把控严格,期待政策引导数据打。对于百度健康灵医大模型,他表示,“之前已在全国落地多家医院,其中和部分头部医院有深入合作,用脱敏后的医院数据做训练和学习,能够提升整个模型的能力。”
赵传启认为,一个值得探索的方向是,现在由卫健系统统一汇聚各大医院数据,先实现内部共享,再统一实现数据服务模式,会相对更容易实现,彼时,医疗数据既为老百姓服务,也依法合规的为各种应用场景和大模型服务。
数据合规“出院”前,医疗大模型并非无路可走。黄海峰也强调,病例数据是其中一环,但是书籍教材等权威性静态知识数据对于大模型训练来说,同样重要。换句话说,医院数据难获得,并不是决定医疗大模型能力的唯一因素。
医联集团副总裁、B端商业化负责人、投资并购负责人朱琳表示,医联MedGPT不会强调灌入了多少数据,而是追求精准,“医疗教材落后现有诊疗方案5至10年,指南落后2至3年,专家共识也会落后至少1年,最好的诊疗方案在专家的脑海里,我们的大模型是与40位专家合作,训练决策逻辑,目的是成为专家的‘分身’,保证准确度,提升模型的底层能力。”
不过随着医疗大模型入院后深入复杂专病场景,病例数据仍十分关键,但在医疗数据资产化之路缓慢推进之前,并非没有解决方案。
具体到专病领域,黄海峰也曾表示,病例数据获取成本和难度较高,而且业内也普遍认为病例数据体量如果没有达到足够量级,也有可能会被其他数据稀释。百度健康灵医大模型也在于医院包括科研机构推进合作,打造他们的专属大模型,其中就包括专病大模型。
目前,医联MedGPT重点是覆盖医院、药店、药械企业和体检机构。朱琳称,其大模型已经与头部医院达成合作,提供诊前预问诊、智能分导诊服务,如果医院需要做专科管理或筛查,将会以共研模式推进。
(作者丨杨亚茹 编辑丨曹晟源)