比真实数据还有效?训练 AI,硅谷早已用上了合成临床数据
文|vb 动脉网
【资料图】
NFT、Web3.0 后,硅谷最近抢起了生成式 AI。
当大语言模型(LLM)掀起的浪潮波及世界的每一个角落,越来越多的人相信,生成式 AI 赋予我们的不仅仅是单纯的交互——它能够作为一种新式的生产力,逐步颠覆我们的工作与生活。
最先嗅到变革趋势的是专注前沿科技的投资者们。硅谷 Fusion Fund 的创始合伙人张璐已经好久没有看到如此狂热的景象。作为最早投资 AI 在医疗领域应用的硅谷投资机构,Fusion Fund 过去几年一直对生成式 AI 的医疗应用领域有所布局,投资组合中包括 Huma.AI、深透医疗等优质医疗 AI 企业,有的被投企业早在两年前就已经与 OpenAI 有了诸多合作。
" 生成式 AI 的垂直领域应用,需要该行业拥有海量的高质量数据,才能最大化地体现它地技术实力。而医疗领域恰恰拥有海量的高质量数据,人类社会中大约 30% 的数据与医疗相关,是最大的品类,在此基础上生成式 AI 为医疗领域带来了巨大的机会。" 张璐说。
与诸多热门赛道不同,医疗领域表面上沉寂着数以亿计的大数据,但若落足于具体的临床场景,开发者时常会为数据的数量、质量与数据的获取成本发愁,尤其是在应用级临床 AI 的研发方向上,限制其发展的,正是医疗数据的稀缺性。
这一次,熟稔于绘图作词的文艺 AI 们,能否入驻医学专业,为临床 AI 的发展再注活力?
生成式 AI 赋能临床的两条路径
AI 的发展趋势大致可归纳为两个方向,一是单任务辨别式 AI 模型,单病种 AI 辅助诊疗、分类、检测等均是这类 AI 应用的典型例子;二是生成式 AI 应用,局域数据生成更高维度的信息,例如预测医学图像数据、生成健康报告等。
两个方向均依赖于临床数据进行模型训练,亦受限于临床数据的缺失。张璐表示:" 早在 2018 年前后,研发人员便尝试采用小样本学习、生成对抗网络(GAN)等方式弥补训练样本量不足的问题,也是从那时开始,生成式 AI 便已应用于医疗之中,只是如今它的定义更明确,强调在深度学习之上搭建 Transformer Model。"
以 Fusion Fund 投下的深透医疗为例,该公司的核心业务为利用 AI 加速 MRI、PET 成像速度,并提升成像质量,这个过程本身就是利用生成式 AI 处理原始数据获取合成数据,再根据合成数据重构 MRI、PET 影像。
"MR 临床扫描中的部分序列常常出现信噪比偏低、伪影明显等情况,影响最终影像的生成。发布于 IEEE 的研究 "One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer for Missing Data Imputation" 结果显示:在 AI 的支持下,通过 T1、T2 等现有图像间接生成新的图像(例如更高分辨率图像、其他对比度、模拟打造影剂的图像等),其效果甚至可以优于直接成像。目前,我们能将 MRI、PET 的成像过程提速 4-10 倍,并减少 10 倍造影剂的使用,基于更新生成式 AI 的模型也将不断提升产品性能 " 深透医疗 CEO 宫恩浩告诉动脉网。
" 此外,我们也在通过做一些 image degrader 的工作,把一些金标准高质量的图像变至更接近实际扫描获取的低质量图像,进而训练出新的模型。这种融合了多重数据的 diffusion model(扩散模型),它的效果要明显优于通过传统手段训练的模型。"
国内 AI 企业数坤科技则是将生成式 AI 用在了冠脉 CTA 的图像增强上。在与上海市第一人民医院的合作中,双方将 GAN 用于冠脉 CTA 图像后处理中,成功修复运动伪影,最终提高冠脉 CTA 的成像质量,使其诊断准确性达到冠脉造影的 " 金标准 " 水平。
定量分析结果显示,使用 GAN 技术修复运动伪影后的冠脉 CTA 图像质量显著高于修复前的冠脉 CTA 图像通常而言,需要 64 排及其以上排数 CT 才能完成心脏 CTA 扫描,而生成式 AI 可以让 32 排甚至 16 排的 CT 执行起 CTA 的扫描任务,取得满足医生诊断需求的影像。从理论上讲,这一技术赋能可以有效提高基层医疗服务能力及服务质量。
MR 同理,通过 AI 赋能,更普遍的 1.5T 设备或者低场便携设备大幅提升图像质量,实现 3T 等高端设备的诊断质量与扫描效率。
总的来说,生成式 AI 在单任务辨别式 AI 应用中的作用路径,均是基于原始数据生成合成数据,并将其应用于最终结果的生成,实现影像增强。同时,整个模型训练过程中,生成式模型可以同来进行数据扩充(Data Augmentation ) ,从而基于较小数据量以更快速度获取更为优质的图像,有利于研发人员开拓更多数据量相对缺失的场景。
相较于主攻分析能力提升的单任务辨别式 AI,生成式 AI 应用的能力则有一些超脱于当下医疗需求之前。举一个不那么恰当的例子:辨别式 AI 应用可以评估患者当下的健康状态,而生成式 AI 应用意在预测每一人身体的未来。
目前国内尝试生成式 AI 应用探索的项目非常有限。一个典型的例子是鹰瞳 Airdoc 与北京大学临床研究所、爱康集团开展的视网膜研究。通过观察 40 万人的视网膜血管和神经的发展变化,研究人员让生成式 AI 自学,去判断受检者接下来的发展变化,评估未来心脑血管病风险有多高。目前相关研究已发表在国际知名期刊《Science Bulletin》之中。
据鹰瞳科技表示,以生成式 AI 为基础的阿尔茨海默病风险预测、近视进展预测、帕金森风险预测同样处于研发之中。如果上述疾病能通过 AI 实现预测或早发现,及时的防治措施能够帮助大量患者规避疾病风险,避免后续漫长且不可控的治疗。
生成式 AI 能够生成临床数据吗?
既然单任务辨别式 AI 应用与生成式 AI 应用都在运算的过程之中使用了生成数据,那么我们是否也能像 AIGC 在金融、艺术中的应用中那样,直接生成医疗数据呢?
美国圣路易斯华盛顿大学医学院信息学研究所去年开启了一项基于生成式 AI 生成患者合成数据集的研究,意在为广大科技医疗研究人员提供更为丰富的数据,为各类医疗 AI 的研发提速。
该研究使用了以色列公司 MDClone 研发的生成式 AI 模型。MDClone 的系统与医院的 EHR 直连,可以抽取患者数据进行脱敏,把数据按照特定维度打散,再利用其自研的生成式 AI 模型进行重新组合。通过这一路径,MDClone 可以根据基于少量电子健康记录中真实的患者数据准确地生成大量合成数据,重建真实患者的特征。
在后续的研究中,相关人员将合成数据集与真实数据集置于三个特定任务下进行对比,分别为分析儿科创伤患者的死亡风险;预测哪些住院患者最有可能发生败血症;制作圣路易斯地区一年内按邮政编码划分的衣原体感染率地图。
该对比研究结果显示,合成数据分析的结果在统计上与真实数据的分析相似,各项数据集都得出了相同的结论。在绝大多数情况下,统计结果是相同的,只有在极少数情况下,真实数据集和合成数据集之间存在差异。
这一研究结果与深透医疗在影像加速中的研究结果方向一致。这也意味着,过去准备训练数据往往需要耗去研究人员数个月的时间,而在生成式 AI 模型的赋能下,研究人员可以在数小时至数日内建立、查询并下载自己的合成数据集。
此外,这一生成合成数据的方法还创造了一种严格的患者隐私保密方式。由于合成数据无法与真实的人和身份联系起来,医院或能借助这一技术将数据变为一种特定的资产,在不侵害患者隐私的前提下,最大化相关临床研究。
同样的逻辑亦可用于影像数据中。
在训练辅助诊断类人工智能的过程中,患者影像数据的不均匀分布常常会影响最终模型在实际应用中的效果。
以皮肤病 AI 为例,该 AI 在处理影像时需要同时计算多种皮肤病的概率,但由于人的皮肤肤质及患病类型并非均匀分布,仅考虑患病种类一个维度,湿疹、毛囊炎的数据频率偏高,银屑病的数据频率则会相对偏低。
常规算法可以虽然可以实现影像数据的合成,但其合成数据质量与真实数据质量存在差异,不能完全替代真实数据的价值。生成式 AI 的出现则补全了生成逻辑方面的缺陷,让生成数据不仅保有质量,还能加快生成过程,扩大生成数据的量级。
英伟达在影像类合成数据中早有布局。2022 年,英伟达与伦敦国王学院使用 Cambridge-1 超级计算机创建一套包含 10 万份大脑合成图像的数据集,借此训练 AI 应用以加快对于痴呆症、帕金森病及其他脑部疾病的理解。其生成逻辑与文本有相似之处,便是将真实数据拆分为素材,再通过特定逻辑的 AI 进行组合,进而解决数据量稀缺的问题。
合成数据的另一个潜在应用场景在于多病种判别式 AI 的审评审批。
多病种 AI 的临床试验设计是一个复杂的过程。譬如,多病种 AI(以 N=2 为例)在进行数据集构建与算法验证时,不仅需要构建病种 A 数据库与病种 B 数据库,还需要构建 A ∩ B 数据库,并需在模型之中添加医学知识,使其能基于医学原理解释交集数据的概率得出过程。
当病种数量较少时,构建融合数据库的难度尚且可控。而在当前审评审批逻辑下,病种数量一旦增多,各病种组合的样式及需要的数据集丰富程度则会呈指数趋势上升,数据不均匀分布导致的障碍也会进一步凸显。
譬如,糖网病变的 0 期、6 期患者数据天然较少,企业很难在真实世界中找到足量满足验证数据集要求的数据量。若将病种的组合考虑在内,相关数据收集复杂程度将急速扩增,最终变成一个现实之中无法解决的难题。显然,应用生成式 AI 对部分稀缺维度进行数据扩增有希望解决这一问题。
深透医疗已拿到 FDA、CE、NMPA 等各地认证,宫恩浩在采访中告诉动脉网:" 合成数据的应用贯穿 AI 应用全流程,FDA 有明确要求申报公司阐述清楚训练和测试用到的真实临床数据的数量和细节,但 FDA 没有对合成数据的使用量及使用环节进行明确规定。另一方面,影像增强过程中产生合成数据并以此重建影像与直接构建合成数据集进行 AI 训练两种方式存在差异,后一种方式仍然存在探索空间。"
中国人工智能医疗器械标准化技术单位及 NMPA 对于数据质控的标注制定及讨论同样走在全球前列,目标是针对训练数据、预训练、迁移学习等方面的建立完善的标准。如今生成式 AI 的进一步拓宽,或能加速相关法律法规及审评审批条款的制定,使多病种 AI 的审评审批获得理论与经济上的双重可能。
距离硅谷,我们还有多远?
近日,国家互联网信息办公室发布了一则关于《生成式人工智能服务管理办法(征求意见稿)》公开征求意见的通知,有意将生成式 AI 尽快纳入监管范围。
对于这项仍处于野蛮生长中的技术,有效的监管将为其带来更为良性的发展空间,也利于企业及早规避可能的政策风险。不过,要在国内全面推动生成式 AI 的发展,需要依靠不能只是监管。
" 任何技术创新都是由基础技术创新,到技术应用创新,最后带来商业模式的创新。目前国内的生成式 AI 发展与硅谷存在一定差距,既存在于模型方面,又存在于数据方面。在美国,以 OpenAI 为代表的科技公司已经完成了 GPT 模型、大语言模型(LLM)等基础设施的搭建,这意味着,美国已经进入到了创新的第二阶段——技术应用创新。" 张璐表示。
要追赶硅谷并不简单,一方面需要有科技公司完成基础模型的突破,让后进的创业公司们能够通过 API 去调用先进的模型;另一方面需要加速多模态数据的治理,为模型的专科化培养提供数据支撑。
回到国内,哪些企业能够承担风险扛起 AI 跨时代发展的责任?还需时间给出答案。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App
标签:
推荐
- 比真实数据还有效?训练 AI,硅谷早已用上了合成临床数据
- 托物言志的作文500字莲花_托物言志的作文500
- 实时:周五(4月21日)COMEX黄金最新库存量数据
- 一滴水可以活多久是童话吗_一滴水可以活多久_世界速读
- 镇海股份2022年度拟10派1.3元|全球信息
- 智能物流技术_对于智能物流技术简单介绍
- 环球观焦点:21深度丨28家、200亿,券商数字化超车竞赛
- 英格兰和威尔士的哪些地区的购房者负担能力提升最大
- 天天快看点丨北京市人民检察院发布白皮书:涉老字号知识产权案件占比较大
- 全球热讯:4月21日永钢出台4月下旬建材价格政策:螺纹价格下调100元
- 布鲁诺的故事简短 布鲁诺的故事|今日看点
- 主力复盘:7亿净流入船舶 13亿出逃中科曙光-天天短讯
- 陕西省定边县发布沙尘暴橙色预警
- 世界速讯:中秋节快乐贺词_关于中秋的祝福语
- 环球热头条丨把税费优惠好事办好
- 我国中东部将有大范围降水过程 强冷空气将影响中东部地区
- 环球热推荐:长峰医院事故初步调查结果:火灾已致29人遇难,系内部施工作业火花引发|快讯
- 世界实时:商汤集团赴龙元集团考察交流 将推进新基建、智慧园区等领域合作
- 捷尼赛思田胜:设计+服务加深用户认知
- 欧联-拉比奥得分+送点 尤文总分2-1葡体4强战塞维
- 讯息:乘网约车后发现价值15万元的大钻戒不见了!女子着急报警……
- 当前热门:北京危旧楼房改建政策出台 可适当增加厨房、卫生间面积
- 百人千车出发!“百里丹霞”风景道邀请大家来打卡-世界热讯
- “组团式”帮扶助力县级教育医疗事业发展
- 人在格中走 事在网中办|焦点热门
- 北京通报长峰医院火灾:39名伤病员仍在治,刑拘12责任人_天天快播
- 一季度农业农村经济运行情况:稳步提升粮食产能 全面推进乡村振兴
- 中国6G通信技术研发取得重要突破|天天热头条
- 世界视点!飞行近3分钟!“史上最强火箭”空中爆炸!马斯克第一时间“祝贺”
- 每日看点!蔡国庆真实身高资料_蔡国庆真实身高
- 今日南财市场情绪指数为40.3,市场投资热度明显降低
- 安徽:免费提供区块链存证加强版权保护
- 天天快播:河北阜城:篆刻演绎“荀派”经典剧目
- 系统卡顿通知误导 计生奖扶线上认证“太折腾人”
- 高层建筑发生火灾,如何正确逃生?|环球报资讯
- 环球新消息丨商务部:上周中国商务部有关负责人在京与美国商务部官员会面
- 宝鸡市列电中学_宝鸡列电中学网站-天天短讯
- 首届中国水上交通安全协会发展座谈会暨揭牌仪式在北京举行|全球快报
- 上海硕士夫妻双方被裁,中年危机到底应该怎么应对?
- 全球今热点:做深做细、做出实效、做出品牌!市区携手启动年轻干部双向培养工作
- 鲍威尔:太阳经验丰富,懂得防守吹罚的尺度,尤其是保罗-全球今亮点
- 市场监管总局公布“铁拳”行动重点 严打“刷单炒信”等8类违法行为-焦点快报
- 工信部支持湖北(襄阳)、浙江(德清)、广西(柳州)
- 当前关注:工信部:将制定实施重点行业稳增长的工作方案
- a lot怎么读_a lot的用法-环球快消息
- 山东政法学院深入推进“大思政课”建设高质量发展
- 免费!免预约!邀你在九棵树看露天电影,重温一代人的回忆_天天滚动
- 穿针器的历史 环球热闻
- 全球消息!国银金租(01606.HK)与漳州市九龙江集团订立融资租赁安排
- 焦点报道:火爆全网的七人即拼模式
- 全球动态:民建湖南省直工程支部考察湖南凯博杭萧建筑科技公司
- 《灌篮高手》上映,50万人冲进零点场的电影院
- 秦刚会见上海合作组织秘书长张明
- 【东海期货4月19日产业链日报】贵金属篇:美联储官员发言鹰派,金银震荡
- 他跌落神坛,男人的品性是开盲盒吗?-世界时快讯
- 精选!新人未出席婚礼,父母致辞20秒开席,亲友回应:新娘刚升职,他们都在北京“搬砖”,太忙了
- 「广东」廉江市兄弟棋楠沉香种植专业合作社未按规定报送年报被处罚 世界观察
- 一季度我国吸收外资同比增长4.9%
- 湖南2023一季度外贸规模不断扩大,出口增长70.8%-环球观热点
- 天天信息:“涂鸦秀”为校园添色彩
- 焦点精选!佛山高明盈香生态园园区地图(附高清大图)
- 世界快讯:当月重磅天津治疗生殖疱疹
- 世界观焦点:韶关武江区多举措做好企业年金备案工作
- 赢合科技:子公司斯科尔的电子烟业务在英国发展情况良好
- 天天观焦点:赵明诚:黄金低位V型反转,偏弱形态依旧尽显!
- 华为第20届分析师大会,孟晚舟分享数字化转型三个核心洞见 全球百事通
- 民生小案有真情 暖春凉茶慰人心
- 【环球新要闻】焦点访谈:“老广交”新成色
- 干预和插手项目招投标,攀枝花市西区林业局原党组书记、局长黄敏被“双开”-天天微资讯
- 天天快讯:邯郸植发医院有哪些
- 中国6G通信技术研发取得重要突破 相关概念股集体活跃
- 天天最资讯丨修真江湖2开局怎么玩 开局玩法详解
- 对话郑渊洁:维权太难了,我认输-天天新消息
- 天天看点:诚实守信、明码标价……海南向广大经营者发出六点倡议
- 我国艾滋病病毒感染者 目前我国艾滋病病毒感染者主要分布在城市
- 椴树蜜哪个牌子最好最正宗-世界微动态
- CAN隔离收发器不良品的损坏原因及解决方案
- 环球视点!在车速过快的情况下,误碰到电子手刹会怎样?开车的朋友可以来看看
- 信托公司增资申请获批_天天热议
- 创源股份: 关于公司2022年度利润分配预案的公告 焦点日报
- 韩国4月新增13例猴痘病例 疑似出现社区传播-天天实时
- 双卡双待新款手机最新价格(双卡双待智能手机大全)
- 当前关注:东风Honda全电动化产品阵容亮相上海车展 e:NS品牌第二弹新品全球首发
- 逼近定远!暴跌!定远人注意……
- mp3批量下载网站(mp3批量下载)
- 乙二醇期权和苯乙烯期权将于5月15日上市_世界观点
- 中国黄金投资金条价格今天多少一克(2023年04月20日) 全球快看
- 焦点热议:城乡居民医保缴费标准2023年是什么?2023年医保缴费时间截至到什么时候?
- 江西:促进中小微企业稳增长调结构 普惠小微贷款可提供激励资金
- 2023年国家助学贷款免息、本金可延期偿还|天天热点评
- dnf1点力量等于多少攻击_dnf1点力量等于多少物攻|全球最新
- 苍耳子香油治疗鼻炎偏方大全_苍耳子香油治疗鼻炎偏方
- 山西博物院邀您品读古叙利亚文明
- 全球通讯!3-1!樊振东逆转淘汰欧洲季军,完成12连胜,摆脱非法入侵案影响
- 浙商银行:拟发行2亿元超短融
- Pickering推出新的PXI多通道电池仿真模块 —— 仿真堆叠电压高达1000V
- 今日要闻!建设银行龙鼎金条价格今天多少一克(2023年04月20日)
- 十七冶河南大学项目部开展保密宣传活动|世界快消息
- 上海复旦大学继续教育学院学费_上海复旦大学继续教育学院
- 柠檬片怎么泡水好喝_柠檬片泡水好喝的方法|当前资讯
X 关闭
行业规章
X 关闭