上海团队与华盛顿大学联手:AI实现医!学图像精准识别突破,华盛顿大学交互

  更新时间:2026-01-17 01:39   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

研究结果显示Medal S在处理具有较大体积的多类别目标时表现尤为出色这些改进将使Medal S在面对更复杂Medal S可以同时处理24个不同的分析任务

<p class="f_center"><br></p> <p id="48DFR6RG">这[项由上海医?疗图像洞察(Medical Image Insights)团队的史鹏程、陈佳伟、刘佳琦、张星林,联合华盛顿大学的李雷、滑铁卢大学的陈涛以及西安交通大学的研究人员共同完成的重大研究,于2025年11月发表在arXiv预印本服务器上(编号:2511.13001v1)。有兴趣深入了解的读者可以通过这个编号查询完整论文。这项研究推出了一个名为Medal S的全新医学图像分割基础模型,它的特殊之处在于能够同时理解医生的文字描述和空间位置提示,就像拥有了既能"听懂人话"又能"看懂手势"的超级智能助手。</p> <p id="48DFR6RH">想象一下,当医生需要在CT或MRI图像中标记出肿瘤位置时,传统方法就像是闭着眼睛画画——只能听医生说"在肝脏附近有个阴影",但看不到医生手指指向的具体位置。而Medal S就像是给AI装上了一双能同时"听"和"看"的智能眼睛,不仅能理解"肝脏肿瘤"这样的文字描述,还能准确识别医生在图像上标记的具体区域。</p> <p id="48DFR6RI">研究团队发现,现有的医学图像分析方法存在一个根本性问题:要么只能理解文字描述却看不懂空间位置,要么能识别位置但理解不了复杂的医学术语。这就好比一个人要么是聋子要么是瞎子,总有一方面的信息缺失。更糟糕的是,当需要同时分析多个器官或病变时,传统方法必须一个接一个地处理,就像古老的打字机一次只能打一个字母,效率极其低下。</p> <p id="48DFR6RJ">Medal S的突破性创新在于它创造了一种"双语并行处理"机制。研究团队设计了一个巧妙的通道对齐系统,让文字信息和空间位置信息能够像两个配合默契的舞伴一样同步工作。当医生输入"请标记左肾结石"这样的文字描述时,Medal S不仅理解了"肾结石"的医学含义,还能同时处理医生可能提供的大致位置标记,两种信息相互验证、相互补充,大大提高了识别的准确性。</p> <p id="48DFR6RK">更令人惊叹的是,Medal S实现了真正的"多任务并行处理"。如果说传统方法是一个只有一只手的工人,必须先完成第一件工作再开始第二件,那么Medal S就像是拥有24只手的章鱼,可以同时处理24个不同的医学分割任务。实验结果显示,在处理24类医学图像分割任务时,Medal S的推理速度比传统的顺序处理方法快了10倍以上,这种效率提升对于需要快速诊断的临床环境来说意义重大。</p> <p id="48DFR6RL">研究团队在包括CT、MRI、PET、超声波和显微镜在内的五种不同医学成像技术上测试了Medal S的性能。结果显示,在验证数据集上,Medal S在多项关键指标上都显著超越了现有的最先进方法。具体而言,它的Dice系数达到75.44(相比SAT的69.83),归一化表面距离达到77.34(相比SAT的71.06),F1得分达到38.24(相比SAT的24.88),真阳性Dice系数达到65.46(相比SAT的46.97)。这些看似抽象的数字背后代表的是更准确的病变检测和更精确的器官轮廓识别。</p> <p id="48DFR6RM">为了解决医学图像中经常出现的"目标与背景比例失衡"问题,研究团队还开发了一种动态重采样策略。这就好比调整望远镜的焦距来观察不同大小的天体——当需要观察微小的病变时,系统会自动"放大"图像细节;当需要观察大型器官时,系统会适当"缩小"以获得全景视图。这种自适应调整机制确保了无论是微小的早期肿瘤还是大型器官结构,Medal S都能保持一致的高识别精度。</p> <p id="48DFR6RN">研究团队特别设计了两种工作模式来适应不同的临床需求。第一种是"纯文本模式",医生只需要输入文字描述,系统就能自动进行分析并不断自我优化,这种模式特别适合快速筛查和自动化分析。第二种是"混合模式",医生可以结合文字描述和手动标记,系统会综合这两种信息提供更精确的结果,这种模式更适合需要精确诊断的复杂病例。</p> <p id="48DFR6RO">在技术实现层面,Medal S采用了一种类似"两阶段精细加工"的策略。第一阶段进行粗略的全局分析,快速识别出可能的病变区域;第二阶段则在这些重点区域进行精细分析,确保不遗漏任何重要细节。这种策略既保证了分析的全面性,又大大提高了计算效率。研究表明,对于需要高精度分析的任务,这种两阶段方法能够在保持准确性的同时将计算时间减少60%以上。</p> <p id="48DFR6RP">Medal S的另一个重要特点是其强大的泛化能力。该模型在包含243个不同类别的大型医学图像数据集上进行训练,涵盖了从常见器官到罕见病变的广泛医学实体。这就像培养了一位见多识广的老医生,不仅对常见疾病了如指掌,对罕见病例也有足够的经验储备。</p> <p id="48DFR6RQ">研究团队还特别关注了系统的内存效率和推理速度。通过优化的文本预处理、两阶段推理策略和智能后处理技术,Medal S在保持高精度的同时显著降低了对计算资源的需求。这意味着该系统不仅适用于拥有高端设备的大型医院,也能够在资源相对有限的基层医疗机构中发挥作用。</p> <p id="48DFR6RR">在空间提示的有效性方面,研究团队进行了详细的对比实验。结果显示,当系统完全没有空间提示时,分割准确性为83.50;当使用第一阶段的预测结果作为空间提示时,准确性提升到83.98;而当使用真实的标准答案作为空间提示时,准确性可以达到87.23。这个渐进式的性能提升清楚地证明了空间提示信息的重要价值,也验证了Medal S能够有效利用这些额外信息来改善分析结果。</p> <p id="48DFR6RS">研究团队特别强调了并行处理相对于顺序处理的巨大优势。在处理24个不同类别的医学图像分割任务时,传统的顺序处理方法需要435.1秒,而Medal S的并行处理方法只需要40.63秒,速度提升超过10倍。更重要的是,随着需要处理的类别数量增加,这种速度优势会变得更加明显。虽然并行处理会消耗更多的内存资源(从9.49GB增加到12.5GB),但这种增加完全在可接受范围内,而时间效率的巨大提升使得这种资源消耗显得非常值得。</p> <p id="48DFR6RT">在定性分析方面,研究结果显示Medal S在处理具有较大体积的多类别目标时表现尤为出色。系统能够准确识别器官边界,捕捉结构细节,这得益于其通道对齐机制和原生分辨率处理能力。然而,对于一些小型病变,特别是在前景与背景严重不平衡或边界模糊的情况下,系统的表现还有改进空间。这些具有挑战性的案例通常涉及复杂的纹理和模糊的边缘,这也反映了医学图像分析领域的普遍挑战。</p> <p id="48DFR6RU">研究团队坦诚地指出了当前系统的一些局限性。在超声波图像处理方面,Medal S的表现略逊于传统的SAT方法,这主要是由于超声图像中目标与补丁的比例问题。这表明动态重采样策略还需要进一步优化,以更好地适应复杂的输入尺寸、间距和目标比例。研究团队表示,未来的工作将重点关注这些挑战性数据集的优化,特别是那些涉及小型病变、显著前景-背景不平衡或边界模糊的肿瘤数据。</p> <p id="48DFR6RV">在最终的测试集评估中,Medal S取得了58.06的Dice分数和59.11的归一化表面距离分数,都明显优于改进的基线模型SAT(分别为54.13和52.97)。这证明了Medal S确实是一个有前景的解决方案。不过,与当前领先的BiomedParse-V方法(74.97和77.47)相比,仍有一定的性能差距,这为未来的优化工作指明了方向。</p> <p id="48DFR6S0">Medal S的成功不仅在于其技术创新,更在于其解决了医学图像分析领域的一个核心问题:如何有效整合多模态信息以实现更准确、更高效的自动化分析。在传统方法中,文本信息和空间信息往往被孤立处理,就像两个不会交流的专家各自为政,无法发挥协同效应。Medal S通过其创新的通道对齐机制,让这两种信息源能够真正协同工作,相互验证和补充,从而达到了前所未有的分析精度。</p> <p id="48DFR6S1">从临床应用的角度来看,Medal S的意义远不止于技术层面的突破。在实际医疗环境中,医生经常需要在有限的时间内处理大量的医学图像,快速准确地识别病变位置和性质。传统的图像分析工具要么需要医生进行大量的手动标记,要么只能处理单一类型的任务,这大大限制了其在临床中的实用性。Medal S的出现改变了这一状况,它不仅能够理解医生的自然语言描述,还能快速并行处理多种类型的分析任务,极大地提高了诊断效率。</p> <p id="48DFR6S2">特别值得一提的是,Medal S的两种工作模式为不同的临床场景提供了灵活的解决方案。在急诊科或大规模筛查场景中,纯文本模式可以让系统快速自动分析大批量图像,及时发现可疑病变;在需要精确诊断的专科门诊中,混合模式允许医生结合自己的专业判断提供额外的空间提示,进一步提高诊断的准确性。这种灵活性使得Medal S能够适应不同医疗机构的具体需求和工作流程。</p> <p id="48DFR6S3">研究团队在系统设计中还特别考虑了可扩展性和实用性问题。通过支持多达243个不同的医学分类,Medal S几乎涵盖了临床实践中遇到的绝大多数情况。同时,系统的模块化设计使得未来添加新的分析类别或适应新的成像技术成为可能。这种前瞻性设计确保了Medal S不仅能解决当前的问题,还能适应医学影像技术的不断发展。</p> <p id="48DFR6S4">从技术发展趋势来看,Medal S代表了医学图像分析领域向更智能化、更人性化方向发展的重要一步。过去的系统往往要求用户适应机器的工作方式,而Medal S则试图让机器更好地理解和适应医生的自然工作习惯。这种以人为中心的设计理念不仅提高了系统的易用性,还减少了医生学习和适应新工具的时间成本。</p> <p id="48DFR6S5">当然,如同所有新兴技术一样,Medal S的广泛应用还需要经过更多的临床验证和优化改进。研究团队已经明确了未来的发展方向,包括进一步提高对小型病变的检测能力、优化动态重采样策略以更好地处理复杂的图像类型,以及扩大支持的空间提示类型等。这些改进将使Medal S在面对更复杂、更具挑战性的临床场景时表现得更加出色。</p> <p id="48DFR6S6">说到底,Medal S的价值不仅在于它在技术指标上的优异表现,更在于它为医学图像分析领域开辟了一条全新的发展路径。通过有效整合文本和空间信息,实现真正的多模态理解,Medal S展示了人工智能在医疗领域应用的巨大潜力。随着技术的不断完善和临床应用的深入,我们有理由相信,这样的智能分析工具将在提高医疗诊断效率、改善患者治疗效果方面发挥越来越重要的作用。</p> <p id="48DFR6S7">对于普通患者而言,Medal S这样的技术进步意味着更快的诊断速度、更高的诊断准确性,以及更好的医疗服务体验。当医生能够借助这样的智能工具快速准确地分析医学图像时,患者就能更早地得到正确的诊断和治疗,这对于那些需要早期干预的疾病来说尤其重要。同时,这种技术的普及也有助于缓解优质医疗资源分布不均的问题,让更多基层医疗机构能够提供高质量的影像诊断服务。</p> <p id="48DFR6S8">Q&A</p> <p id="48DFR6S9">Q1:Medal S与传统医学图像分析方法相比有什么突出优势?</p> <p id="48DFR6SA">A:Medal S最大的优势是能够同时理解文字描述和空间位置信息,就像给AI装上了既能"听懂人话"又能"看懂手势"的智能眼睛。传统方法要么只能理解文字却看不懂位置,要么能识别位置但理解不了医学术语。更重要的是,Medal S可以同时处理24个不同的分析任务,速度比传统方法快10倍以上。</p> <p id="48DFR6SB">Q2:Medal S在实际医院中能带来哪些具体改变?</p> <p id="48DFR6SC">A:Medal S能大大提高医生的工作效率和诊断准确性。在急诊或筛查场景中,医生只需输入简单的文字描述,系统就能快速自动分析;在需要精确诊断时,医生还可以添加手动标记获得更精准的结果。这意味着患者能更快得到诊断结果,医生也能将更多时间用于治疗决策而非图像分析。</p> <p id="48DFR6SD">Q3:Medal S目前还存在哪些限制?</p> <p id="48DFR6SE">A:Medal S在处理小型病变和边界模糊的肿瘤时还有改进空间,特别是在超声波图像分析方面表现略逊于某些传统方法。此外,虽然系统已经支持243个医学分类,但面对一些极其罕见的疾病时可能还需要进一步优化。研究团队正在针对这些问题进行持续改进。</p>

编辑:Selin Yeninci