1f4f7

当医生有很多临床图片,能做AI相关课题吗?

2026/06/02 发布 2026/06/02

很多临床科室都有大量图片:内镜图、皮肤照、眼底照、超声截图、伤口照片、病理图、术中照片、口腔照片、宫腔镜图片、膀胱镜图片、鼻咽镜图片……

于是我们很自然会想:

“我有这么多照片,能不能做一个AI模型?”
“能不能预测疾病?”
“能不能预测疗效?”
“能不能发一篇机器学习文章?”

但临床图片不是“扔进AI锅里就能炖出论文”的原料。
一张照片不只是图像,它背后还有谁拍的、什么时候拍的、为什么拍的、怎么拍的、拍照前发生了什么、拍照后发生了什么

如果这些问题没想清楚,模型可能看似准确,实际却只是在识别“哪台机器拍的”“哪个医生拍的”“哪个病区流程更规范”,而不是识别真正的疾病。

这篇文章想用临床医生能理解的方式,梳理做临床图片AI研究前应该想清楚的几件事。


1. 先别问AI,先问:这张照片是怎么来的?

临床照片不是自然界随机出现的。它们来自某种工作流。

比如:

  • 皮肤科照片:可能由医生拍,也可能由患者手机拍;
  • 内镜图片:可能是术者在看到典型病灶时截屏;
  • 超声图片:可能是医生挑选“最有代表性”的切面保存;
  • 伤口照片:可能只有严重、复杂、长期不愈合的病例才会连续拍;
  • 宫腔镜图片:可能每个患者都按固定流程拍,也可能只在发现异常时多拍几张。

这就带来一个非常重要的问题:

照片本身不是单纯的“病灶记录”,它也是临床行为的记录。

换句话说,照片不仅反映疾病,也反映拍照者的习惯、设备、流程、患者选择和科室文化。

一个简单例子

假设某中心做胃镜时,资深医生习惯把可疑病灶拍得特别清楚,年轻医生则只随手截几张图。
如果训练AI识别早癌,模型可能学到:

“画面更清楚、更居中、更像教学图的,可能是早癌。”

这当然不是真正的疾病规律,而是拍照习惯造成的偏倚。

所以第一步不是建模,而是盘点图片来源

建议先问:

  1. 图片来自哪些设备?
  2. 是否跨年份、跨医生、跨病区?
  3. 每个患者拍几张?
  4. 是固定流程拍照,还是医生觉得重要才拍?
  5. 正常病例有没有同样拍照?
  6. 图片保存是否完整,还是只保存“典型图”?
  7. 拍照时是否已经知道初步诊断?
  8. 图片质量差的病例为什么差?是随机差,还是复杂病例更容易差?

这些问题看似琐碎,但它们决定了模型学到的是“疾病”,还是“工作流”。


2. 照片质量不是小事:模糊、反光、角度,本身就是偏倚来源

很多医生会说:

“质量差的图像剔掉就好了。”

这句话听起来合理,但要小心。

如果质量差是随机发生的,剔除影响不大。
但如果质量差集中出现在某类患者身上,剔除就会造成偏倚。

比如:

  • 肥胖患者超声图像更差;
  • 出血多的内镜图像更模糊;
  • 严重炎症导致视野浑浊;
  • 小儿患者配合差,照片更难标准化;
  • 病变位置隐蔽,照片角度更差。

这时,“剔除低质量图片”可能等于“剔除更困难、更真实的临床病例”。

建议做法

不要只写一句“剔除质量差图片”,而要设计图片质量分级:

质量维度 示例
清晰度 清楚 / 轻度模糊 / 严重模糊
遮挡 无遮挡 / 部分遮挡 / 严重遮挡
反光 无明显反光 / 轻度反光 / 影响判断
视野完整性 完整显示目标区域 / 部分显示 / 无法判断
标准切面或标准视角 是 / 否 / 不确定

这件事的意义不是为了追求完美图片,而是为了知道:

模型能不能处理真实临床世界里“不那么完美”的图片?


3. 人工标注、AI标注、深度特征:三种“读图方式”不是一回事

临床图片进入研究,通常有三种方式。

第一种:医生人工结构化标注

医生看图后,把所见变成结构化变量。

比如:

  • 息肉数量:单发 / 多发;
  • 皮损边界:清楚 / 不清楚;
  • 溃疡底部:清洁 / 渗出 / 坏死;
  • 内镜下炎症:无 / 轻 / 中 / 重;
  • 肿块形态:规则 / 不规则;
  • 血管表现:稀疏 / 丰富 / 异常。

这就像医生把“看图感受”翻译成表格语言。

优点是临床可解释。
缺点是耗时,而且不同医生可能不一致。


第二种:AI做结构化表型提取

AI不直接预测结局,而是先学会描述图片。

比如它输出:

  • 病灶大小;
  • 病灶面积比例;
  • 是否多发;
  • 是否边界不清;
  • 是否充血;
  • 是否水肿;
  • 是否有坏死;
  • 血管密度;
  • 颜色分布;
  • 纹理不均匀度。

这就像给AI安排一个“住院医任务”:

你先不要下最终诊断,你先把客观所见写清楚。

这种方式很适合临床研究,因为它连接了医生语言和机器语言。


第三种:AI提取深度特征

模型不告诉你它看到了什么具体结构,而是把图片压缩成一串数字向量。

可以把它想象成:

AI给每张图片生成一个“视觉指纹”。

这个视觉指纹可能包含颜色、纹理、边缘、形状、空间关系等信息,但它不一定能翻译成人类熟悉的词,比如“充血”“水肿”“坏死”。

优点是可能捕捉医生没注意到的复杂模式。
缺点是解释困难,临床医生容易不信。


4. 什么时候值得让AI读图?先看医生能不能稳定描述

不是所有图片任务都值得做AI。

可以按四种情况判断。

情况 例子 是否值得AI
医生容易稳定描述 单发/多发,左/右,是否有明显病灶 AI价值有限,可先人工标注
医生能描述,但主观性强 轻中重炎症、充血程度、水肿程度、边界不规则 值得AI标准化
医生难以稳定量化 面积比例、颜色分布、纹理复杂度、血管密度 AI很有价值
医生能做,但处理成本太高 4000例、每例10张图,需要全部结构化 AI可作为批量预标注工具

一个比喻

如果任务是“这张图里有没有一只猫”,人很容易做,AI只是省时间。
如果任务是“这只猫的毛色、体型、姿态、眼神、背景光线是否共同预测它的健康状态”,那就需要更系统的图像量化。

临床图片也是一样。

如果医生本来就能稳定、快速、低成本地描述某个特征,AI不是必须。
但如果医生描述不一致、不量化、不进入病历、不适合大规模整理,AI就有意义。


5. 图像标注有很多层级:不要一上来就说“训练AI”

“标注图片”也分层级,不同标注对应不同模型。

标注方式 医生做什么 适合回答什么问题 常见模型
图像级二分类标注 标记整张图:有病/无病 这张图有没有目标病变? ResNet, EfficientNet, DenseNet, ViT
图像级多分类标注 标记整张图属于哪一类 息肉/肌瘤/炎症/正常? ResNet, EfficientNet, ConvNeXt, ViT
框标注 用矩形框圈出病灶 病灶在哪里? YOLO, Faster R-CNN, RetinaNet
像素级标注 沿着病灶边界精细描出来 病灶面积、边界、形状如何? U-Net, DeepLabV3+, Mask R-CNN
分级标注 给炎症、充血、水肿打分 视觉严重程度如何? CNN分类模型,ordinal model
多实例标注 一个患者多张图,共同对应一个结局 患者层面风险如何? Multiple Instance Learning, attention pooling

最容易犯的错误

一个患者有很多张图,比如10张。
如果把这些图随机分到训练集和测试集,就会出现严重问题:

同一个患者的第1张图在训练集,第2张图在测试集。

这样模型可能不是在识别疾病,而是在识别同一个患者、同一台设备、同一场检查的视觉风格。

正确做法是:

按患者分组划分数据集。
同一患者的所有图片只能进入训练集、验证集或测试集中的一个。

这件事非常重要。


6. 图像研究的第一句话应该是:我的临床问题是什么?

临床图片AI研究最怕从技术出发:

“我有图片,所以我要训练CNN。”

更好的出发点是:

“我想回答什么临床问题?图片中哪类信息可能帮助回答这个问题?”

举例:

例子1:皮肤科

临床问题:这个皮损是否需要活检?
图片目的:识别边界、颜色不均、形状不规则、颜色数量、直径变化。
适合任务:图像分类 + 结构化表型提取。

例子2:伤口管理

临床问题:这个糖尿病足溃疡未来4周能否愈合?
图片目的:量化创面面积、肉芽比例、坏死组织比例、渗出情况、边缘上皮化。
适合任务:分割 + 面积计算 + 预测模型。

例子3:内镜

临床问题:某类病灶是否提示高风险病理?
图片目的:识别病灶形态、血管模式、表面结构、边界。
适合任务:检测/分类 + 医生结构化评分。

例子4:宫腔镜

临床问题:息肉切除后首次移植是否更可能临床妊娠?
图片目的:描述息肉数量、位置、基底、表面形态、内膜充血、水肿、炎症表现。
适合任务:先做结构化表型,再进入临床预测模型。

关键不是“AI能不能读图”,而是:

图片里的哪种信息,理论上和临床结局有关?


7. 不一定要让AI直接预测结局:可以先让AI做“临床所见翻译员”

很多临床图片研究一上来就想做:

图片 → AI → 预测治疗成功率

这当然可以,但并不总是最合理。

更稳妥的路线是:

图片 → AI提取结构化表型 → 与临床参数一起建模 → 预测结局

也就是说,AI不是“算命先生”,而是“翻译员”。

它先把图片翻译成医生能理解、模型能读取的变量,例如:

  • 病灶面积;
  • 病灶位置;
  • 颜色分布;
  • 血管丰富度;
  • 炎症分级;
  • 水肿分级;
  • 坏死比例;
  • 边界复杂度。

然后这些变量和年龄、实验室指标、治疗方案、病理结果等一起进入预测模型。

这样做有几个优点:

  1. 更容易解释;
  2. 更接近临床思维;
  3. 可以检验图像表型是否有增量价值;
  4. 不容易被质疑为黑箱;
  5. 方便后续标准化推广。

8. 回顾性照片和前瞻性照片,价值不一样

回顾性照片

优点:

  • 已经存在;
  • 样本量可能大;
  • 成本低;
  • 可以快速做初步研究。

缺点:

  • 拍照流程不标准;
  • 缺少正常对照;
  • 图片质量参差不齐;
  • 关键临床变量可能缺失;
  • 选择偏倚明显。

前瞻性照片

优点:

  • 可以规定拍照流程;
  • 可以规定拍几张、拍哪些角度;
  • 可以同步采集临床变量;
  • 可以预先定义结局;
  • 更适合验证模型。

缺点:

  • 时间长;
  • 成本高;
  • 需要伦理和流程管理;
  • 短期内样本量可能不足。

最理想的路径

第一步:用回顾性照片探索。
第二步:总结哪些图像特征有价值。
第三步:设计前瞻性标准化拍照流程。
第四步:验证模型是否真的可用。


9. 标准化拍照:不是为了好看,而是为了减少“模型被骗”

标准化拍照可以理解为给AI提供“同一种考试卷”。

如果每个医生拍法不同,就像有些学生拿到A卷,有些拿到B卷,有些拿到模糊复印卷。模型可能学到卷子差异,而不是题目答案。

标准化可以包括:

  • 固定拍照角度;
  • 固定距离;
  • 固定光源或设备参数;
  • 每个患者固定拍摄部位;
  • 每个病灶固定至少几张图;
  • 同时保存全景图和局部图;
  • 记录拍照设备和操作者;
  • 记录拍照时间点;
  • 记录治疗前还是治疗后。

前瞻性研究尤其应该这样做。


10. 隐私不是只遮住姓名:图片本身可能会识别人

临床图片的隐私问题很复杂。

有些图片明显能识别患者,例如:

  • 面部照片;
  • 口腔外观照;
  • 纹身;
  • 伤疤;
  • 身体特殊部位;
  • 带有患者姓名或编号的截图;
  • 影像图上的DICOM信息。

有些图片看似不能识别患者,比如内镜图、宫腔镜图、病理图,但仍然要注意:

  • 文件名是否含患者ID;
  • 图片角落是否有姓名或检查号;
  • 元数据是否含设备、时间、地点;
  • 罕见病或罕见部位是否可能间接识别;
  • 是否能通过检查日期和病区记录反推患者。

解决办法

  1. 去除图片上的姓名、ID、日期等文字;
  2. 去除EXIF或DICOM元数据中的身份信息;
  3. 使用研究编号替代患者编号;
  4. 建立单独的映射表,并加密保存;
  5. 限制访问权限;
  6. 伦理审批中明确图片使用范围;
  7. 对外共享时使用更严格的脱敏和协议。

重要平衡

图片脱敏不能把临床信息也删没了。

比如皮肤病照片,如果裁剪过度,病灶周围皮肤、部位、尺度都丢了,模型就无法学习。
所以隐私处理要兼顾:

既不能暴露患者身份,也不能破坏图像的临床意义。


11. 图片存储:今天能打开,不代表五年后还能用

临床图片AI研究很依赖长期、规范的数据管理。

需要考虑:

  • 原始图像是否保留;
  • 预处理图像是否另存;
  • 标注文件是否和图片对应;
  • 文件名是否稳定;
  • 是否记录拍摄设备;
  • 是否记录拍摄时间;
  • 是否记录患者级研究ID;
  • 是否有版本控制;
  • 谁能访问;
  • 是否有备份;
  • 是否允许未来二次研究。

建议至少保留三层数据:

数据层 内容
原始层 脱敏后的原始图片
标注层 医生标注、框标注、分割掩膜、质量评分
分析层 预处理图片、模型输入、提取特征、训练结果

不要只保存“模型用过的压缩图片”,否则以后别人很难复核。


12. 贡献给他人研究:共享图片不是发个网盘链接

如果未来希望把图片贡献给他人研究,需要提前设计。

应该考虑:

  1. 患者同意或伦理豁免是否允许数据共享;
  2. 是否只能院内使用,还是可以多中心共享;
  3. 是否允许商业用途;
  4. 是否允许训练AI模型;
  5. 是否允许公开发布;
  6. 是否需要数据使用协议;
  7. 是否有标准化数据字典;
  8. 是否有标注说明书;
  9. 是否记录图片来源和设备;
  10. 是否提供训练/验证/测试划分建议。

一个真正有价值的图像数据集,不只是图片多,还要有:

清楚的标签、清楚的来源、清楚的使用许可、清楚的数据结构。


13. 自己图片量不够怎么办?

很多临床医生会遇到这个问题:

“我只有几百张图,够不够训练AI?”

答案是:看任务。

如果只是做简单分类,几百例可能可以探索。
如果要训练复杂深度模型,通常不够。
如果每个患者多张图,还要注意“患者数”比“图片数”更重要。

解决思路一:迁移学习

迁移学习可以理解为:

让模型先在大数据里学会“看东西”,再来学你的专业任务。

常见做法是使用 ImageNet 预训练模型,例如 ResNet、EfficientNet、ConvNeXt 等。
但要注意,ImageNet是自然图像,里面是猫、狗、汽车、房子,不是内镜、皮肤镜或病理图。

所以它能提供的是通用视觉能力,不是专业临床理解。

解决思路二:领域预训练

如果有大量同领域图片,即使没有结局标签,也可以先让模型学习这个领域的“视觉语言”。

比如宫腔镜图片,不一定每张都有IVF结局,但它们都能帮助模型熟悉:

  • 宫腔镜视野;
  • 光照和反光;
  • 内膜纹理;
  • 液体环境;
  • 病灶边界;
  • 内镜角度;
  • 图像噪声。

这就像医学生先看大量正常和异常图片,先熟悉“这个领域长什么样”,再学习具体诊断或预测任务。

解决思路三:自监督学习

自监督学习可以理解为:

不用老师给答案,模型自己做练习题。

比如把一张图片遮住一部分,让模型猜被遮住的部分;或者给同一张图片做不同变形,让模型知道它们其实来自同一个对象。

它适合医学图像,因为医学图像常常很多,但精细标签很少。

参考阅读:
Self-supervised learning for medical image classification, npj Digital Medicine, 2023

解决思路四:找公开数据或联系作者

可以用关键词搜索:

  • disease name image dataset
  • organ name endoscopy dataset
  • clinical image dataset
  • medical image segmentation dataset
  • AI medical imaging GitHub
  • hysteroscopy image dataset
  • dermoscopy image dataset
  • wound image dataset
  • fundus image dataset

常见来源包括:

  • 论文补充材料;
  • GitHub;
  • Kaggle;
  • PhysioNet;
  • The Cancer Imaging Archive;
  • Grand Challenge;
  • 医学影像AI竞赛平台;
  • 直接联系论文作者。

但要记住:

公开数据能不能用,不只看能不能下载,还要看许可、伦理、任务是否匹配、图像来源是否接近你的临床场景。


14. 用监督学习,还是无监督学习?

监督学习

监督学习就像老师批改作业。

你给模型图片,同时给答案:

  • 这张是息肉;
  • 这张是正常;
  • 这个区域是病灶;
  • 这个患者后来临床妊娠;
  • 这个患者没有临床妊娠。

模型学的是:

图片和答案之间的关系。

适合任务:

  • 分类;
  • 检测;
  • 分割;
  • 结局预测。

缺点是需要高质量标签。


无监督学习

无监督学习就像让模型自己把照片分堆。

它不知道答案,只是根据图片相似性,把图分成几类。

比如它可能把图片分成:

  • 颜色偏红的一类;
  • 表面不规则的一类;
  • 反光强的一类;
  • 视野浑浊的一类。

问题是:这些类别不一定有临床意义。

所以无监督聚类常适合探索,但不适合一上来就宣称发现了“新分型”。

更稳妥的说法是:

探索性识别图像表型群,并评估其与临床变量和结局的关系。


自监督学习

自监督学习介于两者之间。

它不需要人工答案,但会设计“预训练任务”,让模型学习图像结构。
之后再用少量有标签数据进行微调。

它特别适合:

图片很多,标签很少。


15. 图片样本量到底怎么算?

临床医生容易说:

“我有1万张图。”

但模型真正关心的常常是:

“有多少个独立患者?”

如果1000个患者,每人10张图,那是10000张图,但不是10000个独立样本。

患者级结局预测

如果结局是患者级的,比如妊娠、复发、死亡、治疗反应,那么样本量主要看患者数和事件数。

例如:

  • 800个患者;
  • 临床妊娠300例;
  • 未妊娠500例。

这时事件数大约是300,而不是8000张图。

图像表型训练

如果任务是识别图片中的结构,比如息肉、溃疡、肿块、炎症区域,那么图片数和标注数也很重要。

例如:

  • 4000例患者;
  • 每例8张图;
  • 共32000张图;
  • 其中5000张有框标注;
  • 其中1000张有像素级分割。

这可以支持图像识别模型训练,但仍然需要患者级划分。

样本量和任务复杂度有关

任务 样本量需求
医生人工结构化评分后做传统预测模型 相对较低,主要看患者数和事件数
图像二分类 中等,需要足够阳性/阴性图片
病灶检测 更高,需要框标注
像素级分割 更高,需要精细标注
端到端从图片预测远期结局 通常最高,且最容易过拟合
自监督领域预训练 图片越多越好,可以利用无标签图片

所以不要只问“图片有多少”,而要问:

我的任务是什么?标签是什么?结局是什么?独立患者有多少?阳性事件有多少?


16. 一条更适合临床医生的图像AI研究路线

如果你是临床医生,手里有一批图片,我建议按这个顺序思考:

第一步:定义临床问题

不是“我要做AI”,而是:

我想预测什么?诊断什么?分层什么?辅助什么决定?

第二步:定义图片里的临床假设

问:

图片里的哪些所见可能和这个问题有关?

例如大小、位置、颜色、边界、血管、坏死、炎症、面积、数量、纹理。

第三步:先做人类结构化标注

让医生把图像所见变成表格变量。
这一步可以暴露很多问题:

  • 哪些变量医生一致性高;
  • 哪些变量太主观;
  • 哪些变量没有临床意义;
  • 哪些变量很难定义。

第四步:再决定AI要学什么

AI可以学:

  • 识别病灶;
  • 框出病灶;
  • 分割病灶;
  • 给严重程度分级;
  • 提取连续量化特征;
  • 生成结构化图像表型。

不要一上来就让AI预测最终结局。

第五步:建立临床预测模型

把图像表型和临床变量结合起来,比较:

  • 只有临床变量;
  • 临床变量 + 医生图像表型;
  • 临床变量 + AI图像表型;
  • 临床变量 + 深度图像特征。

这样才能回答:

图片到底有没有提供额外价值?

第六步:验证模型

至少要做:

  • 患者级划分;
  • 内部验证;
  • 校准评估;
  • 决策曲线;
  • 亚组分析;
  • 有条件做外部验证。

如果是临床预测模型,可以参考:
TRIPOD+AI statement, BMJ 2024

如果是医学影像AI报告,可以参考:
CLAIM checklist for AI in Medical Imaging

如果要评估预测模型偏倚,可以参考:
PROBAST+AI, BMJ 2025

如果AI已经进入早期真实临床评估,可以参考:
DECIDE-AI guideline, BMJ 2022


17. 最后:临床图片AI的核心不是“模型多高级”,而是“问题有没有被说清楚”

临床图片AI研究最常见的失败,不是因为模型不够高级,而是因为问题没有想清楚:

  • 图片为什么被拍?
  • 谁拍的?
  • 拍了哪些病例?
  • 没拍哪些病例?
  • 图片质量差的患者去哪了?
  • 标签是谁标的?
  • 医生之间一致吗?
  • 同一患者多张图有没有泄漏到不同数据集?
  • 图片特征和临床结局之间有什么合理假设?
  • 模型到底要辅助哪个临床决定?
  • 图片是否真的比现有临床变量提供更多信息?

如果这些问题没回答,再复杂的AI也只是“漂亮但脆弱”的模型。

临床医生做图片AI研究,最好的起点不是问:

“我能不能训练一个深度学习模型?”

而是问:

“这些图片记录了什么临床所见?这些所见能否被稳定、量化、结构化?它们是否真的能帮助回答一个重要的临床问题?”

当这个问题回答清楚了,AI才真正有用。

还没有评论,赶紧评论下,抢个沙发?