问题:临床科研“缺数据”与“用不了数据”并存 肿瘤研究与新药临床试验高度依赖大规模、多模态的真实世界数据,包括影像、病理切片、检验指标、病程随访以及组学信息等。然而实践中——医疗数据虽然产量巨大——却常常被“锁”在不同机构、不同系统与不同标准之间。隐私保护法规持续完善,使跨机构共享面临更高合规门槛;同时,数据脱敏、清洗、标注与结构化成本高,更抬高了科研使用门槛。由此产生的直接矛盾是:研究问题越来越精细,样本规模与外部验证需求越来越高,但可获得的高质量数据却难以同步增长。 原因:制度约束与技术鸿沟叠加,催生“替代性数据”需求 一上,隐私保护与伦理审查要求不断强化,传统“拿到数据再研究”的路径受到限制;另一方面,医疗信息化长期存在系统割裂、编码不统一、质量参差不齐等问题,导致同一疾病在不同机构数据口径不一致,增加了共享与复用难度。此外,肿瘤学研究强调分层治疗与精准决策,罕见亚型、少数群体样本本就稀缺,进一步放大了“样本不足—结论不稳—外部难证”的循环。在该背景下,能够在不直接暴露患者信息前提下复现统计规律的合成数据,被视为缓解瓶颈的潜在工具。对应的综述由德国德累斯顿工业大学团队系统梳理了肿瘤研究中合成数据的生成路径、评估标准与应用边界,并提示当前仍处在从探索走向规范的关键阶段。 影响:从“训练数据补充”走向“试验设计创新”,但可靠性是核心门槛 综述认为,合成数据并非单一形态,可覆盖医学影像、结构化表格、时间序列以及临床文本等多类数据。不同模态决定了不同建模难点:影像强调空间细节与病灶特征一致性;表格数据强调变量间相关结构与分布稳定性;时间序列需要保持病程演变与治疗干预的因果线索;文本则涉及术语一致性与可追溯语义。相应地,生成式对抗网络、变分自编码器、扩散模型等方法各有侧重,基础模型也在推动跨模态合成与复杂临床数据建模。 在应用层面,合成数据正被用于三类典型场景:一是作为公开数据资源,支持算法训练、方法学验证与基准测试,缓解数据集中于少数机构的格局;二是用于“增强”小样本研究,如合成病理或影像样本补齐训练集,提升诊断与分型模型的稳健性;三是探索“合成对照组”等临床试验新思路,即用合成患者队列补充甚至部分替代传统对照组,以应对招募困难、缩短周期并降低成本。业内普遍认为,这一方向若能成熟,有望推动肿瘤临床研究由“以中心为单位的试验组织”向“以数据能力为核心的证据生成”演进。 但综述同时强调,合成数据的价值不在“看起来像不像”,而在能否同时满足三项指标:统计特征是否一致、下游分析表现是否可靠、隐私风险是否可控。任何一项不过关,都可能造成“数据可用性提高但科学可信度下降”的反作用。 对策:把住偏倚、隐私与合规三道关,建立可审计的评估体系 其一,警惕偏倚继承与放大。生成模型从训练数据学习规律,真实数据中既有的选择偏倚、测量偏倚与人群结构失衡,可能被原样带入甚至被放大,尤其对少数群体、罕见肿瘤亚型更为不利。对策在于:在数据层面完善代表性与分层覆盖;在评估层面引入公平性指标与亚组性能报告;在应用层面明确合成数据适用边界,避免直接用于未经验证的临床决策。 其二,隐私并非“天然安全”。合成数据并不等同于完全匿名,若生成模型过拟合,或遭遇成员推断、模型反演等攻击,仍可能泄露训练样本的敏感信息。对此应采用多重防护:训练环节引入差分隐私等约束与访问控制;发布环节进行可识别性与泄露风险评估;使用环节建立审计与追责机制,并对外披露生成流程、参数范围与风险结论,提高可追溯性。 其三,加快监管与标准对接。合成数据若用于临床试验设计,尤其涉及“合成对照组”,必须回答证据链的合法性与可解释性问题:合成数据与真实世界数据如何匹配?如何证明其不引入系统性偏差?如何在多中心、跨地区情境下保持可比性?建议由监管部门、医疗机构、科研团体与产业界共同推动统一术语体系、质量评价标准和备案审查路径,形成覆盖“生成—验证—使用—再评估”的全流程规范。 前景:从“可行”迈向“可用”,关键在高质量真实数据与制度化治理 业内判断,合成数据短期内更可能在科研训练、算法评估、跨机构协作等低风险场景率先规模化落地;在临床试验层面,则可能以“混合模式”逐步推进,即在保留真实对照组的前提下,用合成数据增强证据、提高统计效率。至于完全替代传统对照组的“替代模式”,仍需更严格的前瞻性验证与监管认可,其前提是高质量真实数据作为“地基”、透明可审计的生成过程作为“梁柱”、以及可重复的评估体系作为“验收标准”。可以预期,随着医疗数据治理水平提升、评价框架逐步统一,合成数据将成为肿瘤研究的重要补充工具,但不会也不应成为绕开伦理与科学验证的“捷径”。
在医学研究的数字化转型中,合成数据正在寻找技术与伦理的平衡点;此突破不仅需要技术创新,更需要临床专家、伦理学者和政策制定者的共同参与。正如《自然·医学》所言:"真正的进步不在于数据的来源,而在于我们如何使用这些数据。"