利用数字健康记录预测癌症风险
我们每天都在数字系统中留下生活的痕迹。从在线搜索和位置跟踪到医疗记录和保险理赔,大量的个人数据被收集和存储。虽然隐私问题层出不穷,但日常生活的数字化也为医学研究带来了新的机遇。科学家们正在利用全国范围内的电子健康记录数据库,获得以前不可能获得的洞察力。其中一个很有前景的领域是癌症风险预测,这有助于改善早期检测和有针对性的筛查。
癌症仍然是全世界的主要死因。虽然筛查和早期检测降低了一些常见癌症(如乳腺癌和结肠癌)的死亡率,但仍有许多其他癌症在发展到晚期时才被发现。新的液体活检测试只需简单抽血就有可能检测出多种癌症类型,有望提供一种更方便的筛查方法。然而,这些多种癌症筛查试验也需要谨慎实施,以获得最大效益。非选择性的人群筛查可能会导致许多假阳性结果和不必要的侵入性随访。基于个人癌症风险的更有针对性的方法可以使筛查计划更具成本效益。
这就是数字健康数据的作用所在。随着越来越多的医疗信息被数字化,整个人口的健康历史正在国家数据库中积累。现在,研究人员正在挖掘这些庞大的常规医疗数据,以更好地了解疾病模式并开发预测模型。丹麦和德国的研究人员最近进行的一项大规模研究就采用了这种方法来预测癌症风险。他们利用覆盖 670 多万丹麦人的国家登记数据和他们几十年来的终生病史建立了模型。研究结果表明,数字健康记录为基于个人风险特征的个性化癌症筛查带来了希望。
数据电源
研究人员利用了五个丹麦健康数据库,其中包含医院就诊、诊断、死亡、癌症信息,以及来自二级医疗机构的自由文本医疗记录。这些信息加在一起,涵盖了1978年至2018年期间丹麦人口的6000万次医院就诊、9000万次诊断和1.93亿生命年的随访。
从这些丰富的真实世界数据中,研究小组提炼出了每个人的 1300 多个变量,包括诊断结果、家族癌症史以及有关生活方式因素的文本挖掘数据。然后,他们使用统计建模技术来确定这些不同的健康和个人因素是如何相互作用并影响 20 种主要癌症类型的风险的。最重要的是,这些模型是根据截至 2014 年收集的登记信息进行训练的,并根据随后几年的癌症发病率进行了验证,从而实现了前瞻性预测。
研究结果表明,这些数字健康数据库可以提供大量有关癌症风险的信息。这些预测模型具有良好的辨别能力,这意味着它们能够准确地区分哪些人罹患癌症,哪些人没有罹患癌症。其性能可与针对个别癌症类型设计的现有模型相媲美。风险不仅与家族病史和已知的风险因素有关,还与以前的诊断模式有关,突出了疾病之间的相互联系。
转移风险
在不同的医疗保健系统和人群中验证癌症预测是一项重要的测试。为了检验丹麦的风险特征是否可以在国际上转移,研究人员对来自英国生物库的基因和健康数据进行了评估,这些数据涵盖了 37.7 万多人。
值得注意的是,尽管两国在医疗保健和人口特征方面存在差异,但癌症风险预测在两国之间具有很好的通用性。在控制了人口变化之后,识别率仍然很高,校准(预测风险与实际发病率的匹配程度)也很相似。这表明数字健康记录包含的可转移风险信息超越了任何单一系统。通过适当的验证,根据一个人群建立的模型有可能被应用到新的环境中。
其主要优势在于,全国范围内的电子数据集可以在不依赖自我报告或选择性收集信息的情况下量化人口的癌症风险。已确定的首要影响因素--如饮酒、生育史、身高和体重--与已有的癌症风险知识非常吻合。由于数据驱动,这种方法还发现了值得跟进的意外联系,如免疫相关条件的作用。
改进筛查
虽然还需要进一步验证,但这些数字风险预测模型最终可以支持有针对性的癌症筛查方法。随着多种癌症血液检测从研究进入实际应用,根据个人风险状况有选择性地应用这些检测可使其效益最大化。高风险人群可以更频繁地接受筛查或在更年轻时接受筛查,而低风险人群可能需要较少频率的检测,以平衡成本和患者负担。
这些模型还可以增强现有的筛查计划。对于乳腺癌和结肠癌等已经开展筛查的癌症,风险评分可以帮助指导哪些人可以从更早开始筛查或更频繁地接受检查中获益最多。而对于胰腺癌或卵巢癌等目前尚未纳入筛查范围的癌症,这些模型最终可能会帮助确定首先为哪些人提供新的筛查方式。
当然,这种 "精准筛查 "也会带来需要应对的挑战。由于并非所有群体都能平等地获得常规健康数据,因此确保公平地获取不同人群的数据将非常重要。而且,风险预测并不是明确的诊断--假阳性仍需谨慎处理。随着模型的不断改进,电子健康记录有望成为补充基因和生活方式信息的 "真实世界 "风险情报的非侵入性来源。随着医疗保健的数字化变革,大数据方法将以前所未有的方式实现癌症筛查的个性化。
参考文献
- Alexander W Jung, Peter C Holm, Kumar Gaurav, Jessica Xin Hjaltelin, Davide Placido, Laust Hvas Mortensen, Ewan Birney, S⊘ren Brunak, Moritz Gerstung.基于国民健康数据的多癌症风险分层:一项回顾性建模和验证研究》(Multi-cancer risk stratification based on national health data: a retrospective modelling and validation study.柳叶刀数字健康》,2024;6 (6): e396 DOI:10.1016/S2589-7500(24)00062-1
- Green turtle bounces back from brink in...on October, 2025 at 8:01 am
- 'How growing a sunflower helped me fight anorexia'on October, 2025 at 5:04 am
- Fossil found on Dorset coast is unique 'sword...on October, 2025 at 12:20 am
- Naked mole rats' DNA could hold key to long lifeon October, 2025 at 6:06 pm