亚马逊AWS官方博客
通过 Amazon SageMaker 在慕尼黑白血病实验室进行机器学习白血病诊断
- 处理 NGS 变异调用文件以生成有用的分类功能
- 基于相似度指标探索不同分类的可分离性
- 寻找白血病亚型分类和可解释性的最佳模型
- 此次合作的收获
简介
根据《2018 年全球疾病负担研究》,白血病是指一组对医疗保健构成重大挑战的血液癌,每年在全球造成超过 31 万人死亡。这一疾病的异质性导致其诊断和治疗极具挑战性;截至 2017 年,世界卫生组织定义了 31 种白血病实体(亚型)。
目前,白血病是通过多种方法组合诊断的。这些方法需要复杂的设备和技能熟练的临床实验室科学家和技术人员(资源稀缺),这会增加周转时间和成本。从收到样本到报告的平均时间可能长达十天。
诊断方法的范式转变
下一代测序(NGS)是一种大规模并行的 DNA 测序技术,能够在一天内读取整个人类基因组,在鉴定白血病亚型以及开出更具针对性和更有效的治疗处方方面显示出巨大的前景。
MLL 首席执行官Torsten Haferlach 教授博士表示:“为了建立这种范式转变,即从主要由经验丰富的专家手动审查形态学特征,转变为使用基于分子遗传学特征的客观算法方法,MLL 与 Amazon ML 解决方案实验室合作取得了这一非凡的成就。这项工作将提高治愈率并延长所有患者的寿命。”
通过机器学习,基于 NGS 数据进行癌症分类
Amazon Machine Learning Solutions Lab 接受了协助 MLL 基于下一代测序(NGS)数据集开发创新临床决策支持模型的挑战。NGS 数据具有极高的维度,通常由极少量的高质量训练数据组成。MLL 已经完成了 5000 个基因组项目,拥有该领域较大的数据集之一。所涉及的 5000 名白血病患者的大部分样本是用全基因组测序(WGS)和全转录组测序(WTS)进行测序的,并使用 WHO 黄金标准正交诊断方法进行诊断。
数据准备
由于 MLL 的研究范围遍及全球,因此必须将数据保存在安全且符合隐私法规的云服务中。AWS 已在许多国家和地区推出,不但为客户提供了便利,而且降低了他们的成本。所有客户数据均可在 AWS 中的任何区域存储和访问。在这个具体案例中,来自 MLL 的数据被存储在客户在法兰克福选定区域内的 Amazon S3 存储桶中,以满足医疗保健数据的要求。
来自 DNA(全基因组测序)和 RNA(全转录组测序)的 NGS 数据最初由 MLL 使用定制管道进行处理。从 WGS 中提取了几种类型的变异:单核苷酸变异(SNV)、结构变异(SV)和拷贝数变异(CNV)。SV 和 CNV 数据位于具有复杂结构的 VCF 文件中。VCF 文件包括变异调用信息,例如变异的染色体和分段位置、读取覆盖率和变异过滤标准。SV 和 CNV 数据的 VCF 文件无法轻松导入为机器学习模型可以摄取的格式。需要进一步处理才能根据所选粒度级别(可能在基因、染色体带或染色体层面)来提取和聚合特征。
可以从 WTS 管道获得基因表达(GE)和基因融合(GF)数据。GE 数据的优势在于,它已经具有表格格式(其中每一行为患者,每一列为基因的表达值),因此无需进一步转换,只有一步快速的归一化程序必需执行。GF 与为 WGS 获取的文件更为相似,因此会执行类似的转换。
我们建立了一个管道,从每位患者那里获取数据文件,然后将其转换为每种模式的特征矢量。对于 SV 文件,我们提取了五种类型的变异:插入、删除、重复、易位和短片段基因水平的反转。对于较长的片段,我们根据波段或染色体水平提取了特征。这种方法也用于 CNV 文件。 对于 WTS 数据,基因表达以读取计数的形式提取,并按照归一化加权修整的 M 值均值(TMM)方法进行归一化。结果,我们从五个原始表(SNV、SV、CNV、基因表达、基因融合)中生成了 70000 多个特征。缺失数据根据来源类型以不同方式进行估算。对于某些类型,我们使用最低值(CNV)或零(SNV、SV、基因表达)。在数据处理结束时,每位患者都将拥有相同数量的特征,这些特征可用作机器学习模型的输入。
我们评估了几种组合这些不同模式的策略,包括在每个单独模式上训练的堆叠或集成模型。然而,单独处理这些数据类型并没有考虑到不同模式的特征之间存在非线性交互这一观察结果(例如,拷贝数扩增/缺失与基因表达水平上调或下调之间的联系,与异常基因表达相关的 SV)。模型必须能够考虑到这种交互才能获得良好表现,这就是为什么将所有特征类型串联起来以使模型能够了解它们之间的交互可以获得高预测准确性的原因。
图 1:为获得用于训练的表格数据集而处理的文件概述。“||”是指为每种文件类型获取的向量的串联。
模型前分析
来自 MLL 的数据集包含有 30 种不同白血病亚型的患者。有些子类型的出现频率远高于其他子类型,导致数据集高度不平衡。
图 2:按白血病亚型划分的患者人数。
将所有不同类型的数据转换为表格格式后,我们开始了与 MLL 的专家合作的特征工程流程。他们翻阅文献,寻找与每种白血病亚型相关的重要生物标志物。考虑到这一点,我们设计了一个流程,可以将原始特征汇总并组合成生物标志物。
最终数据集包含大约 4500 个代表患者的行,800 个包含所提取生物标志物数据的列,以及原始生物标志物特征集之外的每种数据类型(CNV、SNV、SV等)的其他重要特征。 换言之,每位患者的基因组和转录组由一个包含 800 个条目的矢量表示。
在 30 种白血病亚型中,有些亚型之间的关系比其他亚型更为密切。例如,MPAL、AML 和 BCP-ALL 非常相似;有时,一名 MPAL 患者的基因图谱与 BCP-ALL 患者的相似度可能高于与另一名 MPAL 患者的相似度。这使得机器学习算法和人类专家难以区分它们。为了调查白血病亚型之间的相似程度,我们计算了每位患者与其他样本之间的距离,并记录了最接近的两个邻居。然后,我们按白血病亚型对邻居进行了汇总,发现在某些分类中,该亚型中只有不到 20% 患者彼此非常相似的。如图 3 所示。如果我们找到 MPAL 圈,就可以看到,所有 MPAL 患者中,只有 13% 彼此相似,而且大多数相似的患者属于 AML 和 BCP-ALL。
图 3:实体相似度圆环图。该图显示了白血病亚型之间的相似程度。每个圆代表一个白血病亚型,圆圈内的数字表示具有相同亚型的邻居的百分比。如果有很大一部分(>= 10%)的患者与来自另一个实体的患者更为相似,则会绘制一条从该实体到另一个实体的连线(彩色线)。这条线的粗细表示这部分患者与其他组相似的程度。线条的颜色代表连接的方向,例如,患者来自属于其他群体的实体,则用原始实体的颜色表示。例如,来自 MGUS 分类的患者与多发性骨髓瘤患者更为相似,但反过来却没有明显的联系。
建模
为了预测患者白血病亚型,我们训练了一个多类分类器。借助分类器和特征提取管道,我们构建了一个系统原型,该系统使用 Amazon SageMaker Notebooks,根据 WGS 和 WTS 数据自动确定患者白血病亚型。Amazon SageMaker 是一个云机器学习平台,可用于为几乎任何使用场景构建、训练和部署模型。Notebook 实例为构建机器学习模型提供了灵活的环境,省去了用户在管理底层计算基础设施上花费的时间和精力。
我们使用梯度提升算法 LightGBM 来构建我们的第一个分类器。我们还使用 SageMaker 超参数优化(HPO)作业来调整模型的超参数,这种方法通过使用贝叶斯优化来自动查找任何算法的最佳配置,无需人工操作。通过使用 HPO,我们的 LGBM 模型性能在 5 倍交叉验证中达到 82% 的准确率。对于某些具有独特生物标志物的实体,准确率非常高。CML 有一个几乎独一无二的融合基因 BCR-ABL 作为生物标志物,而 LGBM 模型的 CML 准确率达到了 97%。
但是,对于患者很少、与其他实体非常相似的实体或在传统诊断期间需要额外进行实验室分析的实体,该模型的表现不佳。要处理少量和不平衡的样本,您可以使用生成的合成数据。我们尝试了不同的方法,包括 LoRas 和 ADASYN,但没有看到任何模型改进。
利用少样本学习的模型也被用于一个类别中样本很少的分类问题。我们为疾病类型预测实施了一个小样本学习架构,但没有看到任何改善。这可能是由于我们为每种类型提供的患者数量非常少,因此难以了解白血病类型的分布。
图 4:显示模型中正确和错误预测数量的混淆矩阵
说明
当使用机器学习模型进行预测时,对 MLL 研究人员来说,了解预测的原因与预测本身一样重要。为了了解模型为何会做出特定预测,我们利用了 SHAP python 库。通过这个库,我们可以分析来自训练模型的预测,并深入了解用于进行分类的特征。我们将 SHAP 应用于我们的 LGBM 模型,并从样本级别和全局级别分析了特征影响。图 5 显示了与正确预测的 CML 队列相比,两个被诊断患有 CML 的人在患者层面上使用 SHAP 的情况。通过使用决策图,我们可以观察到哪些特征是模型预测的最重要因素。
图 5:正确预测 CML 患者的 SHAP 力图,以及每位 CML 患者的决策图,117 人预测正确(黄线),1 人预测错误(红线)。这些特征按所有 CML 患者的平均重要性顺序显示在 y 轴上;请注意顶部为人熟知的 BCR/ABL1 功能。这些特征将两个患者的分类器结果推向 CML,但对于预测不正确的患者,基因表达特征导致分类器预测患者患有 BCP-ALL。这些决策图有助于了解每个特征对分类的贡献程度;请注意,x 轴是“log-odds”,因此将输出从 0 推到 10 的特征比将输出从 -5 推到 0 的特征重要很多数量级。
要点和展望
与领域专家的合作:这是至关重要的,并将仍然是机器学习和人工智能在医学领域应用的关键部分。除了共享同类中较大和质量较高的数据集外,MLL 还通过在每一步中贡献其丰富的领域专业知识来促进机器学习模型的创建。在项目开始时,我们在基因层面上对特征空间进行了编码,但在 30 种白血病亚型预测中,我们的准确率仅为 67%。通过使用 MLL 手动管理的生物标志物和遗传特征 — 为模型提供人类专家已知的关于该领域的信息,我们达到了 77% 的准确率。后来,我们在特征空间中添加了更多特征,使模型性能进一步提高了 5%。
使用正确的工具:与 SageMaker 合作大大加快了该项目的进度。由于 SageMaker 是一个完全托管的平台,并且集成了 ML,因此团队能够专注于数据科学工作,无需为管理基础设施而费心。内置的自动模型调整功能提高了模型的准确性,无需手动调整模型架构或超参数,节省了时间并优化了模型。
可解释性和可说明性:MLL 继续创新和改进其方法,并致力于实现快如闪电、高度准确和算法客观的白血病诊断,造福全球患者。用 Haferlach 教授在主题演讲中引用的 Benjamin Bell 的话来说:“……人工智能不会取代医生,而是会增强他们的能力,使医生能够以更高的准确性和更高的效率,更好地从事医疗工作。”
结论
MLL 的使命是通过尖端诊断改善白血病和淋巴瘤患者的护理。为此,该实验室采用一种结合了六个学科(细胞形态学、免疫表型分析、染色体分析、荧光原位杂交(FISH)、分子遗传学和生物信息学)的跨学科方法,从而生成一份全面的综合实验室报告。
“总的来说,我们可以通过细胞形态学、免疫表型分型和遗传技术等表型方法来区分疾病亚型。未来,分子技术将是帮助我们获取所有这些信息的最重要方法,”Haferlach 教授说。“如今,遗传诊断依赖于细胞遗传学和突变分析。很快,我们将进行全基因组和全转录组测序。”
他解释说,全基因组测序可以识别出的结构变异和拷贝数变化比染色体分析评估更多,它还可用于突变检测和分析。“可能有一种检测方法可以完成所有工作,”他预测道。“如果我们在诊断中也包括基因表达图谱,我们甚至可以捕捉到现在由免疫表型和细胞形态学确定的特征。这是我们对未来的愿景。”
“我们是教授和研究人员”,T. Haferlach 博士附和道。“我们希望始终站在未来的前沿。” 这种愿望促使 MLL 创始人完全接受技术并将其融入实验室中,并与 AWS 合作以实现创新。
要了解有关 AWS Cloud 中基因组学的更多信息,请参阅 aws.amazon.com/health/genomics。