率先開發腫瘤特異性甲基化圖譜 (TSMA),用於識別多種癌症早期篩檢中的組織來源 (TOO)

背景:
基於細胞遊離 DNA (cfDNA) 的檢測在檢測早期癌症訊號方面具有巨大潛力。然而,由於腫瘤來源的 cfDNA 豐度較低,而且存在來自非腫瘤來源的各種 DNA 成分,因此在早期預測多種癌症類型的組織來源仍然具有挑戰性。
解決方案:
  1. DNA 甲基化已被證明是癌症早期檢測中重要的表觀遺傳標記。此外,這些 DNA 甲基化模式具有組織特異性,並且在腫瘤轉化過程中保持穩定。我們構建了五種癌症類型的組織特異性甲基化圖。
  2. 在本研究中,我們探討了人工智能和甲基化圖譜在細胞類型反捲積中的應用,旨在創建一個能夠檢測 cfDNA 樣本中腫瘤起源的模型,用於早期癌症篩檢。
Authors

Minh Duy Phan, PhD

University of Cambridge, U.K. Computer Science and Molecular Biology

Trong Hieu Nguyen, PhD

RWTH Aachen University, Germany. Applied mathematics.

Publication

Published 03 July 2024, BMC Journal of Translational Medicine

link.springer.com

結果

利用人工智能和腫瘤特異性甲基化圖譜 (TSMA) 來識別 ctDNA 樣本中的組織來源

基因圖譜探索

2,945

0
5種腫瘤組織類型和白血球之間存在2,945個 差異 CpG 區
圖1. 本研究的示意圖概述
圖1. 本研究的示意圖概述

TSMA TOO 結果

69%

0 %
的首次 TOO 準確率
透過將腫瘤特異性甲基化圖譜(TSMA) 與 cfDNA 特徵整合到圖捲積神經網路(一種人工智能技術)來實現。該模型結合了239個 cfDNA樣本的保留驗證資料集中的反捲積積分和全基因組甲基化密度。

成果

我們旨在利用腫瘤特異性甲基化圖譜,透過降低 ctDNA 檢測的測序深度和實現腫瘤起源的預測,來優化多種癌症的早期篩檢 (MCED) 檢測。

構建 TSMA

為了構建 TSMA,我們捕獲5􏚶種腫瘤組織和白血球之間區域值存在顯著差異的區域。最終,構建了包含􏚶種腫瘤組織類型和白血球之間2,945個差異 CpG 區域的 TSMA。
圖 2 - 腫瘤特異性甲基化圖譜
圖 2 - 腫瘤特異性甲基化圖譜

(圖 2.A) TSMA 中包含 2,945個 CpG區域中,每種癌症組織類型或白血球(WBC) 的平均區域值熱圖。

(圖 2.B) 通路分析揭示了與癌症相關的通路,這些通路透過 TSMA 區域所對應的基因組進行了富集。

(圖 2.C) 使用最高反捲積積分對資料集 1 中的樣本分配標籤的預測效能,該資料集包含888個大腸樣本、1,814個肺部樣本、398個胃樣本、888個乳房樣本和429個肝臟樣本。

具體而言,我們對乳癌、肝癌和大腸癌的準確度分別達到 100%、98% 和 93%;而胃癌和肺癌的準確度較低,分別為 66% 和 55%。這些結果驗證了我們的假設,並顯示我們的 TSMA 已成功捕捉癌症特異性訊號,可用來判斷樣品的 TOO。

將 TSMA 反捲積積分 (DS) 與全基因組甲基化密度 (GWMD) 結合

圖 3 - 在圖捲積神經網路中結合 TSMA 解旋積分與其他 cfDNA 特徵的多模式方法
圖 3 - 在圖捲積神經網路中結合 TSMA 解旋積分與其他 cfDNA 特徵的多模式方法

在這裡,我們使用了與 K-DETEK 檢測相同的資料集,探索將反捲積積分與其他 cfDNA 特徵相結合以提升 TOO 性能的可能性。 GWMD 表示為全基因組中非重疊 1 M 區間的平均甲基化密度,與反捲積積分合併使用時,準確率最高可達 69%(圖 3A、圖 3D)。這比單獨使用反捲積積分(準確率 26%, 圖 3B)或單獨使用 GWMD(準確率 63%,圖 3C)均有顯著提高。

此結果凸顯了 TSMA 反捲積積分與人工智能模型在 TOO 檢測中的集成,尤其是與 GWMD 結合使用時。

SPOT-MAS video