
题目:A scalable Tn5-based method for genome-wide DNA methylation profiling in development and disease
原文链接:
期刊:Nature Communications
摘要
DNA甲基化是一种关键的表观遗传修饰,参与发育和疾病(包括癌症)过程,同时也是诊断用的生物标志物。亚硫酸氢盐测序等现有检测方法可提供单碱基分辨率,但需要较高的测序深度和成本。本研究开发了(C ^{meCUT&Tag }) CUT&Tag技术,这是一种基于Tn5转座酶的方法,通过甲基化结合结构域融合蛋白选择性靶向染色质化和分离DNA中的甲基化DNA。该技术可使转座子接头插入甲基化区域,既能通过低深度测序实现定量分析,也可对胞嘧啶进行转化以获得单碱基分辨率。(C ^{meCUT&Tag })技术可在减少样本输入量和测序需求的情况下实现全基因组DNA甲基化谱分析。我们验证了该方法在人干细胞、类器官、斑马鱼胚胎发生和肿瘤活检样本中表征发育与疾病相关DNA甲基化的性能。该技术与亚硫酸氢盐测序结果高度一致,还能支持将脑肿瘤样本按甲基化亚型进行分类。这些特性使Cme CUT&Tag技术成为表观遗传学研究及潜在临床应用中可扩展且高性价比的方法。
引言
DNA甲基化检测在分辨率、成本和通量之间存在根本性的权衡,这限制了其在生物医学研究中的广泛应用。尽管DNA甲基化是一种关键的表观遗传修饰,与包括癌症在内的多种疾病相关¹,且已被用作疾病早期检测、衰老研究和肿瘤分类的生物标志物²³,但现有的检测方法仍对实验设计和可及性构成了限制。全基因组亚硫酸氢盐测序(WGBS)是目前的金标准,它能将未甲基化的胞嘧啶转化为尿嘧啶(测序时读为胸腺嘧啶),同时保留甲基化的胞嘧啶⁴。该方法可提供单碱基对分辨率,但需要极高的测序深度,目前建议每个位点的覆盖度需达到30倍,这意味着要实现人类基因组全覆盖需要8亿至10亿个读长对。其他富集策略则包括使用甲基化敏感限制性内切酶⁵(RRBS)、微阵列(Infinium MethylationEPIC阵列)或抗5-甲基胞嘧啶的抗体⁶或甲基化结合结构域⁷⁸,这些方法虽能降低成本,但要么缺乏单碱基对分辨率、需要大量起始材料(1-5微克染色质或纯化DNA⁶⁻⁸)、特异性存在差异,要么无法在细胞核内原位进行,因此不适用于生物医学研究和基于液滴的单核测序技术⁶。
CUT&Tag 已成为绘制多种表观遗传修饰和转录因子图谱的首选高通量、低投入、高性价比方法9-11。然而,在其现有配置下,该方法无法通过抗体介导的 Tn5 结合来富集 DNA 甲基化。本研究为实现高效能、高通量的 DNA 甲基化富集图谱绘制,开发了 CmeCUT&Tag 技术,该策略利用不同 DNA 甲基化结合结构域(如 MeCP2、MBD2 的 MBD 结构域)的融合蛋白与高活性 Tn5 来富集高 DNA 甲基化区域。本研究提出了一种基于 Tn5 的高通量 DNA 甲基化分析方法,可同时在细胞核原位和分离的 DNA 上绘制甲基化模式图谱。通过将甲基化结合结构域与 Tn5 结合,该方法能以低投入降低测序深度需求,高效富集甲基化区域。这使得研究人员可在干细胞、类器官等多种生物系统中开展可扩展、高性价比的分析,捕捉发育过程中 DNA 甲基化的动态变化。该方法具有模块化特性,可与单细胞技术和基于胞嘧啶转化的实验流程兼容,为基础研究和转化研究领域的表观遗传调控研究提供了灵活的研究框架。
结果
用于DNA甲基化靶向的MBD-Tn5融合蛋白设计
我们通过将MBD2和MeCP2的DNA甲基化结合结构域分别及组合融合至Tn5,构建了融合蛋白(图1a)12-14。所获得的重组蛋白包括2xMBD2-Tn5、NTD-MeCP2-IDR-Tn5(NTD为N端结构域,IDR为内在无序区)、2xMeCP2-Tn5以及4xMeCP2-Tn5,我们在大肠杆菌中对这些蛋白进行表达,随后通过几丁质树脂纯化以保证高纯度(补充图1a和1b)。 我们选择这些结构域是基于其在MethylCap-Seq7和MiGS8中的成功应用,并旨在借鉴先前研究优化DNA甲基化结合效率。有研究表明,引入四个串联结构域12以及MeCP2的内在无序区(IDR)和N端结构域(NTD)15,可增强其结合能力。此外,通过CEMSA实验测定,小鼠MBD2对甲基化DNA具有最高亲和力14。 尽管在小鼠胚胎干细胞中,全长MBD蛋白(MBD1、MBD2、MBD4和MeCP2)的全基因组结合模式大体相似,但它们也表现出一些蛋白特异性的相互作用16。相比之下,MBD3似乎不会在甲基化DNA位点富集17。然而,这些蛋白(MBD3除外)的MBD结构域高度保守,全基因组结合的差异可能反映了蛋白结构域和复合物组成的变化,而非内在DNA结合特异性的不同16。
MBD–Tn5 可在诱导多能干细胞中富集富含 CpG 位点的甲基化区域
对人诱导多能干细胞(iPSCs)的初步表征(补充图1c-f)显示,所有变异体在富含CpG的区域均呈现强烈富集(图1b)。各结构域组合展现出极为相似的富集特征,生物学重复和不同构建体之间的皮尔逊相关系数均大于0.8,且峰内读取分数(FRiP (scores >0.35))相当(图1b、c,补充图2a-e),其效果优于使用抗5-甲基胞嘧啶抗体的CUT&Tag技术(补充图2a-b)。总体而言,2xMBD2和2xMeCP2构建体识别的峰数量最多(每个约10000个),每个构建体约有2000个特有峰。NTD-MeCP2-IDR和4xMeCP2分别检测到约6800个和3600个峰。在所有构建体中,约有2000个峰为共有峰,约7000个峰在2xMBD2和2xMeCP2之间特异性重叠(补充图2d)。通过热图绘制所有峰的信号分布,可见所有构建体之间存在显著的信号重叠,表明核心甲基化组景观得到了稳定捕获(图1b)。相比之下,使用抗5-甲基胞嘧啶抗体仅检测到32个可识别的峰,说明该方法无法应用于细胞核样本(补充图2b、d)。
目视检查证实,与人类胚胎干细胞的公开全基因组亚硫酸氢盐测序数据相比,高甲基化区域存在明显的富集现象(图1c),排除通过ATAC-Seq检测具有高可及性且缺乏DNA甲基化的CpG位点(补充图2b)。
为了确定生物学相关性,我们将 CmeCUT&Tag 信号与已发表的全基因组亚硫酸氢盐测序((WGBS ^{18} ))以及 MBD-Seq¹⁹ 和 5mC-MeDIP²⁰ 数据进行了比较,采用了 ChromHMM 分析²¹——这是一种经过预训练的模型,可将实验测得的富集度划分为不同的染色质状态。MBD-Tn5 融合蛋白优先结合在简化代表性亚硫酸氢盐测序⁵和全基因组亚硫酸氢盐测序¹⁸中均表现出高 DNA 甲基化 (>75%)) 的区域。这些区域与转录区域、增强子和外显子的重叠程度最高,这与基因体中已知的 DNA 甲基化富集特征一致²²(图 1d)。我们使用 ChIP-Seeker²³ 进一步表征了显示 (Cme) CUT&Tag 信号高富集的基因组区域,并证实了其在基因体和启动子中的富集情况(补充图 2e)。经 ChromHMM 测定,CmeCUT&Tag 的信号富集度与使用 5mC 抗体或 MBD 结构域进行染色质免疫沉淀的类似技术具有高度相似性(图 1d)。我们进一步通过对诱导多能干细胞组蛋白修饰的 CUT&Tag 测定、ATAC-Seq 以及与识别未甲基化 CpG 岛的 MLL1 蛋白 CXXC 结构域偶联的 Tn5 酶((unC ^{me} CUT & Tag),图 1d 及补充图 2f-i)验证了 ChromHMM 的注释结果。
定量分析显示,MBD融合蛋白可识别甲基化程度在40%至100%之间的CpG区域¹⁸(图1e),这与组蛋白修饰峰形成鲜明对比——除H3K9me3²⁴,²⁵外,组蛋白修饰峰未表现出CpG甲基化富集(图1e及补充图2j)。CpG岛在DNA甲基化信号上呈双峰分布,部分位点如预期般呈低甲基化状态,另一些则为高甲基化状态(图1e)。本研究方法可稳定捕获高甲基化的CpG岛,这可能与疾病相关²⁶——启动子区域的高甲基化CpG可作为生物标志物。
基于优异的结合亲和力、与亚硫酸氢盐测序的相关性、更宽的动态范围以及峰检测能力,我们选择2×MBD2-Tn5进行详细表征(图1f、补充图2c-d,补充数据1包含所有元数据)¹⁴。首先,我们对Tn5的用量进行了精密滴定,并确定了后续实验所需的最佳细胞核数量。我们确定在5万至20万个细胞核样本中使用600纳克Tn5为最佳起始用量(补充图3a-b)。
利用CmeCUT&Tag技术对分离的DNA进行甲基化分析
我们评估了2×MBD2-Tn5在分离的基因组DNA上是否具有功能,从而将其潜在应用扩展至存档样本和受损染色质。CmeCUT&Tag 实验能高效作用于分离的DNA(补充图3c-k),我们确定在5至50纳克DNA的样本中,使用600纳克Tn5为最佳用量范围(补充图3f-g)。甲基化富集信号与完整细胞核的信号高度重合(补充图3h-k)。总体而言,我们在分离的DNA上观察到了更强的信号,其峰数约为25000个,而细胞核样本中约有10000个峰。其中,2800个峰为细胞核样本特有,17800个峰为分离的DNA样本特有(补充图3h)。这种差异可能反映出,与染色质化模板相比,纯化的DNA空间位阻更小,使得Tn5的敏感性更高。不过,通过热图绘制信号可以发现,两种条件下的信号存在大量重合,这表明核心甲基化图谱得到了稳定捕获(图2a)。分离的DNA所得到的DNA甲基化结合图谱,也与以往基于下拉技术以及涉及末端修复和接头连接的传统建库方法的相关技术(MeDIP、MBD-Seq)具有可比性(补充图4a-e)。
图2. CmeCUT&Tag对DNA甲基化具有特异性。a,热图显示,在用DNMT1抑制剂处理的人诱导多能干细胞中,无论是在天然细胞核还是纯化的基因组DNA中,2xMBD2的结合均减弱,这证实了2xMBD2的甲基化特异性(为2次重复实验的信号平均值)。使用非靶向Tn5对基因组DNA或细胞核进行转座酶反应无法重现这一模式。b,在基因组DNA和细胞核上的2xMBD2峰上绘制的H3K27me3信号热图(2次重复的信号平均值)。DNA甲基化的缺失会导致2xMBD2结合区域的H3K27me3信号增强。c,代表DNMT1抑制剂处理后2xMBD2结合减少的区域,同时H3K27me3扩散至先前被2xMBD2结合的CpG岛。BigWig信号为可视化进行了单独缩放。d,DNA甲基化抑制后差异H3K27me3结合位点(FDR < 0.05,绝对倍数变化为(change >1.2),且(FDR <0.05))的ChromHMM模型分析。结果显示,H3K27me3主要在异染色质和增强子区域获得,而在转录起始位点(TSS)和启动子区域丢失。变化用圆点表示。有关差异区域的基因本体论术语参见补充图5f和原始数据。e,使用10x Genomics微流控平台对诱导多能干细胞和K562细胞的混合群体进行单细胞CmeCUT&Tag实验的示意图。细胞系独立制备,并在细胞核分离过程中混合。对一份单细胞悬液进行了该实验的处理。f,小提琴图展示每个细胞的片段数和峰数。直方图展示诱导多能干细胞(iPSC)和K562细胞系的片段长度分布。g,对 scCmeCUT&Tag 数据的 UMAP 进行 K 近邻(KNN)聚类可将细胞分为两个簇(右侧)(每个簇分别包含平均 1058 个和 1356 个通过过滤的片段)。按细胞系对相同聚类进行着色:iPSC(绿色 - 550 个细胞)和 K562 细胞(黄色 - 582 个细胞)。条形图量化了单核苷酸多态性(SNP)的解复用结果以及簇组成(左侧)。
抑制DNMT1验证CmeCUT&Tag的特异性
为严格检测所观察到信号的特异性,我们用选择性DNMT1抑制剂GSK3484862处理了诱导多能干细胞(iPSCs)²⁷。这种化学遗传学方法可特异性降低DNA甲基化,处理后细胞核及分离的基因组DNA上的CmeCUT&Tag富集度显著降低(图2a),证实检测到的信号反映的是真实的DNA甲基化。无靶向的pA/G-Tn5在基因组DNA(gDNA)或染色质化模板上均未表现出特异性富集,证明融合蛋白在不同底物上均能保持特异性(图2a)。残留的(Cme) CUT&Tag信号可归因于残留的DNA甲基化,这一点通过酶促甲基化测序(EM-Seq)和免疫荧光分析均得到了证实。总体而言,GSK3484862处理将整体DNA甲基化水平从80%降至20%²⁷(补充图5a-b)。残留的峰同样表现出高CpG含量,表明所观察到的结合很可能发生在真实的甲基化区域,而非非特异性转座导致的结果(补充图5c-d)。
我们还对H3K27me3进行了分析,以证明2×MBD2-Tn5在研究表观遗传景观相关变化以及不同表观遗传通路间串扰方面的实用性。我们发现在DNA甲基化缺失的位点,H3K27me3水平有所升高(图2b),且该现象常与CpG岛重合(图2c、补充图5e)。对H3K27me3全基因组分布进行分析后,我们发现DNA甲基化缺失后,多梳响应区域以及大量与形态发生和膜电位调控相关的增强子、启动子(图2d)处的H3K27me3水平均有所升高(补充图5f、源数据)。
CmeCUT&Tag 技术适用于单细胞实验流程
利用MBD2-Tn5可在完整细胞核内成功原位发挥作用这一特性,我们旨在测试其与单细胞基因组学流程的兼容性。为此,我们采用(C ^{meCUT&Tag })方案对K562癌细胞和CAU诱导多能干细胞的细胞核进行转座酶处理,并通过10x Genomics单细胞ATAC-seq流程对其进行处理,以实现单个细胞核的包裹(图2e)。我们成功获得了1132个单细胞,每个细胞的平均片段数为1160(中位数754),平均峰数为284(图2f,具体筛选标准见方法部分)。降维和无监督聚类分析揭示了两个主要细胞群,大致对应两种输入细胞类型,其中一个簇中富集K562细胞,另一个簇中富集诱导多能干细胞(图2g)。尽管细胞分离并不完全,且反映出单个细胞的信息含量有限,但这些结果表明,CmeCUT&Tag技术与液滴基单细胞流程兼容,能够捕捉到细胞类型相关的DNA甲基化差异,不过受当前数据稀疏性影响,该差异仅能在较粗的层面上被识别。我们指出,本实验仅为概念验证,还需进一步优化以提高信噪比,并有望解析密切相关细胞状态间更细微的差异。
适配Cme CUT&Tag技术以实现碱基分辨率的甲基化谱分析
尽管CmeCUT&Tag技术能高效识别高度甲基化区域,但某些应用场景需要碱基对分辨率。我们开发了一种混合方法,对经CmeCUT&Tag富集的文库进行亚硫酸氢盐转化或酶促甲基化测序(EM-Seq),将靶向富集与单核苷酸检测相结合(图3a)。对细胞核和基因组DNA文库分别进行亚硫酸氢盐转化与酶促转化后,所得信号分布与未转化文库几乎一致(图3b、c及补充图6a-b),表明该方法未引入显著偏差。
传统全基因组亚硫酸氢盐测序需要8亿到10亿个读长对才能以30倍覆盖度覆盖人类基因组,而CmeCUT&Tag技术以及先采用CmeCUT&Tag再进行亚硫酸氢盐或酶促转化的方法,通过将覆盖范围限定在甲基化区域,将测序需求降至2000万到1亿个读长,成本降低了10至40倍(图3d)。
以 Infinium MethylationEPIC 芯片为基准进行对比分析,该临床工具仅能检测约 85 万个预先选定的 CpG 位点,结果显示其与高强度位点存在强烈的信号重叠(图 3e)¹⁸。未被检测到的位点通常表现出高 H3K4me3 信号和低甲基化水平,这证实了启动子活性与甲基化之间预期的负相关关系(图 1e)。
图3. CmeCUT&Tag是一种用于特异性检测DNA甲基化位点的高性价比工具。a,CmeCUT&Tag 实验流程示意图,随后进行亚硫酸氢盐(BS)或酶促(EM)转化,以实现碱基分辨率的甲基化图谱分析。b,CHRM4 基因座的基因组浏览器视图,对比了细胞核样本中 2xMBD2-CmeCUT&Tag 与 2xMBD2CmeCUT&Tag-BS/EM 的结果。CmeCUT&Tag-BS 和 CmeCUT&Tag-EM 获得的 CpG 甲基化谱在高甲基化 CpG 位点与全基因组亚硫酸氢盐测序(WGBS)的谱图高度相似(n=2,展示了 n=2,分别展示了一个代表性重复样本)。c,(C ^{meCUT&Tag }) 样本的 meCUT&Tag-BS、CmeCUT&TagEM 以及组蛋白修饰 CUT&Tag 信号(经 log2 转换)在所有 CmeCUT&Tag 峰上的主成分分析(PCA)图。亚硫酸氢盐和酶促转化保留了原始的结合特异性(每个实验均展示了 2 次重复实验结果)。d、CmeCUT&Tag 和 WGBS 在 CmeCUT&Tag 峰处的覆盖度要求。CmeCUT&Tag 通过对高度甲基化区域进行选择性富集,可将测序成本降低高达90%。e,2xMBD2结合(在细胞核和基因组DNA中)以及H3K4me3在MethylationEPIC阵列探针上的热图(n=2),各展示一个代表性重复样本)。对总共517,789个探针在2千碱基对的窗口内进行平均并合并,得到70,676个区域。随后按平均β值(在人类中检测到的DNA甲基化,(iPSCs ^{18}))对区域进行排序。H3K4me3在CpG密集但甲基化程度低的区域富集,而CmeCUT&Tag优先靶向CpG稀疏但甲基化程度高的区域。
CmeCUT&Tag可定位脑类器官发育过程中的动态甲基化
为验证该方法在生物过程中的实用性,我们将CmeCUT&Tag技术应用于人类脑类器官发育研究——这是一个在神经分化过程中伴随甲基化重塑的过程[18,31]。我们将诱导多能干细胞(iPSCs)分化为多区域脑类器官,并分别在第16天(主要为神经上皮细胞)和第210天(混合神经元群体伴随星形胶质细胞出现)收集样本(图4a及补充图7a)。差异峰分析揭示了神经发育过程中系统性的甲基化变化(图4b及补充图7b)。ChromHMM分析表明,甲基化主要在增强子区域丢失,而在二价启动子区域获得(图4c),受影响的基因座在神经元发育通路中显著富集(图4d)。通过亚硫酸氢盐转化的CmeCUT&Tag文库定量分析显示,从诱导多能干细胞到第210天的脑类器官,CpG甲基化水平持续升高,同时第16天至第210天期间高度甲基化区域显著减少(图4e)。这证明了该方法能够捕捉复杂的双向甲基化动态。我们将DNA甲基化动态与已发表的全基因组亚硫酸氢盐测序(WGBS)数据进行了基准对比(补充图7c)。
CmeCUT&Tag 可实现基于 DNA 甲基化的肿瘤分类
能够捕捉发育动态的特性促使我们测试CmeCUT&Tag技术是否也能应用于基于DNA甲基化图谱的脑肿瘤分类³。我们分析了24例成人脑肿瘤活检样本,包括脑膜瘤、神经鞘瘤、胶质母细胞瘤、弥漫性中线胶质瘤、松果体实质肿瘤和室管膜瘤。
我们首先将 CmeCUT&Tag 数据投影到与肿瘤活检标准 EPIC 阵列图谱相同的特征空间中³,并仅保留共享特征存在足够重叠的样本(共 19 个样本;图 5a)。随后,我们使用 crossNN³² 进行肿瘤分类。基于 CmeCUT&Tag 图谱,我们成功将 19 个肿瘤中的 17 个正确分配至甲基化类别家族(图 5b)。
图5. (C^{me}) CUT&Tag-表观甲基化图谱可实现中枢神经系统肿瘤的低成本分类。a,预测流程示意图。通过CmeCUT&TagBS/EM技术对脑肿瘤活检样本进行分析,将其与模型特征空间进行统一,再使用在2801个参考EPIC 450k样本上预训练的交叉神经网络模型32进行分类³。b,混淆矩阵总结原发性活检样本的预测甲基化类别家族(MCF)——MNG(脑膜瘤,n=11)、SCHW(神经鞘瘤,n=2)、MCF IDH GLM(IDH突变型胶质瘤,n=1)、EPN PF B(后颅窝B组室管膜瘤,n=1)、MCF GBM(IDH野生型胶质母细胞瘤,n=1)、PIN T PPT(松果体实质肿瘤,n=1)。标签汇总了被正确预测的样本比例。
利用CmeCUT&Tag进行跨物种DNA甲基化谱分析
最后,我们通过检测人类MBD2-Tn5在非哺乳类脊椎动物模型的分离DNA和完整细胞核中识别复杂DNA甲基化模式的能力,验证了其跨物种适用性。我们使用受精后22小时(hpf)的斑马鱼胚胎,成功通过CmeCUT&Tag技术绘制了全基因组DNA甲基化模式图谱(补充图8a-c)。我们将这些数据与之前发表的斑马鱼胚胎MethylCap和全基因组甲基化数据集进行了对比33,34(补充图8b-d)。全基因组聚类分析显示,MethylCap信号与(C ^{meCUT&Tag })信号之间存在高度一致性。此外,两种方法共同鉴定出的峰区域显示出更高的DNA甲基化水平与打乱的对照区域相比,CG 含量更高,且经 ChIPseeker 评估,其基因组分布高度相似(补充图 8e)。
讨论
CmeCUT&Tag技术相较于全基因组亚硫酸氢盐测序(WGBS)或单分子直接甲基化检测技术(如PacBio或Oxford Nanopore),在保持定量准确性的同时大幅降低成本,解决了DNA甲基化检测中的关键局限性(补充资料2)。测序需求降低10至40倍,使甲基化分析从一种专业且昂贵的技术转变为常规研究中可轻松获取的工具。该方法既适用于原位完整染色质,也适用于提取的DNA,结合可选的亚硫酸氢盐转化或EM-Seq技术,可灵活适配多种应用场景。未来还可整合TET辅助硼吡啶测序(TAPS)等其他转化流程35。CmeCUT&Tag 建立在 MethylCap-seq⁷ 和 MiGS⁸ 等早期基于富集的方法之上通过将DNA甲基化结合结构域与Tn5转座酶直接融合,这一直接融合技术省去了末端修复、接头连接和纯化等多步建库步骤,大幅缩短了处理时间并降低了试剂成本。此外,该融合技术可在染色质内直接实现高效的原位接头整合,无需进行DNA提取或片段化处理。因此,CmeCUT&Tag技术不仅更快、成本效益更高,还降低了输入量要求,可对仅数千个细胞核(5万个)或纳克级DNA(5纳克)的样本进行图谱分析(补充数据2包含了所有方法的对比)。在本研究中,我们重点将该方法与单细胞测序流程结合测试。如本研究所示,原位酶切技术可与基于微流控的单细胞技术或基于拆分池条形码编码的方法相结合,与基于微孔板的单细胞DNA甲基化图谱绘制技术相比,能显著提升通量并增加细胞数量。该技术还可与基于Tn5的空间基因组学流程兼容36。CmeCUT&Tag技术的局限性在于,在当前的设计下,它无法区分5-甲基胞嘧啶(5mC)和5-羟甲基胞嘧啶(5hmC),也无法覆盖甲基化水平低于40%的区域。我们在脑类器官和斑马鱼发育过程中,以及在肿瘤亚型分类中对甲基化动态图谱的绘制,证明了该方法在加深对发育和疾病中表观遗传调控机制理解方面的潜力。CmeCUT&Tag技术的成本效益和可扩展性使其特别适用于需要对多种条件进行甲基化图谱分析的大规模研究、临床应用及研究项目。这一技术为拓宽基因组范围DNA甲基化分析的应用范围迈出了重要一步。
方法
Tn5融合蛋白的克隆与制备
MBD结构域从类器官cDNA或ORFeome协作计划(OC)的相应cDNA克隆(MeCP2 AM392557/EU17665)37中扩增获得,或由TwistBiosciences直接合成,随后通过ClaI/EcoRI或NcoI/EcoRI限制性酶切,经连接或Gibson组装克隆至TXB1-pA/G-Tn510载体中。构建双结构域载体时,通过PCR融合各个结构域,并通过柔性连接子连接。为整合多个结构域,在柔性连接子中引入沉默突变以生成BamHI酶切位点,再通过Gibson组装插入额外的结构域。
2xMBD2(柔性连接子):FZ243_NcoI_Flag_MBD2_fw ccatgggtGATTACAAGGATCACGATGGCGATTACAAGGATCACGATATCGATTACAAGGATGATGATGATAAGatgaccatgattacgcca GAGAGCGGGAAGAGGATGGATTGCCCG FZ245_BamHI_MBD2-linker_rev cctccactggatccgccacctccCATCTTTCCAGTTCTGAAGTCAAAAC FZ246_BamHI_linker_MBD2_fw ggaggtggcggatccagtggaggtggcggaagcagtGAGAGCGGGAAGAGGATGGATTGC FZ244_EcoRI_SV40_MBD2_rev gaattctttatcgtcatcgaccttccgcttcttctttggCATCTTTCCAGTTCTGAAGTCAAAAC
NTD-MeCP2-IDR: FZ248_NcoI_MeCP2-NTD_fw ccatgggtGATTACAAGGATCACGATGGCGATTACAAGGATCACGATATCGATTACAAGGATGATGATGATAAGatgaccatgattacgcca ATGGTAGCTGGGATGTTAGGGCTCAGGG FZ249_EcoRI_MeCP2-ID_rev gaattctttatcgtcatcgaccttccgcttcttctttggACCCTCTGACGTGGCCGCCTTGGG
2xMeCP2(柔性连接子):NcoI_MeCP2_fw ccatgggtGATTACAAGGATCAC BamHI_MeCP2-linker_rev cctccactggatccgccacctccCTCTCGCCGGGAGGGGCTCCCTCTC BamHI_linker_MeCP2_fw ggaggtggcggatccagtggaggtggcggaagcagtGACCGGGGACCCATGTATGATGACC EcoRI_MeCP2_rev gaattctttatcgtcatcgaccttcc
4xMeCP2(柔性连接子):FZ250_MeCP2_gib_assembly_fw TCCCGGCGAGAGggaggtggcggaGGATCTagtggaggtggcggaagcagtGAC FZ251_MeCP2-MBD2_gib_assembly_rev CactgcttccgccacctccactggaTCCtccgccacctccCTCTCGCCGGGAGGGGCTCC
2xMLL1-CXXC(柔性接头):CXXC-MLL1_part1GTTTAACTTTAAGAAGGAGATATACCATGGGTGATTACAAGGATCACGATGGCGATTACAAGGATCACGATATCGATTACAAGGATGATGATGATAAGATGACCATGATTACGCCAAAGAAAGGACGTCGATCGAGGCGGTGTGGGCAGTGTCCCGGCTGCCAGGTGCCTGAGGACTGTGGTGTTTGTACTAATTGCTTAGATAAGCCCAAGTTTGGTGGTCGCAATATAAAGAAGCAGTGCTGCAAGATGAGAAAATGTCAGAATCTACAATGGATGCCTTCCAAAGGAGGTGGCGGATCCAGTGGAGGTGGCGGAAGCAGTCXXC-MLL1_part2GGAGGTGGCGGATCCAGTGGAGGTGGCGGAAGCAGTAAGAAAGGACGTCGATCGAGGCGGTGTGGGCAGTGTCCCGGCTGCCAGGTGCCTGAGGACTGTGGTGTTTGTACTAATTGCTTAGATAAGCCCAAGTTTGGTGGTCGCAATATAAAGAAGCAGTGCTGCAAGATGAGAAAATGTCAGAATCTACAATGGATGCCTTCCAAAGATGACGATAAAGAATTCGGTGGCGGTGGCTCTGGCGGTGGTGGGAGTGGAGGTGGGGGATCAGGAGGAGGCGGTTCCCATATGATTACCAGTGCACTGCATCGT
融合蛋白的纯化
对最终构建体进行测序后,将质粒转化至Rosetta感受态细胞中。将细菌接种于400毫升添加了氨苄青霉素和氯霉素的LB培养基中培养,至光密度600(OD600)值达到0.4-0.6。加入0.25毫摩尔异丙基-β-D-硫代半乳糖苷(IPTG)诱导蛋白表达,随后在18摄氏度条件下过夜培养以表达蛋白。收集细胞,将沉淀保存于-80摄氏度环境中,待后续处理。按照文献38所述的方法,使用几丁质树脂(New England Biolabs,货号#S6651S)进行蛋白纯化。
仅做了小幅修改。使用 Fisherbrand 超声波破碎仪裂解细胞,时间为 2.5 分钟,开/关循环为 10/10,强度设为 70%。
使用 Amicon Ultra-4 离心过滤器(默克密理博,货号 #UFC803024)进行透析和浓缩后,将蛋白质稀释至含 50% 甘油的溶液,其终浓度通过布拉德福德法结合凝胶条带强度确定为 300-400 纳克/微升;使用前需加入衔接子或甲基化衔接子(见下文)。CXXC-MLL1 在甘油中长期保存不稳定,应仅在纯化后立即使用。
Tn5MErev Tn5MErev [磷酸化]CTGTCTCTTATACACATCT
Tn5ME-A Tn5METCGTCGGCAGCGTCAGATGTGTATAAGAGACAG
Tn5ME-B Tn5ME-B GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG
癌细胞、诱导多能干细胞和类器官的培养
本研究中使用的细胞系来源于不同来源:
WIBJ2(WTSli046-A,雌性)和 HOIK(HPSI0314i-hoik_1,雌性)来自 HipSci 资源库39,以及 HCNPNeuroNA 基金会
CAU(女性)HCNP 神经神经国家基金会,Phenocell 公司 PC-1505
K562(处于急变期的慢性粒细胞白血病细胞),德国微生物菌种和细胞培养中心 编号 ACC 10
培养时,诱导多能干细胞(iPS cells)接种于铺有Matrigel(康宁公司,货号354277)的6孔培养板中,使用添加了青霉素/链霉素(P/S,比例1:200,赛默飞世尔科技公司,货号15140122)的mTeSR Plus培养基(斯特姆细胞技术公司,货号1000276)进行培养。为扩增细胞,使用TrypLE(赛默飞世尔科技公司,货号12605010)或含0.5毫摩尔/升终浓度EDTA的杜氏磷酸缓冲液(DPBS,赛默飞世尔科技公司,货号15575020)对细胞进行解离,并在添加了5微摩尔/升终浓度Rho相关蛋白激酶(ROCK)抑制剂Y-27632(斯特姆细胞技术公司,货号72302)的培养基中培养一天。细胞保存在含mFreSR培养基(斯特姆细胞技术公司,货号05855)的液氮中,每次解冻后均进行支原体检测(使用Venor GeM Classic试剂盒,米诺瓦生物实验室公司)。
为了产生脑类器官,细胞生长到大约50%的汇合,然后使用TrypLE解离。2000-3000个细胞在96孔超低附着板(Corning,#CLS7007)中聚集以形成胚状体(EB)。我们遵循非引导方案获得脑类器官40,有一些修改。EB在mTeSR Plus中聚集和培养,当EB达到大约400-500µm的直径时(通常在第5天)加入神经诱导培养基。含有维甲酸的神经分化培养基仅从第40天起加入41。脑类器官在6厘米的培养皿中摇晃生长,直到处理用于实验。
K562细胞在添加了10%胎牛血清(FCS,Sigma公司,货号SLM-240-B)以及青霉素/链霉素(P/S,稀释比例1:200,Gibco公司,货号#15140122)的RPMI培养基中培养。
本研究使用的细胞系通过将单细胞RNA测序和CUT&Tag技术鉴定出的单核苷酸多态性与参考数据集进行比对来完成验证。
DNMT1 抑制剂处理
在进行抑制剂处理时,按照前述方法,将 WIBJ2 细胞³⁹在 mTESR Plus 培养基中培养至汇合度达 30%。随后向培养基中加入 GSK3484862,使其终浓度为 5 微摩尔。细胞继续培养并常规传代,持续两周以确保 DNA 甲基化被充分耗竭。
在进行抑制剂处理时,按照前述方法,将 WIBJ2 细胞³⁹在 mTESR Plus 培养基中培养至汇合度达 30%。随后向培养基中加入 GSK3484862,使其终浓度为 5 微摩尔。细胞继续培养并常规传代,持续两周以确保 DNA 甲基化被充分耗竭。
使用神经组织解离试剂盒(P)(美天旎神经解离方案)将人类大脑类器官解离为单细胞悬液¹⁰。用手术刀将类器官切成小块,在添加了0.5%牛血清白蛋白的杜氏磷酸缓冲液中彻底洗涤,随后与含木瓜蛋白酶的酶混合物1在37摄氏度下孵育15分钟,接着加入含脱氧核糖核酸酶的酶混合物2。通过使用P1000和P200移液器吸头连续吹打并间歇性在37摄氏度下孵育进行机械解离,直至获得均匀的悬液。将细胞通过30微米滤网过滤,以300倍重力离心5分钟沉淀,重悬于洗涤缓冲液中,并用台盼蓝进行细胞计数。
斑马鱼胚胎(野生型图佩尔长鳍/AB株)经培养后进行解离42。简要步骤如下:受精后20分钟收集胚胎,于28℃的E3胚胎培养基中培养至目标发育阶段(H22期)。随后将胚胎在E3培养基中充分洗涤,转移至琼脂糖包被的培养皿中,用链霉蛋白酶去除卵膜后再次洗涤。进行细胞解离时,将胚胎在预冷缓冲液中去除卵黄,通过移液机械解离以获得单细胞悬液。进行细胞核分离时,将细胞沉淀在含去污剂的缓冲液中裂解、洗涤后,重悬于CUT&Tag洗涤缓冲液中。
用于检测组蛋白修饰的CUT&Tag技术
解离后取0.1-100万个细胞,将细胞转移至CUT&Tag洗涤缓冲液中(20 mM HEPES [pH 7.5](德国耶纳生物科学公司,货号CSS-511)、150 mM 氯化钠(西格玛奥德里奇公司,货号S6546)、0.5 mM 亚精胺(西格玛奥德里奇公司,货号S0266)、5 mM 丁酸钠(西格玛奥德里奇公司,货号303410)、罗氏蛋白酶抑制剂(西格玛奥德里奇公司,货号11873580001))。接着向样品中加入15 µl 结合缓冲液(20 mM HEPES(pH 7.5)、10 mM 氯化钾、1 mM (CaCl_{2})、1 mM 氯化锰)中的刀豆球蛋白A磁珠(波利科学公司,货号86057-3),并在室温下于转盘上孵育15分钟。随后将细胞置于磁铁上收集,通过加入CUT&Tag裂解液进行裂解用添加了0.01%洋地黄皂苷的洗涤缓冲液进行洗涤。通过台盼蓝染色在显微镜下监测裂解过程。裂解完成后,用CUT&Tag洗涤缓冲液再次洗涤细胞核。若可行,将所有样本均分,在相同起始材料上进行H3或其他染色质标记的CUT&Tag实验,以作为归一化对照。将抗体(每个反应1微克,针对组蛋白修饰或5mC)与终浓度为2毫摩尔的EDTA一同加入,随后将样本置于4℃的摇床上孵育过夜。次日,用CUT&Tag洗涤缓冲液洗涤样本一次,向反应体系中加入二抗,再在4℃的摇床上孵育1小时。再进行两次洗涤后,将Tn5(pA/G-Tn5)(每个反应600纳克)加入CUT&Tag中等缓冲液(20毫摩尔羟乙基哌嗪乙硫磺酸[pH 7.5](德国耶拿生物科学公司,货号CSS-511)、300毫摩尔氯化钠(西格玛奥德里奇公司,货号S6546)、0.5毫摩尔亚精胺(西格玛奥德里奇公司,货号S0266)、5毫摩尔丁酸钠(西格玛奥德里奇公司,货号303410)、罗氏蛋白酶抑制剂(西格玛奥德里奇公司,货号11873580001))中。Tn5在20℃的摇床上结合1小时。再进行两次洗涤后,通过在CUT&Tag中等缓冲液中加入10毫摩尔(MgCl_{2})诱导切割。在37℃孵育1小时后,加入终浓度为20毫摩尔的EDTA、0.5%的十二烷基硫酸钠和10毫克蛋白酶K终止反应。随后将反应体系在55℃孵育30分钟,最后在70℃灭活20分钟。
使用 ChIP DNA 清洁与浓缩试剂盒(Zymo Research,货号 #D5205)对 DNA 片段进行纯化。为从层析柱中洗脱,加入 10 皮克经 Tn5 酶切并纯化的λ噬菌体 DNA(New England Biolabs,货号 #N3011S)作为内参标准化物,用于后续分析。
本研究使用的抗体概览:
5mC 迪根诺德 C1520003,RD-007
H3K27ac诊断节点C15410196, A1723-0041D
H3K27me3 迪杰诺德 C15410195, A0824D
H3K36me3 Abcam AB9050,1063779-1
H3K4me1 Diagenode C15410194, A1862D
H3K4me3 迪杰诺德 C15410003,A1052D
H3K9me3 Abcam ab176916,GR3218257-2
基于基因组DNA的CmeCUT&Tag技术
类器官或组织解离后,使用DNeasy血液和组织试剂盒(Qiagen,#69504)按照制造商的说明提取基因组DNA。采用MBD融合Tn5转座酶进行DNA甲基化谱分析,以选择性靶向甲基化DNA。针对肿瘤活检样本的CmeCUT&Tag实验使用了来自完整样本的剩余DNA去标识化的组织样本。将 1 至 50 纳克纯化的基因组 DNA 在 100 微升 CUT&Tag 培养基(20 毫摩尔/升 HEPES,pH 7.5;300 毫摩尔/升 氯化钠;0.5 毫摩尔/升 亚精胺;5 毫摩尔/升 丁酸钠;罗氏蛋白酶抑制剂)中孵育,同时加入 600 纳克指定的 Tn5 转座酶构建体(单个样本信息见补充数据 1)。结合反应在 4 摄氏度下进行 2 小时。ProteinA/G 偶联 Tn5(pA/G-Tn5)用作对照,并以相同方式处理。
通过向 CUT&Tag 培养基中加入 (MgCl_{2}) 使其终浓度达到 10 mM,启动了标签化反应。反应在 37 摄氏度下孵育 1 小时,随后加入 EDTA 使其终浓度达到 12.5 mM 以终止反应。
使用 ChIP DNA 纯化与浓缩试剂盒(Zymo Research,货号 #D5205)对 DNA 片段进行纯化。为在下游分析中实现标准化,在柱洗脱步骤中向洗脱缓冲液中加入 10 皮克经 Tn5 酶切并纯化的λ噬菌体 DNA(New England Biolabs,货号 #N3011S)。
细胞核上的CmeCUT&Tag技术
从解离后的0.1–100万个细胞开始(单个样本信息见补充数据1),将细胞转移至CUT&Tag洗涤缓冲液(20 mM HEPES,pH 7.5;150 mM 氯化钠;0.5 mM 亚精胺;5 mM 丁酸钠;Roche 蛋白酶抑制剂混合物)中。加入15微升在结合缓冲液(20 mM HEPES,pH 7.5;10 mM 氯化钾;1 mM 氯化钙 (CaCl_{2});1 mM 氯化锰)中预平衡的生物磁刀豆球蛋白A磁珠(Polysciences,货号#86057-3),随后将样品置于旋转轮上,室温孵育15分钟。
使用磁力架收集细胞,并在添加了0.01%洋地黄皂苷的CUT&Tag洗涤缓冲液中孵育裂解细胞。通过光学显微镜下台盼蓝染色监测裂解效率。完全裂解后,将细胞核重悬于150微升CUT&Tag培养基缓冲液(20毫摩尔/升HEPES,pH 7.5;300毫摩尔/升氯化钠;0.5毫摩尔/升亚精胺;5毫摩尔/升丁酸钠;罗氏蛋白酶抑制剂)中。
加入MBD融合或CXXC融合的Tn5转座酶,结合反应在4℃下进行2小时。使用ProteinA/G偶联的Tn5(pA/G-Tn5)作为对照,并以相同方式处理。用400微升CUT&Tag med缓冲液洗涤磁珠两次,之后向磁珠中加入100微升补充有10毫摩尔(MgCl_{2})的CUT&Tag med缓冲液以启动转座反应。反应在37℃下孵育1小时,通过加入EDTA(终浓度12.5毫摩尔)、SDS(终浓度0.5%)和蛋白酶K(终浓度10毫克/毫升)终止反应。样品在55℃下孵育30分钟,随后在70℃下灭活酶20分钟。
使用 ChIP DNA 清洁与浓缩试剂盒(Zymo Research,货号 #D5205)对 DNA 片段进行纯化。为了在下游分析中实现标准化,在柱洗脱过程中向洗脱缓冲液中加入 10 皮克经 Tn5 酶切和纯化的 λ 噬菌体 DNA(New England Biolabs,货号 #N3011S)。
CUT&Tag和CmeCUT&Tag测序文库的构建
使用 NEBNext 高保真 2×PCR 预混液(新英格兰生物实验室,货号 M0541S)以及 Illumina i5 和 i7 索引序列43,对纯化后的片段进行 15 个循环的索引扩增(58℃ 5 分钟 1 次、72℃ 5 分钟 1 次、98℃ 30 秒 1 次、98℃ 10 秒 14 次、63℃ 30 秒、72℃ 1 分钟 1 次,4℃ 无限期保存)。随后使用 AMPure 磁珠(贝克曼库尔特,货号 A63881)对文库进行纯化。通过 Qubit 核酸高灵敏度检测试剂盒(赛默飞世尔科技,货号 Q32854)对文库进行浓度测定与质量控制,并在 TapeStation 生物分析仪(安捷伦,货号 5067-4626)上进行分析。最后对文库进行双端测序(PE,2×75 碱基对)。
单细胞DNA甲基化CmeCUT&Tag
从解离后的200万个细胞开始,将细胞转移至洗涤缓冲液(20 mM HEPES,pH 7.5;300 mM NaCl;0.5 mM 亚精胺;5 mM 丁酸钠;1× Roche 蛋白酶抑制剂混合物;2% 牛血清白蛋白)中。通过在添加了0.01% 洋地黄皂苷的洗涤缓冲液中孵育使细胞裂解。在光学显微镜下通过台盼蓝染色监测裂解效率和单细胞悬液的质量。使用吊桶转子在4℃下以300×g离心5分钟。完全裂解后,将细胞核重悬于200微升洗涤缓冲液中。将诱导多能干细胞(CAU)、白血病细胞(K562)和脑类器官细胞(HOIK)的等量细胞核混合。
加入2微升MBD融合的Tn5转座酶,结合反应在4℃下进行2小时。细胞核用200微升洗涤缓冲液洗涤两次,每次洗涤后在4℃、300倍重力下离心5分钟。随后,加入200微升转座反应缓冲液(洗涤缓冲液中添加10 mM (MgCl_{2}))以启动转座反应。反应在37℃下孵育1小时,通过加入终止缓冲液(Chromium Next GEM单细胞ATAC试剂试剂盒v2中的1× DNB缓冲液;2%牛血清白蛋白;25毫摩尔乙二胺四乙酸)终止反应。
样品通过40微米的Flowmi尖端滤网(货号BAH136800040-50EA)过滤并离心。细胞核沉淀重悬于200微升添加了2%牛血清白蛋白的1倍DNB缓冲液中,通过光学显微镜评估细胞核浓度和单细胞核完整性。细胞核再次沉淀后重悬于约20微升缓冲液中,在凝胶珠生成和条形码标记前再次计数。孵育结束后,我们此时获得了约12万个细胞核,相当于初始投入量的约15%。
在进行单细胞核文库制备时,将细胞核悬液与ATAC缓冲液(Chromium Next GEM单细胞ATAC试剂试剂盒v2)混合,最终体积调至15微升(含7微升ATAC缓冲液、最多8微升细胞核悬液,以及含2%牛血清白蛋白的1×DNB缓冲液)。对于样本,将1万个细胞核上样至Chromium Next GEM芯片,并按照制造商的方案进行处理(步骤2-4:GEM生成与条形码标记、GEM孵育后纯化及文库构建)。测序后、过滤前,本实验共获得1950个带有有效条形码的细胞,与上样量相比回收率为20%。
CmeCUT&Tag 结合亚硫酸氢盐或酶促转化
为实现核苷酸分辨率,我们对Tn5酶切的DNA片段进行了亚硫酸氢盐转化或酶促甲基化转化。在染色质酶切过程中,我们使用了仅带有一个接头(Tn5ME-A或Tn5ME rev)的MBD-Tn5,这两种接头均被完全甲基化,以在胞嘧啶转化过程中保持接头的完整性。
Tn5mC1.1-A1block /5Phos/CT GTC TCT TAT ACA /3ddC/ Tn5ME-A Tn5mC-ReplO1 Tn5ME-A T[5甲基化dC]GT[5甲基化dC]GG[5甲基化dC]AG[5甲基化dC]GT[5甲基化dC]AGATGTGTATAAGAGA[5甲基化dC]AG /5Phos[5甲基化dC]TGT[5甲基化dC]T[5甲基化dC]TTATA[5甲基化dC]A[5甲基化dC]AT[5甲基化dC]T[5甲基化dC][5甲基化dC]GAG[5甲基化dC] [5甲基化dC]CA[5甲基化dC]GAGA[5甲基化dC]/3InvdT/
完成第一轮标签化步骤后,我们加入10皮克未甲基化的T7 DNA作为对照,以检测转化效率。我们使用ChIP DNA纯化与浓缩试剂盒(Zymo Research,货号#D5205)对反应产物进行纯化,并以12微升体积洗脱。
为将 Tn5mC1.1-A1block 寡核苷酸替换为 Tn5mC-ReplO1,将纯化的 DNA 片段与 1 mM dNTPs 以及 1 mM Tn5mC-ReplO1 1x Ampligase 缓冲液(Lucigen 公司产品)共同孵育。反应在热循环仪中通过以下程序进行:50 ℃ 孵育 1 分钟,45 ℃ 孵育 10 分钟,随后以 -0.1 ℃/秒的升温速率冷却至 37 ℃ (-0.1^{circ} C s^{-1}) ¹。接着加入 1 微升 T4 聚合酶(M0203S)和 2.5 微升 Ampligase(Lucigen 公司产品),将反应体系在 37 ℃ 下孵育 30 分钟。通过向反应体系中加入 EDTA 使其终浓度达到 25 mM 来终止反应。 使用 ChIP DNA 清洁与浓缩试剂盒(Zymo Research 公司,货号 #D5205)对片段进行纯化后,我们按照制造商说明书,使用 EZ DNA 甲基化 Lightning 试剂盒(Zymo 公司,货号 D5030-E)或 NEBNext 酶促甲基化测序 v2 转化模块(New England Biolabs 公司,货号 #E8020)将未甲基化的胞嘧啶转化为尿嘧啶。随后在 Zymo 层析柱上对 DNA 进行纯化,或采用基于磁珠的纯化方式进行纯化,最终在 25 微升 EB 缓冲液中洗脱,该缓冲液中添加了 10 皮克经 Tn5 酶切和纯化的 λ 噬菌体 DNA(New England Biolabs 公司,货号 #N3011S),作为下游分析的内参标准化物质。
亚硫酸氢盐及酶促转化后的测序文库
进行文库扩增时,向25微升KAPA HiFi尿嘧啶预混液(罗氏,货号#KK2801)中加入21微升DNA片段,以及2微升i7和i5索引引物(浓度均为25微摩尔/升)。将样品置于热循环仪中进行17个循环的扩增反应(98℃预变性45秒1个循环;98℃变性15秒、63℃退火30秒、72℃延伸30秒,共17个循环;72℃终延伸2分钟1个循环;4℃保温,∞表示无限期保持)。
免疫荧光染色
用DNA甲基化抑制剂GSK-3484862或二甲基亚砜(DMSO)处理一周后,将诱导多能干细胞(iPSCs,WIBJ2株)接种到经多聚-L-赖氨酸处理的盖玻片上进行免疫染色,使其恢复培养2天。将盖玻片在室温下用4%多聚甲醛(PFA)固定15分钟。随后,用磷酸盐缓冲液(PBS)洗涤盖玻片3次。将盖玻片置于预热的HistoVT One修复液(Nacalai,货号06380)中,50℃下进行抗原修复20分钟。抗原修复后,用含0.1%吐温-20的PBC溶液透化盖玻片。之后,将盖玻片置于2摩尔/升盐酸溶液中,37℃下孵育30分钟使DNA变性。接着用0.1摩尔/升硼酸盐溶液中和玻片,并用PBS快速洗涤。随后,用含0.1%吐温-20和1%牛血清白蛋白(BSA)的PBC溶液在室温下封闭玻片1小时,再与5-甲基胞嘧啶(5mC,Diagenode,货号C15200081,稀释比例1:5000)和组蛋白H3第27位三甲基化(H3K27me3,Diagenode,货号C15410195,稀释比例1:1000)的一抗在4℃下孵育过夜。次日,用含0.1%吐温-20的PBS洗涤盖玻片3次,再与二抗在室温下孵育1小时。二抗孵育完成后(使用抗小鼠488荧光二抗,Thermo,货号A21202;抗兔488荧光二抗,Thermo,货号A10040),将盖玻片与用含0.1%吐温-20的PBS稀释的4',6-二脒基-2-苯基吲哚(DAPI)孵育,再用含0.1%吐温-20的PBS洗涤两次。最后,将盖玻片用Vectashield封片。使用尼康Ti2显微镜对玻片进行成像观察。
CUT&Tag数据的预处理、比对与标准化
首先,生成了一个由人类基因组(hg38,Ensembl 版本113,主要组装,https://ftp.ensembl.org/pub/release-113/fasta/homo_sapiens/dna/)组成的混合基因组,
大肠杆菌 发哥 λ噬菌体
(https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000840245.1/),以及大肠杆菌噬菌体T7(https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000844825.1/)。使用snakePipes(版本3.1.045)中的createIndices流程构建了混合基因组索引。
使用 snakePipes 中的 DNAmapping 流程及 BWA-mem2 比对工具45,将 CUT&Tag 测序数据比对至杂合基因组。利用 deepTools46(3.3.0 版本)中的 bamCoverage 工具,将生成的比对 BAM 文件转换为 BigWig 文件,随后根据比对至加标区域的读段数量进行标准化。若未设置加标对照纳入分析时未进行标准化,与人源匹配的数据直接用于下游分析。
对于双端测序文库,使用 deepTools 中的 bamPEFragmentSize 工具评估了片段大小。
CUT&Tag数据的峰识别与染色质状态注释
使用 MACS347(3.0.1 版),通过参数 --broad-cutoff 0.1、--nolambda 从单次测序运行的 BAM 文件中调用出宽峰。利用 subread(2.0.248 版)中的 featureCounts,通过量化与对应宽峰重叠的读数,为每个 BAM 文件计算峰中读数占比(FRiP 分数)。使用 ChIP-R49 鉴定生物学重复的共有峰;重复样本通过 ChIP-(R^{49}) 进行鉴定。
MBD 构建体的比较
为比较不同MBD构建体的富集模式,研究人员利用ChIPR整合所有构建体的一致性峰,生成了CmeCUT&Tag的联合峰集。该联合集代表了至少一个构建体所识别的区域。峰的交集情况通过Intervene50进行可视化展示。
为了评估构建特异性峰与CpG岛之间的重叠情况,我们从UCSC基因组浏览器(http://genome.ucsc.edu)获取了hg38版本的CpG岛轨道,并对BED文件进行过滤,仅保留标准染色体(1-22号染色体、X染色体、Y染色体和线粒体染色体)。
已发表人类DNA甲基化数据集的处理
本研究分析了六组已发表的DNA甲基化数据集和一组ATAC数据集:
1. 人类胚胎干细胞(hES)或诱导多能干细胞(iPS)的简化代表性亚硫酸氢盐测序(RRBS)数据集⁵。(基因表达综合数据库登录号 GSE25970)
2. 大脑类器官的全基因组亚硫酸氢盐测序(WGBS)数据集18。(基因表达综合数据库登录号 GSE82022)
3. 人类皮质类器官的MethylationEPIC BeadChip Kit数据集48。(GEO 登录号 GSE150122)
4. 人类 (iPSC ^{51}) 的 MethylationEPIC BeadChip 试剂盒数据集(基因表达综合数据库编号 GSE158089)
5. 针对人类胚胎干细胞(H1)的MBD-seq(MBD2结构域)数据集19(基因表达综合数据库登录号:GSE159071)
6. 人类胎儿大脑和神经球培养细胞(皮质来源)的MeDIP-seq数据集20(基因表达综合数据库登录号:GSM66910、GSM66912、GSM66914、GSM66915、GSM707019、GSM817248、GSM817249)
7. 人类(iPSCs ^{52})的ATACseq数据集(GEO登录号GSE203377)
对于RRBS数据集,首先使用liftOver工具将原始甲基化数据(BED格式)从hg16基因组组装版本转换为hg38版本53,54。合并了不同细胞阶段的生物学重复样本,包括第16天的20个人胚胎干细胞系、12个人诱导多能干细胞系和5个人类类胚体系。随后计算了每个细胞阶段的CpG甲基化百分比。
对于全基因组亚硫酸氢盐测序(WGBS)数据集,使用 methylpy 软件的 filter-allc 命令,从 allc 格式的预处理数据中提取了 CG 甲基化图谱⁵⁵。将生成的 allc 文件转换为 BED 格式,并从 hg19 版本提升至 hg38 版本。随后合并生物学重复样本,计算人类胚胎干细胞(hESCs)、人类胚胎体(hEBs,第16天)、大脑类器官(第40天和第60天)以及胎儿皮层(额中回,孕19周)的 CpG 和非 CpG 甲基化百分比。
对于两份 MethylationEPIC BeadChip 试剂盒数据集,我们使用了包含甲基化和非甲基化信号强度的汇总信号文件。以 100 为偏移量计算每个探针的 β 值。借助 Infinium MethylationEPIC v2.0 试剂盒(https://emea.illumina.com/products/by-type/microarray-kits/infinium-methylation-epic.html)的探针坐标(MAPINFO),将探针匹配到 hg38 组装版本的基因组位置上。
对于MBD-seq数据集¹⁹,4个重复样本的原始测序数据按照上述CmeCUT&Tag的处理方法进行了相同的处理。
对于MeDIP-seq数据集,BigWig文件从美国国家卫生研究院表观基因组学路线图项目数据列表下载20。对源自皮质的神经球的两个BigWig文件取平均值,并对胎儿大脑的五个BigWig文件取平均值。
对于ATAC-seq数据52,合并了24个诱导多能干细胞系的峰(broadPeak格式)。
已发表斑马鱼DNA甲基化数据集的处理
分析了两个来自斑马鱼胚胎(受精后24小时,hpf)的公开DNA甲基化数据集:
1. 全基因组亚硫酸氢盐测序(WGBS)数据(两个生物学重复;GEO 登录号:GSE17967334)
2. MethylCap-seq 及 H3K27me3 染色质免疫沉淀测序数据(一组生物学重复;基因表达综合数据库登录号:GSE35050 及 GSE7084733)
斑马鱼参考基因组(GRCz11)从Ensembl数据库(第115版;https://ftp.ensembl.org/pub/release-115/fasta/danio_rerio/dna/)获取。所有数据集均经过处理使用与上述描述相同的参数运行snakePipes,以确保一致的预处理和下游分析。
CUT&Tag峰的染色质状态与ChIPseeker注释
使用 ChromHMM21,56 对共识峰的染色质状态进行注释,方法是通过 OverlapEnrichment 函数将峰的 BED 文件映射到预定义的 100 状态模型。基于提供的组注释,对该 100 状态模型进行了进一步汇总。
为注释峰的基因组区域,使用了 ChIPseeker23 包中的 annotatePeak 函数,参数设置为 tssRegion = c(-3000, 3000)、annoDb = "org.Hs.eg.db"、overlap = 'TSS'。
外显子、非翻译区和内含子被归为基因本体区域。峰集与CpG岛进行了重叠比对。
CUT&Tag 峰的 CG 计数与甲基化谱分析
为进一步表征 CUT&Tag 结合区域,使用 bedtools(版本 2.30.057)中的 nuc 函数计算了 CG 含量(%)和 CpG 二核苷酸计数(不区分大小写)。
通过将峰区与已发表的全基因组亚硫酸氢盐测序(WGBS)18数据在bedtools的map函数中进行交集运算,得到CpG甲基化谱。对于每个峰,计算其平均CpG甲基化水平(%mCpG),方法为该区域内总甲基化信号数除以区域内存在的CpG位点数量。
使用bedtools的shuffle函数生成背景峰集,该函数会在保留基因组区间原始长度分布的前提下随机重定位这些区间。
为了评估 CmeCUT&Tag 富集度(BigWig 信号)如何随甲基化水平变化,研究人员根据峰值在 10% 区间的 %mCpG 值(0–10%、10–20%、……、90–100%)将峰值划分为不同区间。针对每个区间,研究人员计算了所有峰值的 CmeCUT&Tag 信号中位数(使用 bigWigAverageOverBed 工具计算)并进行绘图。
DNA甲基化抑制后H3K27me3差异富集区域
在 (R^{58}) 中,使用 DiffBind 软件包分析了 DMSO 处理和 DNMT1 抑制剂处理下 H3K27me3 CUT&Tag 实验的 BAM 文件(每个条件有 2 个生物学重复)。假发现率为 ( FDR )<0.05) 的区域被视为显著差异富集区域。随后,利用 ChromHMM 染色质状态模型对 DiffBind 识别的区域进行注释。在 (R^{59}) 中,通过 clusterProfiler 软件包的 enrichGO 函数对差异结合区域最近的基因进行了基因本体论分析。
单细胞CmeCUT&Tag
单细胞 (C ^{meCUT&Tag }) CUT&Tag 数据通过 cellranger count 比对到 hg38 基因组,获得了1950个带有有效10x条形码的细胞。在对每个细胞的计数数量 (>20))、每个细胞的特征数量 (>20))、核小体信号 (<3.5)、FRiP 分数 (>15)) 以及经过过滤的片段数量 (<10000) 进行过滤后,保留了1799个细胞。每个细胞经过过滤的平均片段数为1054(中位数为629),与以往的研究报道10,60相当;平均 FRiP 分数为29%。
为将单个细胞分配至不同的细胞系,研究人员使用 Demuxlet61 工具,结合从 K562(https://www.encodeproject.org/files/ENCFF538YDL/)、CAU 和 HOIK 细胞系(通过 bcftools 构建)获取的 VCF 文件,开展基于基因型的单核苷酸多态性(SNP)多重测序拆分分析。完成 SNP 多重测序拆分后,研究人员保留了 1132 个细胞,每个细胞平均拥有 1160 个片段(中位数为 754),并利用 Seurat62 和 Signac63 工具包中的 FindNeighbors 与 FindClusters 函数,对这些细胞进行后续的聚类分析。
CmeCUT&Tag-BS/EM 的预处理
使用从 snakePipes 改编而来的全基因组亚硫酸氢盐测序(WGBS)流程对亚硫酸氢盐转化数据进行处理。简而言之,序列比对使用 bwameth2 完成,该工具以 bwa-mem2 作为底层比对软件⁶⁴。将 BAM 文件转换为 BigWig 文件,并按上述方法进行峰识别。
使用 MethylDackel65 从生成的 BAM 文件中提取峰中 CpG 二核苷酸甲基化谱,参数如下:--mergeContext、--maxVariantFrac 0.1、-minDepth 5。
亚硫酸氢盐/酶促转化效率的测定
亚硫酸氢盐处理将未甲基化的胞嘧啶(C)转化为尿嘧啶(U),尿嘧啶在测序过程中被读取为胸腺嘧啶(T)。亚硫酸氢盐转化率(CR)的计算公式为:
由于DNA甲基化主要发生在CpG位点,因此通常认为非CpG(CHH)背景下的胞嘧啶未被甲基化。因此,亚硫酸氢盐转化效率通常使用CHH位点进行估算,方法如下:
针对基因组 CHH 甲基化和未甲基化的噬菌体 T7 掺入样本,采用了两种独立的方法进行胞嘧啶甲基化(CR 甲基化)分析。使用 MethylDackel mbias –CHH 提取 CHH 甲基化水平。
抑制剂处理后DNA甲基化降低的EM-seq定量分析
使用 MethylKit 包中的 methRead 函数,将从 MethylDackel 生成的 CpG 二核苷酸甲基化谱图(BismarkCoverage 文件格式)读入 R 语言环境。通过 (lo.count =5)、(lo.perc =1)、(hi.perc =99) 这三个标识符对 CpG 二核苷酸甲基化谱图进行过滤。随后利用 percMethylation 函数计算每个 CpG 位点的甲基化率。
组蛋白修饰CUT&Tag与CmeCUT&Tag的主成分分析
为评估 C ^{meCUT&Tag }与 CmeCUT&TagBS/EM 之间的结合谱是否一致,研究人员使用 deepTools 中的 multiBamSummary 工具对 Cme CUT&Tag 峰区的信号强度进行了定量分析。分析纳入了组蛋白修饰 CUT&Tag、2xMBD2-CUT&Tag 以及 2xMBD2-CUT&Tag-BS/EM 实验的 BAM 文件。随后,利用 Python 对生成的矩阵进行主成分分析(PCA),重点关注前两个主成分以进行可视化展示。
Cme CUT&Tag 与全基因组亚硫酸氢盐测序的覆盖度要求
为了估算在 C ^{meCUT&Tag } 峰上达到特定覆盖度阈值所需的读长数量,我们将所有 CmeCUT&Tag 测序运行的 BAM 文件合并,创建了两个数据集:一个用于细胞核来源的样本,包含 1.01 亿条比对正确且配对的读长;另一个用于基因组 DNA,包含 1.91 亿条读长(读长长度为 75 个碱基对)。随后,将每个数据集分别下采样至 200 万、500 万、1000 万、2000 万、5000 万和 1 亿条读长,并利用 deepTools 中的 plotCoverage 工具计算峰上每碱基对的中位覆盖度。
为给人类基因组(3.2吉碱基)的全基因组测序(WGS)提供参考依据,利用公式估算了达到等效覆盖度所需的75碱基对测序读长数量:
MethylationEPIC 区域的 CmeCUT&Tag 富集分析
DNA 甲基化数据来自两个诱导多能干细胞(iPSC)样本的 Illumina MethylationEPIC 芯片测序(编号 GSE158089),共获得 517,789 个带有 β 值的探针。针对每个探针,计算其重复样本的 β 值平均值。随后使用 bedtools merge -d 2000 工具将探针合并为连续的 2 千碱基对(kb)区域,最终得到 70,676 个区域。将合并后的区域按平均甲基化水平(β 值)进行排序,并绘制 CUT&Tag 信号热图以使用 deepTools 中的 plotHeatmap 工具在这些区域生成了 H3K4me3 和 CmeCUT&Tag (2xMBD2) 的图谱。
脑类器官发育过程中的差异富集区域
使用 R 语言的 DiffBind 软件包分析了来自三个发育阶段(诱导多能干细胞、第16天和第210天)的 (Cme) 切割与标签(每个时间点2个重复)以及 CmeCUT&Tag-BS(每个时间点2个重复)的 BAM 文件。对每一组时间点组合进行了成对差异富集分析。错误发现率为 ( FDR )<0.05) 的区域被视为显著差异富集区域。随后利用 ChromHMM 染色质状态模型对标准染色体(1-22号染色体)上的 DiffBind 区域进行注释。按照上述方法对最近的基因进行了基因本体论(GO)分析。
基于CmeCUT&Tag-BS技术的差异区域DNA甲基化谱分析
为评估差异结合区域内的DNA甲基化水平,将CmeCUT&Tag-BS的BAM文件按时间点合并(每个时间点2个重复)。使用R语言中的methylKit包处理CpG甲基化覆盖度文件,最低覆盖度阈值设为5(minCov = 5)。随后对先前鉴定的DiffBind区域的甲基化数据进行汇总。通过percMethylation()函数提取每个区域的DNA甲基化百分比(%DNAme)。将区域分为四类:未检测到(no_detection)、低甲基化(0–20%)、中度甲基化(20–80%)和高度甲基化(80–100%)。
crossNN 对肿瘤活检样本的预测
CmeCUT&Tag-BS/EM 数据按上述方法进行预处理。将 CpG 甲基化调用结果(Bismark 覆盖度格式的 MethylDackel 输出文件)从 hg38 版本映射到 hg19 版本,并与 Illumina EPIC 450k 探针坐标进行交集分析。匹配的 CpG 位点被转换为 bedMethyl 格式以适配分类器。排除测序覆盖度小于5倍的 CpG 位点。过滤后匹配 EPIC 探针的 CpG 特征少于300个的样本被剔除出后续分析。
得到的探针水平甲基化谱图被用作在2801个EPIC 450k参考样本上预训练的crossNN分类器的输入3。
为了消除 CmeCUT&Tag-BS/EM 可能引入的检测特异性偏差,我们通过减去从对照脑类器官(所有样本取平均)得到的平均对数几率向量,对肿瘤活检的类别对数几率进行了校准。校准后的对数几率随后被转换为使用softmax函数的类概率。预测甲基化类(MC)被定义为具有最大后验概率的类。
为构建混淆矩阵,根据分类方案3,将预测的甲基化类别标签汇总至甲基化类别家族(MCF)。