0512-8957 3668 / 18013764755
【文献解读】水平基因转移在多种真核生物中广泛存在
来源:https://doi.org/10.1186/s12864-026-12958-7 | 作者:木芮生物 | 发布时间: 2026-06-12 | 8 次浏览 | 🔊 点击朗读正文 ❚❚ | 分享到:
水平基因转移(HGT)是指遗传物质在亲缘关系较远的生物之间进行转移的过程。尽管水平基因转移是原核生物间普遍存在的遗传交换机制,但涉及真核生物的基因转移事件通常被认为较为罕见,且仅局限于少数类群。本研究对10种真核生物(包括人类、小鼠、牛、蜥蜴、青蛙、斑马鱼、果蝇、线虫、拟南芥和酵母)的水平基因转移区域(HGTs)进行了全基因组鉴定。通过将这些生物的基因组与数千种真核生物、细菌和病毒基因组进行比对,我们发现每个真核物种中存在10至237个非冗余水平基因转移区域。对10种分析物种中的大多数进行三代测序,并结合拟南芥的靶向PCR技术,对鉴定出的水平基因转移区域进行了验证,排除了污染因素。受水平基因转移影响的基因在跨膜转运功能上显著富集。部分水平基因转移区域在宿主基因组中发生了广泛复制,影响了数百甚至数千个基因。本研究结果表明,水平基因转移在本文分析的所有各类真核生物中均普遍存在,它是真核生物基因组进化中一个不可忽视、但此前未被充分认识的重要贡献因素。


题目:Horizontal gene transfer is widespread in diverse eukaryotes

原文链接:https://doi.org/10.1186/s12864-026-12958-7

期刊:BMC Genomics


摘要

水平基因转移(HGT)是指遗传物质在亲缘关系较远的生物之间进行转移的过程。尽管水平基因转移是原核生物间普遍存在的遗传交换机制,但涉及真核生物的基因转移事件通常被认为较为罕见,且仅局限于少数类群。本研究对10种真核生物(包括人类、小鼠、牛、蜥蜴、青蛙、斑马鱼、果蝇、线虫、拟南芥和酵母)的水平基因转移区域(HGTs)进行了全基因组鉴定。通过将这些生物的基因组与数千种真核生物、细菌和病毒基因组进行比对,我们发现每个真核物种中存在10至237个非冗余水平基因转移区域。对10种分析物种中的大多数进行三代测序,并结合拟南芥的靶向PCR技术,对鉴定出的水平基因转移区域进行了验证,排除了污染因素。受水平基因转移影响的基因在跨膜转运功能上显著富集。部分水平基因转移区域在宿主基因组中发生了广泛复制,影响了数百甚至数千个基因。本研究结果表明,水平基因转移在本文分析的所有各类真核生物中均普遍存在,它是真核生物基因组进化中一个不可忽视、但此前未被充分认识的重要贡献因素。


引言

水平基因转移(HGT)是指遗传物质在不同生物体之间的传递,而非亲代向子代的传递,它是细菌和古菌基因组进化的主要驱动力。平均而言,细菌中81%的基因都参与了水平基因转移。近期研究证据表明,真核生物中也存在水平基因转移事件。例如,有研究报道了土壤细菌向双星藻纲和有胚植物共同祖先发生的水平基因转移,这一转移增强了其在陆地适应过程中对生物和非生物胁迫的抗性。植物解毒基因BtPMaT1的水平基因转移,使粉虱获得了丙二酰化的能力,从而对一类常见的植物防御化合物实现解毒。此外,在218种昆虫中,通过741次来自非后生动物供体的独立转移事件获得了1140个基因;而小菜蛾中缺失了从细菌转移而来的LOC105383139基因的雄性,对雌性的求偶行为显著减少。水平基因转移的另一典型案例是沃尔巴克氏体属(Wolbachia spp.)约1.5兆碱基的DNA片段被整合研究人员将其转入潮虫普通卷甲虫的基因组,由此形成了一条新的W性染色体,而沃尔巴克氏体基因组的片段也可能转移到其他昆虫和线虫体内。列当科的五种寄生植物基因组、单细胞病原体以及吸血寄生虫中均已发现水平基因转移现象。源自内共生细胞器的水平基因转移事件早已得到证实,也有学者提出单细胞真核生物和生物的早期发育阶段尤其容易发生水平基因转移。目前已明确DNA转入真核生物基因组的多种机制,包括病毒感染、转座子作用、细菌与真核生物间的接合转移,以及来自内共生体(不仅包括质体和线粒体)的转移。有研究表明,捕食等行为以及寄生等生活方式会促进真核生物的DNA转移。因此,尽管与细菌和古菌相比,真核生物中的水平基因转移发生率或许较低,但该现象确实存在。不过,真核生物中水平基因转移事件的规模及其产生的影响,目前仍知之甚少。

本文提出了一种计算高效的方法,可结合序列组成偏倚与序列比对来真核生物中的水平基因转移(HGTs),我们通过模拟数据集并与其他已报道结果对比对该方法进行了评估。与以往主要聚焦于蛋白质编码区的方法不同,我们的分析在全基因组层面开展,能够检测基因组编码区与非编码区中的候选水平基因转移区域。我们将该方法应用于10个具有高质量基因组组装结果的代表性模式生物,这对减少全基因组水平基因转移检测中由污染导致的假阳性至关重要。研究还纳入了大量细菌和病毒基因组,以揭示真核生物水平基因转移事件中潜在的供体生物或载体。


结果

一种真核生物基因组的水平基因转移鉴定方法及其评估

我们开发了一种计算效率高的方法,用于检测真核生物中的水平基因转移(HGT)区域,该方法突破了传统蛋白质编码区域的局限,还能对非编码区域进行全面分析。由于全基因组水平基因转移检测需要计算密集型的高精度比对(已报道的水平基因转移事件的平均氨基酸相似度为39%),我们提出了一种将序列组成筛选与序列比对方法相结合的优化方案,以实现兼顾计算效率与可靠检测。(图S1;见方法部分)

简而言之,我们首先根据k-mer频率识别出与基因组其余部分差异最大的基因组区域,随后将这些筛选出的基因组区域与其他基因组进行比对。在序列比对之前,我们依据分类学信息将所有基因组划分为三个不同类别,包括自身组(SG)、近缘组(CRG)和远缘组(DRG),更多分类信息可参见方法部分与表S1。若某一基因组区域的序列保守性水平与相关物种的系统发育树不一致,则将其认定为候选水平基因转移区域。具体而言,若一个基因组区域在比对一致性百分比和长度上,与远缘组(DRG)物种的基因组相似度高于近缘组(CRG)物种的基因组,那么该区域被判定为发生在自身组(SG)所列生物共同祖先中的水平基因转移序列。

我们利用包含模拟水平基因转移(HGT)事件的模拟基因组H对该方法进行了评估(见方法部分)。由于我们的HGT识别流程包含两个主要步骤(基于序列组成的筛选和序列比对),因此对这两个步骤均进行了评估。当将k-mer组成与宿主基因组差异最大的前1%片段输入流程后,基于序列组成的筛选步骤可识别出20.6%的正确结果,序列比对步骤可识别出17.77%的正确结果(图S2A;表S2)。当输入片段的比例提升至20%时,两个步骤分别可识别出58.9%和57.1%的正确结果,且所有情况下的预测准确率均高于90%(图S2A;表S2)。这表明我们的流程在提升处理速度的同时,并未降低所识别HGT事件的可靠性,尽管在召回率上可能存在一定的权衡。

我们还利用先前报道的烟粉虱的170个水平基因转移事件(HGTs)对我们的分析流程进行了评估(参见方法部分)。当仅将前20%的基因组片段输入我们的分析流程时,170个先前报道的HGTs中有122个(71.8%)在基于序列组成的筛选步骤后得以保留,这表明第一步保留了大多数已知的候选HGTs;而在序列比对步骤后,170个先前报道的HGTs中有55个(32.4%)被成功识别(图S2B)。由于这两个数据集之间的重叠并非严格的一一对应关系,这55个先前报道的HGTs对应于我们鉴定出的62个HGT区域分析流程。总体而言,我们的分析流程鉴定出131个水平基因转移事件(HGTs),其中62个(47.3%)与先前报道的水平基因转移事件重叠,而69个(52.7%)则不重叠(图S2B;表S3)。在69个未被报道的新水平基因转移事件中,36个与蛋白质编码序列无重叠,这使得先前仅限于蛋白质编码区域的水平基因转移鉴定方法无法检测到这些事件。在剩余33个与蛋白质编码区域存在重叠的新鉴定水平基因转移事件中,24个覆盖的相应蛋白质编码序列比例不足25%,这或许可以解释其先前未被检测到的原因。剩余9个水平基因转移事件对相应蛋白质编码区域的覆盖度更高(31.7%~100%),这表明仅靠编码序列(CDS)覆盖度不足并不能完全解释其未被重叠的现象。对于这些情况,差异更可能源于我们基于核苷酸序列的全基因组分析流程与先前基于蛋白质序列的方法之间的方法学差异,包括序列类型、比对策略和过滤标准的不同(图S2B)。在115个先前已报道但被我们的方法遗漏的水平基因转移事件中,49个在基于序列组成的筛选步骤中被排除,其余66个则在序列比对步骤中未被我们的分析流程鉴定出来。其中,35个事件与CRG数据库中基因组的核苷酸序列同源性百分比高于与DRG数据库中基因组的同源性百分比,而另外31个事件与DRG数据库中基因组的核苷酸序列同源性百分比低于50%(图S2B)。

与此前报道的水平基因转移(HGT)事件对比可知,本研究结果具有可靠性;同时,本方法突破了仅能识别涉及蛋白质编码区的水平基因转移区域的限制,可鉴定出部分新型水平基因转移事件。


HGT 在各类真核生物中普遍存在

我们将HGT识别方法应用于来自不同真核生物谱系、具有高质量基因组的10种代表性模式生物,以识别其中的水平基因转移事件(HGTs),包括1种灵长类、2种哺乳动物、3种非哺乳脊椎动物、2种无脊椎动物、1种植物和1种真菌。我们为这10种代表性生物(包括人类、小鼠、牛、胎生蜥蜴、热带爪蟾、斑马鱼、黑腹果蝇、秀丽隐杆线虫、拟南芥和酿酒酵母S288C)鉴定出10至237个非冗余的跨界真核生物HGTs。(图1A;表S4)。在无脊椎动物线虫中发现的水平基因转移(HGTs)数量最少,而拟南芥的HGTs数量最多(图1A)。线虫的HGTs大多为物种特异性,而果蝇和酵母的HGTs大多发生在同一目生物的共同祖先中;人类、小鼠和拟南芥有更多HGTs发生在同一纲生物的共同祖先中,而牛、蜥蜴、青蛙和斑马鱼的HGTs更多发生在同一门生物的共同祖先中(图1A)。与目标生物体序列最相似的跨界物种被确定为与HGT相关的生物。总体而言,这10个代表物种的HGT相关生物分布在6个不同的界(细菌:183/731 [25.1%]、后生动物:168/731 [23.0%]、原生动物:154/731 [21.1%]、植物:153/731 [20.9%]、真菌:66/731 [9.0%]、病毒:8/731 [1.0%])(图1B;表S5)。在哺乳动物(人类、小鼠和牛)、非哺乳动物后生动物(蜥蜴、青蛙、斑马鱼、果蝇和线虫)和非后生动物真核生物(酵母和拟南芥)中,细菌、后生动物、植物和原生动物分别占HGT相关生物的最高比例(图1B)。特别是,细菌中的放线菌门、后生动物中的昆虫纲、植物中的木兰纲、原生动物中的锥虫纲和真菌中的粪壳菌纲均含有大量的HGT相关生物(图S3)。此外,与已报道的HGTs相比,这10个代表生物中大多数已鉴定的HGTs是此前未知的[11,16-22](图1C)。

 

 

1. 在10种代表性生物中鉴定出的735个水平基因转移事件。(A) 在某一分类学水平(如物种、目、纲、门)上生物共同祖先中发生的水平基因转移事件数量,这些被定义为不同的同源组(SGs)。(B) 具有不同水平基因转移供体/受体生物的水平基因转移事件数量。(C) 先前报道的水平基因转移事件在所有预测的水平基因转移事件中的占比。柱状图上的数字为绝对计数。(D) 热图中的网格颜色代表10种代表性生物(X轴)与1496种真核生物(Y轴)之间的水平基因转移出现次数。(E) 真核生物间的水平基因转移事件通过连接相关物种的线条展示,线条的粗细代表相关物种间的水平基因转移出现次数。

 

为确定真核生物中水平基因转移(HGT)的发生频率,我们计算了一个HGT出现次数 (N_{AB})对于代表型生物A和另一种真核生物B,其是根据频率来定义的在代表性生物A的非冗余水平基因转移(HGT)系统发育树中,生物B与之共同出现的情况。例如,在针对智人的91个非冗余HGT树中,88个树中均发现了黑猩猩,因此智人与黑猩猩之间的HGT出现数(N_{AB})为88。10种代表性生物与1496种真核生物之间的HGT出现数(N_{AB})的分布情况见图1D和表S6。具有相同分类学分类的生物其HGT出现数更高(图1D),这表明本研究流程鉴定出的大多数HGT事件发生在模式生物及其姊妹谱系分化之前。这也意味着这些HGT事件可能具有重要功能,因为它们在进化过程中得以保留。通过该指标,我们确定90.1%的真核生物(1496种中的1348种)携带HGT事件(图1D、1E),表明HGT事件在真生物中广泛存在。HGT事件的复制及其对宿主基因组的影响 我们将非冗余真核生物HGT事件与其宿主基因组进行比对,以进一步阐明HGT事件对宿主基因组的影响。总体而言,77.3%的HGT事件(735个中的568个)在其宿主基因组中为单拷贝,其余22.7%(735个中的167个)为多拷贝,且有6个HGT事件拥有超过100个拷贝(图2A;表S4)。具体而言,牛基因组中与BovB相关的HGT区域“NC_037357.1:83623202-83624198”拥有36868个拷贝(总长度为36.3兆碱基对),这与此前一项关于BovB以多拷贝形式存在的研究结果一致。在新鉴定的HGT事件中,斑马鱼HGT区域“NW_018395302.1:126431-127344”拥有126个拷贝,占18千碱基对。

这些水平基因转移(HGT)拷贝也对许多基因产生了影响。总体而言,85.6%的水平基因转移事件(735个中的629个)对8891个基因区域产生了影响,水平基因转移事件与基因之间重叠区域的长度如图S4所示。其中75.8%的事件与蛋白质编码基因存在重叠(图2B和2C)。尤其是,几乎所有水平基因转移事件都会影响拟南芥、酵母、线虫和果蝇中的基因。有16个水平基因转移事件,每个事件都会对其宿主基因组中的10个以上基因产生影响(表S4)。例如,上述斑马鱼的水平基因转移区域及其拷贝与52个蛋白质编码基因存在重叠(至少1个碱基对)(图2D),这对斑马鱼基因组功能产生了巨大影响。在10个代表性生物的大多数物种中,也能发现对基因组产生类似(但程度不同)影响的水平基因转移事件。基因本体论(GO)对不同生物中受水平基因转移(HGTs)影响的基因进行分析发现,部分基因与突触膜(人类)、肌动蛋白细胞骨架(小鼠)、离子跨膜转运(牛)、黄素腺嘌呤二核苷酸结合(果蝇)、有机羟基化合物代谢过程(酵母)、氨基酸转运(拟南芥)等功能相关(图S5;表S7)。10个代表物种中其余4个物种的受水平基因转移影响的基因未表现出功能富集。

上述基因在不同遗传元件中受到水平基因转移(HGTs)的影响。总体而言,受水平基因转移影响的基因中,仅有5.4%(485/8891)的基因在其编码区(CDS)受到影响,其余基因则在非编码基因区(非翻译区和内含子)以及基因间区(尤其是基因区上游5000个碱基对和下游5000个碱基对范围内)受到影响(图2E)。这是因为高拷贝数的水平基因转移大多影响基因的内含子区(图S6),这可能符合水平基因转移发生的一条准则——“首先不造成伤害”。具体而言,75%(348/464)受单拷贝水平基因转移影响的基因在其编码区受到影响,而多拷贝水平基因转移的这一比例降至0.2%(137/8427),且71%(5982/8427)受多拷贝水平基因转移影响的基因在其内含子区受到影响。此外,受水平基因转移拷贝影响的基因元件分布在不同生物中存在差异(图2E)。与脊椎动物相比,无脊椎动物、真菌和植物中大多数水平基因转移拷贝与编码区重叠(采用威尔科克森秩和检验,p<0.01)与脊椎动物相比,无脊椎动物、真菌和植物中与CDS区域重叠的可能性更高(使用Wilcoxon秩和检验,p<0.01)

 

 

2. 水平基因转移的重复现象及其对10种代表性生物的影响。(A) 不同拷贝数的水平基因转移组成。尽管独特的水平基因转移数量较多,但部分水平基因转移区域可发生大量重复。(B) 与基因重叠的水平基因转移比例。在所有物种中,大多数水平基因转移均与蛋白质编码区域重叠,但小鼠的这一比例显著最低。(C) 受水平基因转移区域影响的基因数量,不仅包括蛋白质编码基因,还包括非编码基因。(D) 受不同拷贝数水平基因转移区域影响的基因数量。人类、牛和斑马鱼基因组中有数百甚至数千个基因受到水平基因转移重复的影响。(E) 受水平基因转移区域影响的基因元件数量。在脊椎动物中,大多数水平基因转移拷贝与内含子重叠,而在无脊椎动物、真菌和植物中,大多数水平基因转移区域与编码序列区域重叠。综合考虑内含子和编码序列的长度后,水平基因转移更与脊椎动物相比,无脊椎动物、真菌和植物中与CDS区域重叠的可能性更高(使用Wilcoxon秩和检验,p<0.01)

 

HGT的重复序列组成

我们将10种代表性生物中检测到的非冗余水平基因转移(HGT)与其参考基因组中注释的重复序列进行了对比分析。其0%至77%的水平基因转移与散在重复序列(不包括简单重复序列)存在重叠(图3A;表S8),这体现出显著的物种特异性和重复序列特异性。与水平基因转移重叠的重复序列类型与基因组整体重复序列组成呈现出显著相关性。长散在核元件(LINEs)反转录转座子在哺乳动物、青蛙和蜥蜴检测到的水平基因转移中较为常见,而长末端重复序列(LTR)反转录转座子在果蝇、酵母和拟南芥检测到的水平基因转移中更为常见,这与其在宿主基因组中的出现频率相符(图3B和图S7)。相比之下,斑马鱼水平基因转移中长末端重复序列的分布与其在宿主基因组中的分布并不一致,青蛙水平基因转移中的长末端重复序列以及牛水平基因转移中的卫星序列也呈现出类似情况(图3B和图S7)。在斑马鱼基因组中,长末端重复序列出现在多达37个非冗余水平基因转移序列中(占比60.7%),而该重复序列在基因组中仅占重复序列总量的4.2%。

BovB和L1逆转座子在许多真核生物基因组中普遍存在,尤其是在哺乳动物中。已知BovB的水平转移在动物中广泛存在,而L1的水平转移已在植物、动物和多种真菌中被证实。总体而言,我们的非冗余水平基因转移(HGT)事件中有4个与牛的BovB逆转座子重叠(表S9),这支持了BovB水平转移的先前研究结果。此外,在人、小鼠、牛、蜥蜴、青蛙和斑马鱼中鉴定出了119个L1水平转移事件(表S9),为L1元件存在水平转移提供了更多证据。

所有与BovB逆转录转座子重叠的水平基因转移事件均与胞内病原体双芽巴贝斯虫相关,其中有一项还与吸血寄生虫温带臭虫(床虱)相关(表S9),这两种生物均为已报道的可能中间宿主。双芽巴贝斯虫是一种顶复门寄生虫,会感染红细胞,该寄生虫还会感染家畜全球范围内,包括野生和家养脊椎动物。温带臭虫以动物血液为食,可携带40多种人畜共患病原体,因此传播多种传染病。图3C展示了牛HGT区域“NC_037344.1: 42095551-42096199”的进化树及其同源序列。除这两个候选媒介物种外,该HGT进化树还包含5种牛科哺乳动物和10种非哺乳类脊椎动物(3种鱼类、3种两栖动物、4种爬行动物)(图3C、图3F;表S10),这些物种明显聚类在不同的分支中。与其他寄生虫的情况类似,温带臭虫和双芽巴贝斯虫似乎会在其取食的宿主之间传递DNA。

大量细胞内病原体的基因都是通过水平基因转移(HGT)获得的,顶复门寄生虫便是其中一例。我们的分析发现,76.5%(91/119)与L1逆转录转座子重叠的水平基因转移事件与顶复门细胞内病原体相关,包括双芽巴贝斯虫和间日疟原虫(表S9)。例如,人类水平基因转移区域“NC_000004.12:121865648-121866285”的进化树(图3D、图3G;表S10)显示了双芽巴贝斯虫与哺乳动物之间的基因转移,涉及的哺乳动物包括26种灵长类动物、11种偶蹄目动物、11种食肉目动物、9种啮齿类动物、8种翼手目动物、1种食虫目动物、1种兔形目动物和1种树鼩。

 

 

3. HGTs重叠重复区域。(A)HGTs与重复序列重叠的比例。0~77%的HGTs与散布的重复重叠。(B)每个HGT中不同类型重复序列在整个基因组中的比例。对于每个物种面板,每个列每个单元格对应一次单一、非冗余的水平基因转移(HGT)事件,每一行对应一种特定的重复序列类型。每个单元格中的颜色深浅代表特定重复序列类型在该水平基因转移序列中的长度占比。如图所示,在哺乳动物、青蛙和蜥蜴检测到的水平基因转移序列中,LINE 逆转录转座子是最普遍的重复序列类型;而在斑马鱼、果蝇、酵母和拟南芥的水平基因转移序列中,LTR 逆转录转座子则高度富集。(C)-(H) 为水平基因转移序列的系统发育树和长度-一致性图。左侧的树状图代表水平基因转移区域同源序列的系统发育关系,仅展示了70以上的自举值;右侧的图表则展示了模式生物与近缘物种同源序列之间的序列相似性。(C)和(F) 牛的水平基因转移区域“NC_037344.1: 42095551-42096199”与 BovB 逆转录转座子重叠;(D)和(G) 人的水平基因转移区域“NC_000004.12:121865648-121866285”与 L1 逆转录转座子重叠;(E)和(H) 拟南芥的水平基因转移区域“NC_003076.8:12073716-12073960”与 Gypsy LTR 逆转录转座子重叠。

 

吉普赛LTR逆转录转座子广泛分布于真核生物中,已在植物、真菌和脊椎动物中被发现。吉普赛元件的水平基因转移(HGT)在果蝇和植物中广为人知,且已在真菌与非种子植物之间被发现。在本研究结果中,在斑马鱼、拟南芥、蜥蜴、青蛙、果蝇和酵母中鉴定出73个与吉普赛元件重叠的水平基因转移事件,这进一步佐证了此前的相关报道。拟南芥的水平基因转移区域“NC_003076.8:12073716-12073960”显示,吉普赛LTR逆转录转座子发生了横向传递,涉及105种木兰纲植物和14种昆虫(图3E、图3H;表S10)。与其他6种代表性生物的重复序列重叠的部分水平基因转移事件见图S8。


与非重复序列重叠的水平基因转移事件

上述例子主要是与转座子相关的水平基因转移事件,发生在原生动物和真核生物中。另有480个水平基因转移事件与重复序列无重叠(图3A;表S8),其中424个(88.3%)水平基因转移事件与516个蛋白质编码基因发生重叠(表S11);而受这424个水平基因转移事件影响的蛋白质编码基因中,91.5%(472/516)在编码区(CDS)受到影响(图4A;表S11)。对不同生物中受水平基因转移影响的蛋白质编码基因进行基因本体(GO)分析发现,部分基因与醛酮还原酶活性(人类)、过氧化物酶体(小鼠)、有机羟基化合物代谢过程(酵母)、氨基酸转运(拟南芥)等相关(图S9;表S12)。在10个代表性物种中,其余6个物种里受水平基因转移影响的蛋白质编码基因未发现富集的功能。

 

 

4. 未与重复区域重叠的水平基因转移事件。(A) 受未与重复序列重叠的水平基因转移事件影响的蛋白质编码基因区域占比。大多数受影响的蛋白质编码基因与重复序列无重叠的HGT事件在CDS区域受到影响。绘制了与重复区域无重叠的HGT区域的系统发育树和长度-同一性图。左侧的树代表HGT区域同源序列的系统发育关系,仅展示70以上的自举值;图表则展示了模式生物与相关物种同源序列之间的序列相似性。(B)和(E) 线虫HGT区域“NC_003280.10:13635039-13635734”与编码位于膜筏中的肠道顶端蛋白的基因CELE_C31C9.1重叠;(C)和(F) 酵母HGT区域“NC_001144.5:21121-21842”与编码谷胱甘肽转移酶GTT2的基因YLL060C重叠;(D)和(G) 斑马鱼HGT区域“NC_007123.7:45453300-45453643”与功能尚不明确的基因LOC562542重叠。

 

为了更好地理解水平基因转移(HGT)事件,我们研究了几类不与重复序列重叠的水平基因转移事件。这些水平基因转移事件与细菌和病毒相关。线虫的水平基因转移区域“NC_003280.10:13635039-13635734”表明小杆目动物与细菌之间发生了基因转移(图4B、图4E;表S10),该区域与基因CELE_C31C9.1的编码序列(CDS)重叠,该基因编码一种位于膜筏中的肠道顶端蛋白。酵母的水平基因转移区域“NC_001144.5:21121-21842”与基因YLL060C的编码序列(CDS)重叠,与子囊菌真菌和假单胞菌细菌存在同源序列(图4C、图4F;表S10)。基因YLL060C编码的谷胱甘肽转移酶GTT2是一种新型的非典型胞质谷胱甘肽-S-转移酶(GSTs),这类酶是解毒酶,可催化亲电底物与谷胱甘肽结合。斑马鱼的水平基因转移区域“NC_007123.7:45453300-45453643”表明鲤科鱼类与病毒之间发生了基因转移(图4D、图4G;表S10),该水平基因转移区域与基因LOC562542的编码序列(CDS)重叠,其功能尚不明确。更多的水平基因转移进化树可参见表S13。另有7种代表性生物中,部分不与重复序列重叠但与蛋白质编码基因编码序列(CDS)区域重叠的水平基因转移事件展示于图S10至图S17。拟南芥中受水平基因转移影响的基因在跨膜转运过程中富集我们对拟南芥中与水平基因转移区域重叠的蛋白质编码基因进行了检测(更多细节见方法部分)。对这些基因进行基因本体论(GO)分析后发现有23个蛋白质编码基因受到影响按HGT区域划分,在分子功能层面,跨膜转运体活性和离子反向转运体活性显著富集(图5A;表S14)。在细胞组分层面,最显著的是细胞外周区和细胞膜(图5B;表S14)。这23个基因中,有12个受11个HGT区域影响的基因是从细菌或真菌转移到植物中的(表S15)。HGT区域主要位于这12个基因的外显子区域(图5C)。在蛋白质结构层面,这些HGT总体上对α螺旋区域表现出结构偏好(12个中有6个,经p<0.05精确二项式检验)(图5D;表S16)。这种高密度的螺旋结构辅以少量连接环,表明它们在膜转运活动中发挥重要功能(图5D)。

如上所述,对受水平基因转移(HGTs)影响的基因进行基因本体论(GO)分析显示,突触膜在人类中富集,离子通道在牛中富集(图S5),这两者均与跨膜转运体活性相关。这表明水平基因转移可能在动物的跨膜转运过程中发挥重要作用。


利用靶向PCR和桑格测序验证拟南芥中的水平基因转移区域

我们为拟南芥中涉及蛋白编码基因的水平基因转移区域设计了引物对,并通过靶向聚合酶链式反应(PCR)排除了污染的可能性(详见方法部分更多细节)。在11个与12个转运蛋白编码基因相关的、被认为是转移到植物中的水平基因转移事件中,聚合酶链式反应实验和桑格测序结果显示,所有这些基因转移事件确实都存在于拟南芥的基因组中(图5E、图S18、表S17),从而排除了污染的可能性。

为了从物理层面验证水平基因转移事件(HGTs)的整合情况,并排除由参考基因组组装错误或环境污染物导致的假阳性结果,我们将第三代测序(TGS)数据比对到10个代表性物种(不包括蜥蜴和青蛙)上。如果HGT区域的TGS覆盖深度是连续的,且与该区域紧邻的上下游侧翼区域的深度无显著差异,则认为该候选HGT事件已成功验证。HGT区域深度相对于侧翼区域的急剧下降,强烈表明存在组装伪影或支架化污染物。总体而言,60.7%-100%(平均90.3%)的HGT候选事件表现出一致的深度特征并被成功验证(表S18)。

 

 

5. 拟南芥中与跨膜转运相关的水平基因转移事件。a)-b) 拟南芥中受水平基因转移事件影响的基因在分子功能(A)和细胞组分(B)方面的基因本体论功能富集分析。与跨膜转运相关的基因显著富集。彩色圆点代表通路,灰色圆点代表基因。彩色圆点的颜色代表p值,圆点大小代表涉及的基因数量。(C) 拟南芥中与水平基因转移区域重叠的12个基因的结构并与跨膜转运相关。蓝色矩形代表水平基因转移(HGT)区域,红色矩形代表我们为验证水平基因转移区域的PCR反应设计的引物对。(D) 上述12个基因的预测蛋白质结构。蓝色部分对应水平基因转移区域。(E) 从细菌或真菌转移到拟南芥的含水平基因转移区域序列的PCR产物的琼脂糖凝胶电泳分析。对应的完整未裁剪凝胶图见图S18。

 

讨论

真核生物水平基因转移的广泛足迹与术语

本研究结合序列组成偏性与序列比对,构建了一套计算高效的真核生物水平基因转移(HGT)识别流程。在10种代表性生物中共识别出735个水平基因转移区域。此外,在参考数据库中的90.1%真核生物物种里,均检测到与这些特定水平基因转移事件相关的同源序列,表明这些基因转移在所分析的类群中留下了广泛的进化印记。尽管每个物种的非冗余真核生物水平基因转移数量(10至237个区域/物种)远低于原核生物,但本研究结果明确证实,在所分析的10种不同真核生物基因组中,水平基因转移普遍存在。

我们报道了水平转移的基因组区域,包括蛋白质编码基因区域和非编码区域。对于那些位于非编码区域的水平转移区域,“水平基因转移”这一术语可能会让普通读者产生困惑。然而,“水平基因转移(HGT)”这一术语是历史发展形成的综合性通用术语,指的是生物体之间核苷酸的非系谱传递,并非严格局限于经典的蛋白质编码基因。此外,基因的定义也不限于蛋白质编码基因,例如文献中广泛使用的非编码基因。因此,我们在整篇论文中均使用水平基因转移这一表述。此外,确定这些转移的确切方向性是一项关键挑战,因为要判断真核宿主是供体还是受体,需要对具体案例进行深入的拓扑结构解析。为了避免做出缺乏依据的方向性假设,我们谨慎地采用了中性表述“水平基因转移贯穿本手稿均有提及。


进化与功能影响

我们的流程鉴定出的大多数水平基因转移(HGT)区域是在模式生物及其姊妹谱系分化之前转移的,这表明这些水平基因转移事件因得以保留而可能具有重要功能。总体而言,22.7%的水平基因转移事件在其宿主基因组中存在多个拷贝,这些事件及其拷贝与8891个基因存在重叠。这两点均表明,水平基因转移事件不仅会影响基因组大小,还会影响基因组功能。然而,仅有5.4%的基因在其编码区(CDS)受到水平基因转移的影响,其余基因则在非编码区(内含子、基因区域的非翻译区(UTRs)以及基因间区)受到影响。这一结果也证明,利用基因组序列鉴定水平基因转移事件是合理的,与仅关注蛋白质区域的方法相比,该方法能在非编码区发现部分水平基因转移事件。


机制与潜在转移途径

0至77%的水平基因转移序列与散在重复序列重叠,其中BovB、L1和Gypsy逆转录转座子的出现频率最高。通过分析这些水平基因转移序列的系统发育树,我们提出吸血寄生虫(温带臭虫)和细胞内病原体(双芽巴贝斯虫)参与了BovB在哺乳动物与其他脊椎动物之间的转移;顶复门生物(双芽巴贝斯虫和间日疟原虫)是真核生物中L1转移的热点区域,而Gypsy可在昆虫与植物之间发生转移。不过,本报告中大多数水平基因转移事件的DNA转移途径仍不明确。


方法学局限

尽管我们的流程能有效识别水平基因转移事件,但仍需承认存在若干方法学局限与权衡。首先,本方法的参数设置需在计算效率和灵敏度之间做出权衡。在默认参数设置(前20%片段)下,本方法可能会遗漏古老但已高度优化的转移事件,而将参数设为前100%则可避免这一问题。采用默认参数设置可能会导致假阴性结果,遗漏古老且高度优化的转移事件,有时还会漏掉姐妹类群间共有的水平基因转移事件。其次,由于我们的判定标准十分严格针对跨王国的水平基因转移进行了靶向分析,王国内部的水平基因转移事件已被排除;因此,可以推测水平基因转移区域的实际数量远高于此。第三,尽管全基因组测序深度分析通过排除连续群内局部测序深度较低的区域,有助于过滤掉错误组装/污染的序列,但该方法仍存在局限性。为避免丢弃与重复区域重叠的真实水平基因转移区域,我们保守地保留了高深度区域。该验证步骤仅能过滤掉在目标测序基因组的全基因组测序过程中被组装到连续群中的部分污染序列。若某一污染物在基因组组装中被整合到了独立的连续群中,此过滤步骤将无法发挥作用。最后,现有参考基因组集合显示物种覆盖度分布不均,这可能会影响本研究推导的真核生物水平基因转移分布模式的可靠性。


结论与未来展望

随着测序技术的飞速发展,越来越多的真核生物,尤其是那些代表性不足的类群,将获得高质量甚至达到T2T基因组水平的全基因组序列。真核生物水平基因转移(HGT)的鉴定与分析研究正为未来开启一扇新的大门。要更好地理解水平基因转移,仍有大量工作有待完成。尽管从事件总数来看,与染色体重排、转座子元件活性等基本机制相比,水平基因转移是新基因组物质相对次要的来源,但我们的研究结果表明,水平基因转移广泛存在于10种不同的真核生物基因组中。总之,水平基因转移是真核生物基因组进化中一个不可忽视、此前被低估的重要贡献者


方法

在细菌基因组中,水平基因转移区域也被称为基因组岛(GIs),可基于序列组成或序列比对这两种不同的生物信息学方法对其进行检测。通常而言,基因组岛的序列组成与受体基因组的序列组成存在显著差异。基于组成的方法通过计算某一片段的k-mer频率,并将该频率分布与全基因组的频率分布进行比较,从而在基因组序列中识别出基因组岛。序列比对方法的前提是,基于DNA序列构建的基因组岛的系统发育树拓扑结构将这与已知的物种亲缘关系不符,具体表现为在几种亲缘关系密切的生物体中不存在的序列出现在亲缘关系更远的物种中。这两种方法可用于鉴定真核生物中的水平基因转移(HGTs),但并非毫无挑战。由于真核生物基因组体积庞大且异质性高,基于组成的分析方法可能会产生大量假阳性预测,而序列比对方法在需要对数百个参考基因组进行比对时,计算成本高昂且耗时长久。本研究通过结合这两种方法,在降低假阳性率的同时也减少了计算成本,以此鉴定真核生物与其他生物之间的水平基因转移。


数据收集

基因组序列从NCBI RefSeq数据库下载

(ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq)。所有基因组被分为四个数据集。第一个数据集包含10种代表性生物的参考基因组序列,其中有3种哺乳动物、3种非哺乳脊椎动物、2种无脊椎动物、1种真菌和1种植物。第二个数据集包含16098株细菌的组装基因组,代表不同的物种(单一物种无多个基因组);第三个数据集包含11695种病毒,第四个数据集包含1496种真核生物,其中包括193种哺乳动物、288种非哺乳脊椎动物、312种无脊椎动物、154种植物、459种真菌和90种原生动物。这些基因组的详细信息见表S19。


鉴定水平基因转移事件的流程

S1展示了水平基因转移(HGTs)的鉴定流程。首先,我们基于k-mer频率识别出与基因组其他部分存在差异的基因组区域。随后将筛选出的基因组区域与其他基因组进行比对。在序列比对前,我们根据分类信息将所有基因组分为三个不同的组,包括自身组(SG)、近缘组(CRG)和远缘组(DRG)。自身组包含所有源自水平基因转移事件最初发生的特定共同祖先的生物体。若基因组区域的序列保守性与相关物种的系统发育树不一致,则将其视为候选水平基因转移区域。具体而言,若基因组片段满足以下条件,则判定为发生在自身组中的水平基因转移序列:与CRG中的物种相比,DRG中的物种具有更高的同源性百分比。为避免污染伪影,通过与同一生物体的全基因组测序(WGS)原始数据进行比对,对候选水平基因转移区域DRG中的部分相似序列进行了核查。随后对水平基因转移序列进行聚类,以获得非冗余的水平基因转移序列。针对每个与水平基因转移相关的物种,以及候选水平基因转移序列的同源序列,构建了相关物种与同源序列的系统发育树。


基于序列组成的基因组片段筛选

由于许多模式生物参考基因组的体积较大,我们首先筛选了携带水平基因转移(HGT)序列的潜在基因组区域。对于每种模式生物物种,我们将其全基因组序列按所有染色体划分为1000个碱基对(bp)的片段,且片段间存在200个碱基对的重叠区域;含未知碱基(N)的序列片段被剔除。我们计算了全基因组序列以及所有基因组片段的4碱基(bp)k-mer频率,采用欧氏距离衡量每个片段与全基因组序列的差异,并将所有距离按降序排列。最终,选取距离排名在前10%的片段(因人类、牛和小鼠的基因组体积更大,其他代表性生物选取排名前20%的片段)进行后续分析。

在上述表述中,需要设置两个参数(k值长度和片段百分比)。我们利用人类基因组中299个已报道的水平基因转移事件筛选出了合适的参数,并使用TRF软件(4.09版)剔除了其中的简单重复序列。我们测试了不同的k值长度(1~6),最终选择k=4,因为在该参数设置下,此前报道的人类基因组中比例最高的水平基因转移事件被筛选了出来(图S19)。即便我们仅输入与人类基因组差异度最高的前5%片段,此前报道的这些人类水平基因转移事件中仍有极高比例((>80%)保留在我们的结果中(图S19)。


序列比对

使用 LASTZ(版本 1.04.00)对筛选后的模式生物片段与其他物种的全基因组进行序列比对,具体参数为:“--format=axt+ -ambiguous=iupac”。


重新筛选片段并寻找水平基因转移事件

每个目标生物都属于其自身的界、门、纲和目。对于每种代表性生物的每个分类层级(门、纲、目和物种),其余生物被分为三组:同组(SG)包含与目标生物处于同一分类层级的所有物种,近缘组(CRG)包含与目标生物同界但不属于同组的所有物种,远缘组(DRG)包含目标生物所属界之外的所有物种(表S1)。例如,当以纲为分类层级、以人类为目标生物时,所有哺乳动物均被视为同组,而非哺乳动物的后生动物构成近缘组,远缘组则包含所有植物、真菌、原生生物、细菌和病毒。我们还基于LASTZ的比对结果对筛选后的片段进行了进一步筛选,以识别进化关系不一致的区域。

检索到输入片段的比对区域(ARs),并将其用于识别潜在的水平基因转移事件(HGTs)。首先,我们保留了与DRG物种比对的ARs,前提是这些ARs满足以下标准:长度大于135个碱基对、length >135 bp、核苷酸identity ≥50%以及coverage ≥50%。针对这些ARs,我们将其与CRG数据库中的基因组进行比对,将序列一致性百分比阈值设定为50%。当ARs与DRG基因组的序列一致性百分比高于与CRG基因组的序列一致性百分比时,这些ARs即被认定为潜在的水平基因转移事件。


识别非冗余水平基因转移序列

使用 cd-hit-est 程序(4.6.6 版本)[35]对水平基因转移序列(HGTs)进行聚类,将最低核苷酸同源性设为80%。选取每个聚类中最长的序列作为非冗余水平基因转移序列的代表。


利用全基因组测序数据集验证其他生物界中的相似序列

检测水平基因转移事件的能力在很大程度上取决于参考基因组的质量。来自其他物种的污染序列是假阳性结果最可能的来源。本研究选用的10种代表性生物的基因组质量被认为非常高,因此测序污染的概率可忽略不计。然而,其他非模式生物(如寄生虫和原生动物病原体)的基因组质量往往不够高,这可能导致假阳性结果。例如,若一棵异常的水平基因转移树仅包含一种寄生虫和几种灵长类动物,且该寄生虫参考基因组的构建过程受到人类DNA污染,那么这种DNA转移现象就是人为假象。

为了避免由污染导致的假阳性水平基因转移(HGT),我们利用同一生物体的全基因组测序(WGS)原始数据对DRG中的基因组质量进行了检测。首先,我们统计了DRG中与候选HGT序列存在潜在同源序列的基因组数量。若该数量小于10,且以真核生物界作为DRG,则所有携带潜在同源序列的基因组都将通过WGS数据进行核验。换言之,若存在足够数量的基因组支持潜在同源序列的存在,我们便假定这些序列并非源自污染。当以原核生物界作为DRG时,该数值设定为50。

该生物的全基因组测序原始数据从SRA数据库下载。由于处理大量全基因组测序数据集的计算需求较高,我们采用了靶向比对策略。针对每条候选序列,我们提取其特定基因组区域以及上下游各1000 bp的侧翼序列,以构建本地参考索引。随后将全基因组测序原始读长仅比对至这些靶向区域,确保读长的精准锚定。接着,为排除污染或组装错误,我们计算了潜在同源区域及其紧邻150 bp侧翼区域的测序深度和覆盖度。序列比对使用Bowtie2(2.2.4版本)完成,测序深度计算采用samtools(1.16.1版本)并使用默认参数。同源区域的测序深度水平基因转移序列的GC含量不应显著低于其上下游150bp序列的GC含量(采用t检验,编号p>0.05),且水平基因转移序列的测序深度需大于10。若某一序列在至少2个样本中满足上述标准,则将其判定为非人工 artifact。结果见表S20。


排除细胞器DNA与内共生基因转移(EGTs)

为排除源自线粒体和质体祖先的内共生基因转移(EGTs),我们从NCBI获取了10种代表性生物的完整线粒体基因组以及拟南芥的叶绿体基因组。我们使用BLASTN (e-value<1 e-5)将非冗余水平基因转移(HGT)候选序列与这些细胞器参考基因组进行比对。此外,我们选择剔除所有与蓝细菌和变形杆菌对齐的序列,以确保最终结果具有高度可靠性。


移除内源性病毒中的水平基因转移序列

内源性逆转录病毒(ERVs)广泛存在于脊椎动物中,约占智人基因组的8%。因此,为了避免将实际来自祖先遗传的序列误报为水平基因转移(HGTs),我们剔除了所有在内源性逆转录病毒中发现的水平基因转移序列。我们从加州大学圣克鲁兹分校(UCSC)基因组浏览器的重复序列注释中收集了内源性逆转录病毒,但酿酒酵母S288C和拟南芥除外。所有与内源性逆转录病毒基因组坐标重叠,或通过BLASTN比对至内源性逆转录病毒(一致性>90%,(identity >90%和length >100 bp)的水平基因转移序列均被剔除。


构建水平基因转移系统发育树

对于每一个水平基因转移(HGT)事件,我们基于LASTZ的输出结果在其他物种中寻找同源序列。当一个物种中有多个区域符合标准时,我们选取匹配度最高的序列——即得分经序列一致性加权后再乘以比对长度所得值最大的序列——来代表该同源序列。基于该水平基因转移序列以及从其他物种收集的同源序列,我们使用MAFFT(7.520版本)进行多序列比对,随后使用trimAl(1.4.rev15版本)修剪比对中比对模糊的区域。接着,我们利用得到的比对结果,借助IQ-TREE(2.2.2.3版本)构建最大似然(ML)树,选用其最优的氨基酸进化模型,并进行1000次超快速自举重复。最后,我们使用 ape 和 phangorn R 包对每棵 ML 树进行了中点 rooting,并使用 iTOL(6.8.2 版)对这些树进行了可视化。其他物种的同源区域以及非冗余水平基因转移(HGT)的系统发育树见表 S13。


基于模拟数据集的流程评估

我们构建了一个包含175个水平基因转移(HGT)事件的模拟基因组(命名为基因组H),这些转移事件源自一组亲缘关系较远的基因组(命名为基因组集D)并转移至人类基因组。基因组集D包含4个十字花科植物基因组,分别为拟南芥、甘蓝型油菜、野生型甘蓝和芜菁;而基因组集C则包含4个灵长类动物基因组,即倭黑猩猩、黑猩猩、红毛猩猩和西部低地大猩猩。这175个水平基因转移事件是与基因组集D中的基因组具有高度相似性(相似度>90%),但与亲缘关系较近的基因组集C中的基因组相似度较低的序列。

首先,利用LASTZ和Multiz对基因组集D中的基因组进行基因组比对,以获得在基因组集D were >90%的所有基因组中具有特定同源性且长度为>200bps的序列。将这些序列与基因组集C中的基因组进行比对,保留相似性较低的(identity <50% )序列。随后,使用cd-hitest程序(4.6.6版本)对获得的序列进行聚类,将最小核苷酸同源性设为80%。选取每个聚类中最长的序列作为模拟水平基因转移(HGT)序列,共计175条。根据序列长度将这175条HGT序列平均分为10组,其拷贝数从20递增至29(表S1)。最终,将175条不同拷贝数的HGT序列插入人类基因组中,构建得到基因组H(数据S2)。接着,以基因组H为目标基因组、基因组集D为远缘基因组集、基因组集C为近缘基因组集,并将参数M、N、L分别设为1、1、200,运行我们的分析流程。若预测的HGT区域覆盖正确HGT区域的长度超过60%,则判定该预测为正确。


利用已报道的烟粉虱水平基因转移事件对该分析流程进行评估

我们以烟粉虱为目标生物,通过分析流程获得了131个水平基因转移事件,并下载了此前在烟粉虱中报道的170个水平基因转移事件。本分析流程鉴定出的水平基因转移事件被认定为已报道事件(BLASTN比对匹配到length >135 bp和identity >80%)


统计水平基因转移元件的拷贝数

我们对非冗余水平基因转移(HGT)序列及其宿主参考基因组运行BLASTN[47]比对,参数设置为“-e 1e-5”。对于每一条HGT序列,我们选取了覆盖该HGT序列至少80%区域且核苷酸为identity >80%的比对区域。随后,我们将坐标重叠的比对区域进行合并,并根据合并后的HGT拷贝数确定每条HGT的拷贝数量。


与既往研究中已报道的水平基因转移序列的对比

我们从以往的出版物中获取了这些模式生物已报道的水平基因转移事件,包括基因组坐标和DNA序列。本研究中,若某一水平基因转移事件在基因组坐标或序列比对(BLASTN,匹配 length >135 bp和identity >80%)上与已报道的水平基因转移事件均不匹配,则将其认定为新的水平基因转移事件。


受水平基因转移影响的基因的功能注释

Ensembl(http://asia.ensembl.org)和Tair(https://www.arabidopsis.org)获取了模式生物的基因组注释文件(GFF或GTF格式),利用这些文件鉴定出可能受水平基因转移(HGTs)影响的蛋白质编码基因和非编码基因(与HGTs重叠至少1个碱基对)。使用clusterProfiler R包[48]和agriGO (FDR<0.05)对这些基因进行了基因本体论(GO)术语富集分析。


利用靶向PCR验证拟南芥中的HGT区域

23个与膜转运基因相关的水平基因转移(HGT)区域中,有12个被认定为从细菌或真菌转移至植物。针对这些水平基因转移区域,利用Primer-BLAST[50]在包含水平基因转移区域及其上下游5000个碱基对的区域设计引物对(图5C)。通过靶向聚合酶链式反应(PCR)排除污染的可能性,采用琼脂糖凝胶电泳分析判断聚合酶链式反应产物是否符合预期。若聚合酶链式反应产物与预期大小相符,随后便使用桑格测序技术对该产物进行测序。本研究中,若某一水平基因转移区域成功扩增,且其桑格测序序列与拟南芥基因组序列的对应区域几乎完全一致,则认定该水平基因转移区域验证成功。


利用第三代测序数据对水平基因转移事件进行验证

我们从SRA数据库下载了10个代表性物种(除蜥蜴和青蛙外)的第三代测序数据,并利用第三代测序数据对所有水平基因转移事件(HGTs)进行了验证。我们获取了每个HGT区域上下游各150 bp的序列。序列比对使用minimap2(2.14版)完成,测序深度的计算使用samtools(1.16.1版)并采用默认参数。HGTs的测序深度不应显著低于其上下游150 bp序列的测序深度(采用t检验,p>0.05)。若某一HGT区域在至少一个样本中通过上述标准,则判定其验证成功。第三代测序数据信息及验证结果见表S18。


蛋白质三维结构获取

我们从 AlphaFold 蛋白质结构数据库下载了由 AlphaFold 预测的与 HGT 相关的蛋白质结构。随后我们使用 PyMol(3.0.4 版本)(http://www.pymol.org/pymol)标记了受 HGT 影响的区域。