毛酸浆高质量参考基因组组装及其进化研究#

2021年11月,中国科学院植物研究所在Horticulture Research(IF:6.793)在线发表了题为“The Physalis floridana genome provides insights into the biochemical and morphological evolution of Physalis fruits”的研究文章,研究者利用三代测序结合Hi-C辅助组装技术,构建了毛酸浆高质量染色体水平基因组,并发现基因获得(复制)和基因丢失是果实性状进化的重要遗传基础,为茄科作物的进化遗传和育种提供了有价值的基因组资源。安诺优达为本次研究提供PacBio三代建库测序和Hi-C建库测序以及分析服务,安诺优达杨伟飞、张雪梅等为该文章共同作者

6836b7b6.png

样本选择#

二倍体的毛酸浆幼叶

测序策略#

PacBio Sequel II基因组测序,90X

lllumina DNA小片段文库,PE150双端测序,100X

lllumina HiSeq X Ten,Hi-C文库

研究背景#

茄科是提供营养和果蔬多样性的重要来源之一。酸浆属作为茄科最大的属之一,具有独特的果实形态和生化多样性,是生态、进化和发育研究的新的园艺作物。毛酸浆作为酸浆属模式生物的代表物种之一,其花萼在受精后随浆果发育迅速膨大,形成“中国灯笼”或膨大花萼综合征(ICS)这一创新形态,包裹浆果。然而,酸浆属果实形态、生化特性及其起源背后的遗传基础还不够清楚。为了更好地了解茄科此类性状的起源、进化和发育机制,研究者使用PacBio三代测序技术和基于染色体构象捕获的Hi-C技术,实现了毛酸浆染色体水平的基因组组装。结合进化和功能分析,对酸浆属果实形态创新“中国灯笼”和特征性化学成分的进化遗传基础有了新的认识。

2b922b5b.png

研究结果#

01 高水平的毛酸浆基因组组装#

首先,研究者通过对毛酸浆基因组进行Illumina测序得到149 Gb的高质量数据。研究发现基因组纯合度较高,并且有大量的重复序列。通过K-mer分析后,利用PacBio测序得到125 Gb的subreads,组装成922条contigs,contig N50长度为4.87 Mb。然后利用Hi-C数据将1.37 Gb的数据组装为12条染色体,使用Illumina二代测序数据验证,并与全长转录组数据进行比对,来评估组装的完整性,结果表明得到了高水平的毛酸浆染色体水平基因组。
7f782e9f.png

02 基因组注释和基因预测#

利用蛋白质编码基因、tRNA和rRNA基因、转座因子及GC分布和基因组重排事件等信息,进行数据评估。结合de novo和同源性的方法,将数据整合到毛酸浆基因组中,并在转录组序列辅助下,注释蛋白质编码序列。在当前基因组版本中,共预测出32,075个完整蛋白编码基因,进一步预测了3,655个rRNA,997个tRNA,375个miRNA和3,047个snRNA。 32f9b722.png

03 基因组进化分析#

利用7,553个单拷贝基因家族进行系统基因组分析,揭示了毛酸浆和其他12个代表性物种的拓扑结构。考虑到茄科植物共同的全基因组复制历史,进一步研究了酸浆属、番茄属和辣椒属三种基因组。在全染色体水平上,三个基因组之间存在明显的一对一共线关系,虽然基因组大小不同,但总体基因组是相对保守的,仅观察到几个小规模的染色体重排和物种特定的基因组区域。

05759984.png

04 基因家族的进化分析#

选取八种茄科植物的基因组,使用OrthoMCL法构建正交群,发现在茄科基因组中,大部分基因聚集在直系同源基因或旁系同源基因中;且某些基因家族在进化过程中经常发生扩张和收缩。在进一步揭示基因组独特性的研究中,选用毛酸浆和其他12种植物,发现直系同源基因、旁系同源基因和非聚类基因在13种植物中以相似的方式分布。GO富集分析中,毛酸浆的特异基因则发挥了多种作用。在以上多层次的进化分析中,在酸浆属、辣椒属和茄属植物的基因组中观察到小规模突变。其中,与甾体相关化合物生物合成途径关键步骤相关的基因和与毛酸浆形成相关的MADS-box基因的潜在遗传变异是关注的重点。

dc1543d2.png

05 参与类固醇化合物生物合成途径的基因进化#

类固醇是所有真核生物必需物质之一,检测了类固醇在生物合成途径的关键基因。在33个基因家族中的结果研究表明,大多数基因家族的拷贝数变异(CNV)具有可比性,注释的HMGR和SQE基因的拷贝数发生显著变化,毛酸浆中发现20个SQE-like基因(拷贝数比非毛酸浆基因组高出约4倍),因此表现出特异性扩张。在甾体生物合成途径中,SQE基因编码黄酮类单加氧酶,在类固醇生物合成途径中起限速酶的作用。这些基因的CNV在与毛酸浆相关的不同物种间类固醇代谢产物的自然变异中所起的作用需要进一步深入研究。

8975e15a.png

06 毛酸浆发育可能与 MBP21的缺失有关#

毛酸浆基因组包含136个推定的MADS-box基因。研究者对MADS-box基因的进化关系进行了研究。排除基因组错误组装的可能性,数据同源性搜索结果证实毛酸浆和辣椒中MBP21发生缺失。这种缺失可能是进化过程中的染色体重排造成的。MBP21类基因的敲除或突变,往往产生花萼增大的现象。因此,这一基因丢失很可能与毛酸浆的起源有关。MPF2和MBP21基因的共同表达影响了酸浆属雄性不育和花萼的生长,表明酸浆属中MPF2和MBP21间的功能性冲突。这种功能冲突意味着这两个基因之间的协调是它们在ICS发育中正常发挥功能所必需的。

fa65821a.png

07 茄科MBP21丢失与ICS出现的关系#

不同物种基因组的Southern印迹分析结果表明,酸浆族中MBP21同源基因的丢失与ICS出现有密切关系。综上所述,MBP21类基因的丢失可能代表了一种与毛酸浆起源有关的新突变。

db73d6fb.png

小结#

研究者构建出第一个毛酸浆的高质量染色体水平的参考基因组,除了已知的MPF2的异位表达,还发现一个SEP类MADS-box基因的丢失。它们可能共同决定了膨大花萼综合征(ICS)这一创新形态的起源。酸浆果实中某些甾类化合物大量积累可能与SQE基因起源和显著扩展有关。这些甾体的自然变异可能是基因家族的拷贝导致的。本研究强调了基因获得和基因缺失在果实新性状进化和发育中的重要作用,为研究植物进化遗传学以及其他茄科作物的遗传改良和育种提供了重要参考。

[ ]:

Tags in this page: 2021 基因组组装