原核生物只有一个染色体,它包括该生物的全套基因,构成该生物的基因组。真核生物比较复杂,能体现正常细胞功能的整套染色体中的全部基因就是真核生物的基因组。生物随进化程度的增加,基因组的DNA量随之增加,但也有例外。人类进化程度最高,最复杂,其单倍体基因组DNA长度为3×109 bp,包含有大约2万~3万个基因。基因组DNA经过组装形成23条染色体,每条染色体DNA长度约5.5 x l07 bp~25×l07 bp。在人基因组DNA中,基因以及与基因有关的序列占20%~30%,基因外的序列占70%~80%。一个基因组DNA能携带多少遗传信息,多大的基因组才能携带机体所有的遗传信息?各种生物所需要的遗传信息量不同,高等生物的蛋白质种类多,基因数也就多。假定平均lkb DNA编码一种蛋白质,人类基因组总DNA量足可以编码300万个基因,但真正的基因数只有不到3万个,所以人类基因组中非编码DNA占了大部分,例如:间隔序列,内含子插入序列,以及与基因表达有关的调控序列等,另外还有大量尚不知功能的序列。如果按照每个蛋白质编码需要lkb,10万个蛋白基因编码则需要10万kb,在人类基因组3×l09 bp中,实际编码率只有3%。
1.重复序列
真核生物基因组的一个显著特点就是含有大量的重复序列,据估算,人基因组中重复DNA大约占30%。这些重复序列长短不一,短的仅有几个甚至2个核苷酸,长的有几百乃至上千个核苷酸。重复次数相差极大,从几次到几百万次不等,按重复频度可以分高度重复序列,中度重复序列和单拷贝序列。按重复方式大致可分串联重复和散布重复两类。串联重复DNA又叫作卫星DNA(satellite DNA),按重复单位长度人为地分为大卫星DNA,小卫星DNA和微卫星DNA。有些重复DNA序列呈现高度多态性,是彤成DNA片段长度多态性的重要机制。
2.多基因家族
多基因家族指一组具有类似功能,碱基序列有同源性的基因。多基因家族是真核生物基因组一个特征,家族成员序列同源性说明它们是进化过程中由同一祖先基因扩增而来。基因家族有大有小,从几个到数十个,少数甚至达几百个,后者叫超级基因家族。按照基因的终产物,多基因家族可以分编码RNA和编码蛋白质两大类。基因家族出现的方式有3种:(1)同一家族基因出现在同一染色体座位,如生长激素基因的5个成员同位于17号染色体。(2)各成员分别出现在不同基因座,如醛缩酶基因家族的5个成员各分布在不同染色体。(3) 一个家族基因分成几个簇,分布多个染色体。有些基因可以出现多个拷贝,以几乎完全相同序列串联排列,在同一染色体上形成一个基因簇,不同染色体上的基因簇可以同时发挥作用,合成RNA或翻译为蛋白质,例如:rRNA,tRNA,组蛋白基因等。
3.假基因
由一共同祖先基因扩增形成基因家族,其中有部分在扩增过程中可能发生片段的丢失,或去除了某些调控信号,不再具有转录功能,或去除了拼接加工信号,转录产物不能正确拼 接,或在编码区产生终止信号,产生不完整的肽链,因此,都不能产生有功能的mRNA。基因组中的这一类丧失功能的扩增基因叫做假基因( pseudogene)。可以认为假基因是一种进化的残留物,有作者估计哺乳动物基因中约有1/4是假基因。某些假基因与相应的编码基因差别微小但又十分明显,假基因没有增强子序列,却具备了mRNA典型的3′端多聚腺苷酸顺序。虽然有认为假基因可能会演变为新功能的基因,但由于它们逐渐摆脱了来自自然选择的压力,使它们积累并保留了某些碱基的变异。
4.转位因子
转位因子( transposon)又叫可移动DNA成分,是指DNA分子内或者DNA分子之间进行转移的DNA片段。转移因子在转移后仍保留原位置上的DNA序列,只是把一个新合成的复本插入到另外的位置上,并可以经过配子细胞由一代传给下一代。典型的转位因子一般有2部分序列,一种是促进转位的蛋白质基因,另一个是具有转位因子两端的重复序列,同属顺向重复序列。转位过程中,在靶麈位形成短的(20bp以下)顺向DNA序列重复单位是转位因子的主要特征。该重复单位由原来基因组序列衍生而来,位于转位因子的两端。转位因子插入的地方是多变的,它可以插入基因的外显子、内含子,也可插入在基因编码区的两翼序列中。某些散布重复序列如Alu家族的侧翼均连有顺向重复单位,强烈暗示此类序列可能是由类似转位的方式插入并分布在人基因组中。
5.增强子序列
增强子( enhancer)是一种典型的非编码DNA,它可以使附近某基因转录率提高数百倍,增强子可以相距数千碱基之外对基因转录实现遥控,使启动子更容易受RNA聚合酶的作用增加酶转录效率。目前已有数千个增强子在人类基因组定位。
6.片段基因
在非编码序列中还有一类失去活性的基因叫片段基因(gene fragments),可能是因为原基因的缺失突变或重组丢失了基因的5′端或者3′端,最终失去了转录功能。