人类单拷贝基因组大约含有30亿个碱基对。人类基因组计划的目的就是获得一组完整的基因序列,并在2003年4月宣布了人类基因组的最终参考序列。从人类基因组计划中得到的信息,将对医学及法医个体识别有很大贡献,并可帮助我们更好地了解自己的基因构造。
在人类细胞中,细胞核内的染色体包括DNA的稠密小体和保护DNA的组蛋白。人类基因组由22对配对常染色体和两条性染色体组成。因此,一般人类细胞中包括46条不同的染色体或23对染色体。男性性别标记为XY,因为它们包含有一条单拷贝X染色体和一条单拷贝Y染色体;而女性包含两条X染色体,所以性别标记为X-X。大多数个体同一认定所使用的标记在常染色体上,判断性别的标记在性染色体上。
所有体细胞中的染色体均为二倍体,即包括两套染色体。另一方面,生殖细胞(精子和卵子)是单倍体,它们只含有一套染色体。而当一个卵子细胞和一个精子细胞结合成为受精卵,则其中的染色体又成为二倍体。因此,受精卵中的每对染色体分别来自其父母双方。
体细胞核的分裂过程叫有丝分裂?所产生的子细胞与母细胞的遗传信息完全相同。性细胞或生殖细胞的分裂过程叫减数分裂。在减数分裂中细胞连续分裂两次,产生四个而不是两个子细胞,每个细胞含单倍体的染色体。
染色体上的DNA由“编码区”和“非编码区”构成。编码区叫基因,包含有细跑合成蛋白质所需要的必需信息。一个基因一般长度范围是从几千到几万个碱基对不等。人类基因组计划惊奇地发现,人类只有不到3万个基因用于编码蛋白质,而不像先前所认为的5万~10万个。
基因由外显子(蛋白质的编码部分)和内含子(插入序列)组成,只占人类DNA的5%, DNA中的非蛋白质编码区则构成染色体的剩余部分。因为这部分区域与合成蛋白质没有直接联系,它们有时被叫做“垃圾”DNA。人类个体识别应用的标记位于基因间或基因内的季编码区,故遗传变异而没被编码。
具有个体特异性的多态性遗传标记,可以从人类基因组的非编码区找到。一个基因或非编码区的DNA标记在染色体上的位置一般被称为基因座(Locus,复数Loci)。通过在世界范围内努力实施的人类基因组计划,已确定了数以千计的基因座并在人类染色体上作图定位。
成对的两条染色体互称为同源染色体(Homologous),因为它们具有相同的长度和基因结构。每个基因的拷贝,在同源染色体上对应位置相同(基因座)o同源染色体中,一个从母亲处继承,另一个从父亲处继承。由于有时会发生突变,一对同源染色体的序列有可能相同,也有可能不完全相同。
同一个基因座上不同序列的基因被称为等位基因。如果同源染色体上同一个基因座上的两个等位基因不同,称为杂合子( Heterozygous),相同则称之为纯合子(Homozygous)。分析基因座上等位基因的差异是人粪同一认定时必不可少的过程。
基因型是基因座等位基因的特异性表达。如果在一个基因座上有两个等泣基因,如A和a,那么可能存在三种基因型:AA、Aa和aa。AA和aa是纯合子,Aa是杂合子。一个DNA分型是多个基因座上基因型的联合。DNA分型或DNA分析是确定DNA分子特定区域内基因型的过程。为了避免无关个体间分型随机匹配的可能性,人类个体识别采用多个基因座分型。