如果可能,用于法医学DNA分型的群体数据库应包含已知种族的无关个体样本。但是,由于许多实验室使用匿名样本,从实际角度讲这是不可能的。此外,种族类别的划分通常过于主观,可能仅根据感知的表型或文化类型划分。采集的个体样本可能不只具有一种明确的种族背景,如果不根据生物学特征,而是从文化角度看就可能被归类为另一种族。最后,被收养或源自人工授精的人往往不知道他们真正的遗传背景。
尽管并不能完全杜绝存在血缘关系的个体,但数据库中存在的一些这样样本并不能使等位基因频率估计无效。只有数据库中包括特定基因座可影响后代授精或生育的相关个体时,估计等位基因频率才会发生系统偏差。但是,人类个体识别中选用的遗传标记一般可以避免这一类型的采样偏差。采集无关个体样本最主要的目的是通过提高采集的独立等位基因数目,以提高等位基因频率估计的精准度。
选择DNA数据库个体样本时,应事先不知所检测基因座的分型,以确保样本选择的随机性。通常采集血液捐赠者或医院志愿者的样本。在很多情况下,需根据人类学特征仔细划分群体样本,以仔细定义群体的种族。但是,在法医学DNA数据库中没有必要一定要获得详细信息。个体自称所属民族是样本民族分类的合适方法。
民族的一般分类对大多数法医学数据库是足够的,除非是研究一个隔离人群,如美国土著民族阿帕契印第安人。对全美不同群体的检测表明同一种族内样本间等位基因频率的差别是很小的。同样,佛罗里达和弗吉尼亚白人多数常见等位基因很相似,如等位基因11,频率分别是0.323和0.317.因此,如果比较佛罗里达和弗吉尼亚白人的群体数据,DNA分型频率的估计不会有明显区别。