基因组所相助开发完成基于K-mer的基因组组分剖析数据库
在已往的几十年中,人们往往使用高度守旧的基因家族举行系统进化剖析,接纳全基因组序枚举行系统进化剖析并不普遍。现在,基于是否举行序列的比对,分子系统爆发树的构建分为两类。其中,不需要举行序列比对的要领是依据K-mer向量盘算的距离矩阵举行系统进化剖析,大宗的研究证实该算法是行之有用的,尤其是对基因组中诸如卵白编码序列等的特定区域。不但云云,K-mer算法还在组学的其他方面,包括基因组组装、motif展望、重复序列的识别以及基因组的重大性评估等都受到了普遍的关注;K-mer算法在组学中的主要体现,在这个大规;蜃槭菘焖倩鄣氖贝,构建一个基于K-mer算法易于存储并且将大宗基因组数据可视化处置惩罚的数据库十分迫切。
为此,ibet基因组科学与信息重点实验室于军组和英国伦敦大学学院(UCL)肿瘤研究所王大鹏博士相助开发了一套基于K-mer算法的基因组组分剖析数据库KGCAK。此项研究于近期揭晓在Biology Direct杂志。
在这个数据库中,研究职员搜集了Ensembl、Phytozome和NCBI等几大主流基因组数据库中包括高等动植物、原生生物、真菌、细菌、病毒等在内的8000多个核基因组或者细胞器基因组,同时包括基因组差别维度的序列,主要有DNA、cDNA、CDS、氨基酸和ncRNA序列。并且还划分盘算和存储了核酸序列(K从2转变到10)和氨基酸序列(K从1转变到5)的K-mer向量,以利便举行差别维度数据跨物种的系统爆发树构建。别的,该数据库提供了评估差别物种基因组重漂后的交互工具,主要包括基因组基本特征参数、K-mer向量的数学参数统计、频率漫衍、唯一性比率,以及二维和三维空间可视化剖析基因组参数和K-mer参数的交互关系等。
总的来说,该数据库通过捕获基因组序列特征并把基因组转化成更易于明确和可视化的数字K-mer向量,以期通过K-mer算法用可视化的图形和定量的数据构建一个较量基因组学的平台,将为系统爆发树构建和通过基因组数据研究物种关系提供优异的参照和指引。
KGCAK数据库中基本功效?榫倮