基因类型的鉴定
基因组组装和注释完成,得到配套的基因组和注释文件之后,可以利用gffread提取对应的gene的cds,pep序列。应运而生,下游的生信或者实验想知道关注的基因是什么类型基因,拷贝数,等情况,因此需要进行鉴定。
基因类型的方法
目前用到的是软件MCScanX(安装和使用https://www.jianshu.com/p/41f7842140c6)和DupGen_finder(https://github.com/qiao-xin/DupGen_finder)(其实调用的还是MCscanX)。
1.1 DupGen_finder安装,自带测试数据,数据准备参看github即可
cd ~/software # or any directory of your choice
git clone https://github.com/qiao-xin/DupGen_finder.git
cd DupGen_finder
make ##如果报错,注意升级gcc版本即可解决
chmod 775 DupGen_finder.pl
chmod 775 DupGen_finder-unique.pl
chmod 775 set_PATH.sh
source set_PATH.sh
软件
1.png
1.2 DupGen_finder使用
参考给的例子是需要自己比对自己的结果和自己比对外群的结果,然后将每一类结果分别提出,我的理解是将MCScanX的结果进一步细化。比MCscanx分类更细。已验证wgd genes数量已验证结果一致。其他的分类数量有变化,多了一个类型transposed genes。
perl DupGen_finder-unique.pl -i data -t Ath -c Nnu -o results
输入文件和结果如下:
6444ca80ddfe5d54e5b42564a9f3f42.png
软件能将所有的基因分为6类复制基因,以下有中英文对照::
- WGD:全基因组复制 whole-genome duplication(WGD)
- TD:串联重复(相邻的两个重复基因) tandem duplication (TD)
- PD:近端重复(相隔10个以内基因的重复基因)Proximal duplication (PD)
- TRD:转置重复(祖先和新基因座组成的重复基因)transposed duplication (TRD)
- DSD:分散重复(不相邻也不共线性的重复基因)Dispersed duplication (DSD)
- SL:单拷贝 single-gene duplications(SL)
Duplicated gene pairs:
- Ath.wgd.pairs
- Ath.tandem.pairs
- Ath.proximal.pairs
- Ath.transposed.pairs
- Ath.dispersed.pairs
These files includes duplicated gene pairs derived from five modes of gene duplication, including WGD (Ath.wgd.pairs), tandem duplication (Ath.tandem.pairs), proximal duplication (Ath.proximal.pairs), transposed duplication (Ath.transposed.pairs), dispersed duplication (Ath.dispersed.pairs). The gene pairs contained in these files looks like this (tab separated):
No Duplicated gene pairs:
- Ath.singletons It includes genes that have no homologous genes within target species. 实测多个物种,有的鉴定结果可能有,有的可能该文件内容为空
问题与建议
DupGen_finder.pl 是用所有的gene pairs每次单独进行一种类型的鉴定。
DupGen_finder-unique.pl 会考虑去重合,用所有的gene pairs结果进行WGD鉴定,被鉴定到的gene pairs从所有的结果中移去,剩下的gene pairs再进行分析。依次为:The priority of the duplicate genes is as follows: WGD > tandem > proximal > transposed > dispersed。
image.png
2.1 MCScanX使用
不需要外群,只要有自身Ath_Ath.blast和Ath_Ath.gff文件
cp DupGen_finder/data Ath_Ath && PATH/MCScanX/duplicate_gene_classifier Ath_Ath>Ath_ath.gene_classifier.txt && touch ok
结果说明:其中0,1,2,3,4分别代表了哪五大类:
0:singleton(非重复基因)
1:dispersed(不是2,3,4的其它重复)
2:proximal(染色体附近的重复,但是不相邻)
3:tandem(串联重复)
4:WGD/segmental(在共线性区域的共线性基因)