TransVar软件使用
TransVar软件使用
Transvar是一个基因变异位点的多功能注释软件。由Wanding Zhou在2015年用Python开发的一款开源软件,目前有网页版(TransVar)和本地版两种使用方式方式。在这里主要介绍下利用该软件实现坐标的转换功能。网页版使用在另外一篇笔记中:
Zhou, W., Chen, T., Chong, Z. et al. TransVar: a multilevel variant annotator for precision genomics. Nat Methods 12, 1002–1003 (2015). https://doi.org/10.1038/nmeth.3622
一、软件安装和依赖数据库的下载
该软件是用python开发的软件,可以利用python自带的pip功能进行安装。也可以基于Docker进行安装或者下载源码自行安装。
## 基于pip的安装
pip install transvar
成功安装以后需要下载依赖的数据库,在这里以Hg19对应的数据为例。可根据自己的情况按需下载。
## 下载注释的数据库
transvar config --download --refversion hg19
## 下载reference,如果有可跳过
transvar config --download_ref --refversion hg19
## 添加reference
transvar config -k reference -v [path_to_hg19.fa] --refversion hg19
二、使用方法和输入选项
TransVar支持基因组坐标(g.HGVS)、cDNA坐标(c.HGVS)、氨基酸坐标(p.HGVS)之间的相互转换。可以根据一个坐标推断出其余两个坐标。
1、正向注释
已知基因组坐标,由基因组坐标注释出其余坐标
transvar ganno -i 'chr9:g.133750356_137990357' --ucsc
## 可以根据自己需要选择注释的数据库,可选项有--ensembl、--ucsc、--refseq、--ccds等。
## 如果位点较多,支持批量注释
transvar ganno -l site.list --ucsc > result.txt
2、反向注释
未知基因组坐标,利用cDNA坐标或氨基酸坐标进行注释,需要注意的是,反向注释需要提供基因或者转录本和信息。
## 已知c.HGVS
transvar canno --ccds -i 'PIK3CA:c.1633G>A' --ucsc
## 已知p.HGVS
transvar panno -i 'PIK3CA:p.E545K' --ucsc
三、输出结果介绍
为了便于和其他结果比较可以加入--gseq参数,该参数可以在每一行后输出突变位置的信息(chrom、pos、ref、alt)。
transvar canno -i 'MRE11A:c.592_593delGTinsTA' --ensembl --gseq
## 输出结果
MRE11A:c.592_593delGTinsTA ENST00000323929 (protein_coding) MRE11A -chr11:g.94209521_94209522delinsTA/c.592_593delinsTA/p.V198* inside_[cds_in_exon_7] CSQN=Missense;codon_cDNA=592-593-594;aliases=ENSP00000325863;source=Ensembl chr11 94209520 TAC TTA
MRE11A:c.592_593delGTinsTA ENST00000323977 (protein_coding) MRE11A - chr11:g.94209521_94209522delinsTA/c.592_593delinsTA/p.V198* inside_[cds_in_exon_7] CSQN=Missense;codon_cDNA=592-593-594;aliases=ENSP00000326094;source=Ensembl chr11 94209520 TAC TTA
MRE11A:c.592_593delGTinsTA ENST00000393241 (protein_coding) MRE11A - chr11:g.94209521_94209522delinsTA/c.592_593delinsTA/p.V198* inside_[cds_in_exon_7] CSQN=Missense;codon_cDNA=592-593-594;aliases=ENSP00000376933;source=Ensembl chr11 94209520 TAC TTA
MRE11A:c.592_593delGTinsTA ENST00000540013 (protein_coding) MRE11A - chr11:g.94209521_94209522delinsTA/c.592_593delinsTA/p.V198* inside_[cds_in_exon_7] CSQN=Missense;codon_cDNA=592-593-594;aliases=ENSP00000440986;source=Ensembl chr11 94209520 TAC TTA
对于这个输出结果一共有11列信息,以Tab分割,每一列对应信息如下:
- 第一列对应的是输入信息
- 第二列对应的是蛋白的编码信息,在本示例对应的是ensembl_ID,如果用refseq则是refseq的转录本ID
- 第三列对应的是基因名字
- 第四列对应的是正/负链信息,表示该位置是基于参考基因组的负链为模板
- 第五列对应的是HGVS的坐标
- 第六列对应的是在转录本的位置
- 第七列对应的是位点的注释信息
- 第八-十一列对应的是染色体、pos、ref、alt,这几列信息和VCF格式的数据一致