snpEff注释结果各区域统计之和大于变异总数?


目录
  • 问题一:各区域注释之和大于变异总数?
  • 问题二:注释Region出现Gene和transcript等区域?

问题一:各区域注释之和大于变异总数?

snpEff的结果很简单,但常常遇到如下问题。
我的SNP总数:
image.png
但是,注释的exon、intron和intergenic之和2,278,570就已经大于了总SNP数。

image.png

我大概能知道是什么原因。一个snp会落在多个基因上,所以既有可能落在exon,又有可能落在intron区,最后会大于总snp。同样,一个gene有多个转录本也会出现这样的情况。如果是Indel或者其他结构变异,这种情况更加可能发生了。

关键是,我看一些高水平文章的统计中,往往注释各区域之和少于或等于总的snp数,如:
image.png
image.png

他们是如何处理,怎样才能得到这样的结果呢?snpEff结果文档没说,网上也无解。有人用最佳transcript,但还是会出现这种情况。
number of functions is more than namber of variants in snpEff's output

问题二:注释Region出现Gene和transcript等区域?

在一些注释结果中,特别是大的结构变异中,常常还会出现gene、transcript之类的变异统计,有些则没有。按说有exon,应该都会落在gene,为什么gene时有时无。这如何理解?
image.png
同样,该问题snpEff文档中也没有详细解释。

希望有大佬指点一二。