当前位置 - 股票行情交易網 - 裝修設計 - 什麽是VCF?

什麽是VCF?

什麽是VCF文件:全稱“The variant call format”,變體調用格式,是壹種用於存儲DNA多態性數據如snp、插入、刪除和結構變體和豐富註釋的通用格式。

什麽是VCFtools:VCFtools是壹個軟件套件,它實現了處理VCF文件的各種工具,包括驗證、合並、比較,還提供了壹個通用的Perl API。

VCF格式:由標題部分(header)和數據部分(Body)組成。標頭包含任意數量的元信息行,每壹行都以字符' ## '開頭,用TAB鍵分隔開的字段定義行(field definition line)以單個' # '字符開頭。元信息頭行提供了數據部分中使用的標記和註釋的標準化描述。

字段定義行(field definition line)強制有八個列,相應的數據列代表

染色體?chromosome (CHROM);

基於1的位置開始的變體 a 1-based position of the start of the variant (POS);

變體的惟壹標識符 unique identifiers of the variant (ID);

參考等位基因 the reference allele(REF);

替代非引用等位基因的逗號分隔列表? a comma separated list of alternate non-reference alleles(ALT);

phred-scaled質量分數? a phred-scaled quality score(QUAL);

網站過濾信息site filtering information (FILTER);

壹個額外的分號分隔的列表和用戶可擴展的註釋 a semicolon separated list of additional, user extensible annotation (INFO)。

GT,genotype,基因型,將等位基因編碼為數字:0表示參考等位基因,1表示ALT列中列出的第壹個等位基因,2表示ALT列中列出的第二個等位基因,以此類推。等位基因的數量表明樣本的倍性,而分隔符表明相對於其他數據線,等位基因是階段性的(' | ')還是非階段性的(' / ')。

PS, phase set,表明具有相同PS值的基因型等位基因排列順序相同。

DP,讀取深度。

GL,genotype likelihoods,給定REF和ALT字段中定義的等位基因集,所有可能的基因型的基因型可能性。

GQ, genotype quality,在位點變異的情況下,基因型調用錯誤的概率。