什麽是VCF?
什麽是VCFtools:VCFtools是壹個軟件套件,它實現了處理VCF文件的各種工具,包括驗證、合並、比較,還提供了壹個通用的Perl API。
VCF格式:由標題部分(header)和數據部分(Body)組成。標頭包含任意數量的元信息行,每壹行都以字符' ## '開頭,用TAB鍵分隔開的字段定義行(field definition line)以單個' # '字符開頭。元信息頭行提供了數據部分中使用的標記和註釋的標準化描述。
字段定義行(field definition line)強制有八個列,相應的數據列代表
染色體?chromosome (CHROM);
基於1的位置開始的變體 a 1-based position of the start of the variant (POS);
變體的惟壹標識符 unique identifiers of the variant (ID);
參考等位基因 the reference allele(REF);
替代非引用等位基因的逗號分隔列表? a comma separated list of alternate non-reference alleles(ALT);
phred-scaled質量分數? a phred-scaled quality score(QUAL);
網站過濾信息site filtering information (FILTER);
壹個額外的分號分隔的列表和用戶可擴展的註釋 a semicolon separated list of additional, user extensible annotation (INFO)。
GT,genotype,基因型,將等位基因編碼為數字:0表示參考等位基因,1表示ALT列中列出的第壹個等位基因,2表示ALT列中列出的第二個等位基因,以此類推。等位基因的數量表明樣本的倍性,而分隔符表明相對於其他數據線,等位基因是階段性的(' | ')還是非階段性的(' / ')。
PS, phase set,表明具有相同PS值的基因型等位基因排列順序相同。
DP,讀取深度。
GL,genotype likelihoods,給定REF和ALT字段中定義的等位基因集,所有可能的基因型的基因型可能性。
GQ, genotype quality,在位點變異的情況下,基因型調用錯誤的概率。