UCSCとEnsemblの染色体番号の表記の違いについて

UCSCの染色体番号の表記法では、chr1, chr2 のように chr が付く。ゲノムシーケンスやアセンブルが荒いと、どの染色体にも割り当てられなかったコンティグがでてきる。 これは、XXX.1みたいになる。

Ensemblは、chrがつかないで、1, 2, 3, ..., X のようになる。またコンティグは、Un_ のようになる。末尾に .1はつかない。

これがどのようなときに問題になるか。まず、Ensembl と UCSC どちらのゲノム配列を利用して解析しているかを意識する必要がある。例えば、bowtie, tophat などでマッピングするときに、どちらのゲノムを使うかによって、bam/sam の染色体名の表記の仕方が決まる。これはそれぞれで配布されている fasta file の ヘッダーに書いてある染色体番号の表記に従うからだ。

次に、アノテーションファイル(bedやgtfなど)をどこから手にいれたかによっても異なる。Biomart や Ensembl から落すと、chr はつかない、いわゆる、ensembl 方式の表記になる。 しかし、UCSCのアノテーションを落してくると、UCSC形式になる。

なので、bam とアノテーションファイルで表記が違うものを使っていると、そんな染色体はないよ、というエラーになる。また、ツールによって、どちらかの表記を前提にしている、ということは少ないかもしれないが、注意が必要。

これを修正するには、アノテーションファイルかbam/samの染色体表記を修正する必要がある。めんどくさい。