インピュテーション用の参照パネルデータの加工
【JGAD000679】
NBDCヒトデータベースへ制限公開データとして登録されている日本人1,037名の全ゲノムシークエンス解析データに基づく imputation reference panel(JGAD000220)を加工し、TogoImputation※において利用可能にした。
データ加工の具体的な手順は以下の通り。
- JGAD000220 に登録されている aggregate VCF ファイルを対象に、bcftools(version 1.9)プログラムを用いて、tbi index ファイルを計算した。インピュテーションワークフローのbcftools-index-t.cwl(version 1.0)を使用した。
- JGAD000220 に登録されている aggregate VCF ファイルを対象に、bref3(version 28Jun21.220)プログラムを用いて、bref3ファイル形式に変換した。インピュテーションワークフローのbeagle-bref3.cwl(version 1.0)を使用した。
- インピュテーション計算の分割単位である chunk を定義するコンフィグファイルを作成した。染色体を分割せずに、ひとつの染色体を丸ごとひとつの chunk となるように設定した。
【JGAD000867 / JGAD000868】
NBDCヒトデータベースへ制限公開データとして登録されている1,026名のwhole genome sequencing(WGS)データ(JGAD000220)ならびに、1,964名のWGSデータ(JGAD000495)を対象に生殖系列(germline)の全ゲノムシークエンスデータの加工を行い、aggregate VCFを計算し、その後、遺伝型インピュテーションパネル作成ワークフローを用いて下記の条件でvariantsのフィルタリングを行った。
(1) VQSRフィルタを通過しなかったvariantsの除外
(2) Multi-allelic sitesの除外
(3) Call rate が低い(95%未満)variantsの除外
(4) Hardy-Weinberg平衡から逸脱している(P<1e-10)variantsの除外
(5) Minor allele count(MAC)が小さい(< 2)variantsの除外
フィルタリング後のに下記のデータ加工を行うことで、TogoImputation※において利用可能にした。
- フィルタリング後のaggregate VCFファイルを対象に、bcftools(version 1.9)プログラムを用いて、tbi index ファイルを計算した。インピュテーションワークフローのbcftools-index-t.cwl(version 1.0)を使用した。
- フィルタリング後のaggregate VCFファイルを対象に、bref3(version 28Jun21.220)プログラムを用いて、bref3ファイル形式に変換した。インピュテーションワークフローのbeagle-bref3.cwl(version 1.0)を使用した。
- インピュテーション計算の分割単位である chunk を定義するコンフィグファイルを作成した。染色体を分割せずに、ひとつの染色体を丸ごとひとつの chunk となるように設定した。
上記のリファレンスパネルの利用を希望する場合は、データ利用申請が必要となる。データ利用申請方法はこちら
※TogoImputationは、SNPアレイ解析により得られたgenotypeに対してインピュテーション解析を支援するサービスであり、現在このシステムは、国立遺伝学研究所スーパーコンピュータシステムの個人ゲノム解析区画において利用可能となっている。インピュテーションサーバのワークフロー(imputation-server-jp)とUIソースコード(imputationserver-web-ui)も公開されている。詳しくはこちら