インピュテーション用の参照パネルデータの加工

【JGAD000679】

NBDCヒトデータベースへ制限公開データとして登録されている日本人1,037名の全ゲノムシークエンス解析データに基づく imputation reference panel(JGAD000220)を加工し、TogoImputationにおいて利用可能にした。

データ加工の具体的な手順は以下の通り。

  1. JGAD000220 に登録されている aggregate VCF ファイルを対象に、bcftools(version 1.9)プログラムを用いて、tbi index ファイルを計算した。インピュテーションワークフローbcftools-index-t.cwl(version 1.0)を使用した。
  2. JGAD000220 に登録されている aggregate VCF ファイルを対象に、bref3(version 28Jun21.220)プログラムを用いて、bref3ファイル形式に変換した。インピュテーションワークフローbeagle-bref3.cwl(version 1.0)を使用した。
  3. インピュテーション計算の分割単位である chunk を定義するコンフィグファイルを作成した。染色体を分割せずに、ひとつの染色体を丸ごとひとつの chunk となるように設定した。

 

【JGAD000867 / JGAD000868】

NBDCヒトデータベースへ制限公開データとして登録されている1,026名のwhole genome sequencing(WGS)データ(JGAD000220)ならびに、1,964名のWGSデータ(JGAD000495)を対象に生殖系列(germline)の全ゲノムシークエンスデータの加工を行い、aggregate VCFを計算し、その後、遺伝型インピュテーションパネル作成ワークフローを用いて下記の条件でvariantsのフィルタリングを行った。

(1) VQSRフィルタを通過しなかったvariantsの除外

(2) Multi-allelic sitesの除外

(3) Call rate が低い(95%未満)variantsの除外

(4) Hardy-Weinberg平衡から逸脱している(P<1e-10)variantsの除外

(5) Minor allele count(MAC)が小さい(< 2)variantsの除外

フィルタリング後のに下記のデータ加工を行うことで、TogoImputationにおいて利用可能にした。

  1. フィルタリング後のaggregate VCFファイルを対象に、bcftools(version 1.9)プログラムを用いて、tbi index ファイルを計算した。インピュテーションワークフローbcftools-index-t.cwl(version 1.0)を使用した。
  2. フィルタリング後のaggregate VCFファイルを対象に、bref3(version 28Jun21.220)プログラムを用いて、bref3ファイル形式に変換した。インピュテーションワークフローbeagle-bref3.cwl(version 1.0)を使用した。
  3. インピュテーション計算の分割単位である chunk を定義するコンフィグファイルを作成した。染色体を分割せずに、ひとつの染色体を丸ごとひとつの chunk となるように設定した。

 

上記のリファレンスパネルの利用を希望する場合は、データ利用申請が必要となる。データ利用申請方法はこちら

 

※TogoImputationImputationServerは、SNPアレイ解析により得られたgenotypeに対してインピュテーション解析を支援するサービスであり、現在このシステムは、国立遺伝学研究所スーパーコンピュータシステム個人ゲノム解析区画において利用可能となっている。インピュテーションサーバのワークフロー(imputation-server-jp)とUIソースコード(imputationserver-web-ui)も公開されている。詳しくはこちら