インピュテーション用の参照パネルデータの加工

【JGAD000679】

NBDCヒトデータベースへ制限公開データとして登録されている日本人1,037名の全ゲノムシークエンス解析データに基づく imputation reference panel（JGAD000220）を加工し、TogoImputation^※において利用可能にした。

データ加工の具体的な手順は以下の通り。

JGAD000220 に登録されている aggregate VCF ファイルを対象に、bcftools（version 1.9）プログラムを用いて、tbi index ファイルを計算した。インピュテーションワークフローのbcftools-index-t.cwl（version 1.0）を使用した。
JGAD000220 に登録されている aggregate VCF ファイルを対象に、bref3（version 28Jun21.220）プログラムを用いて、bref3ファイル形式に変換した。インピュテーションワークフローのbeagle-bref3.cwl（version 1.0）を使用した。
インピュテーション計算の分割単位である chunk を定義するコンフィグファイルを作成した。染色体を分割せずに、ひとつの染色体を丸ごとひとつの chunk となるように設定した。

【JGAD000867 / JGAD000868】

NBDCヒトデータベースへ制限公開データとして登録されている1,026名のwhole genome sequencing（WGS）データ（JGAD000220）ならびに、1,964名のWGSデータ（JGAD000495）を対象に生殖系列（germline）の全ゲノムシークエンスデータの加工を行い、aggregate VCFを計算し、その後、遺伝型インピュテーションパネル作成ワークフローを用いて下記の条件でvariantsのフィルタリングを行った。

(1) VQSRフィルタを通過しなかったvariantsの除外

(2) Multi-allelic sitesの除外

(3) Call rate が低い（95%未満）variantsの除外

(4) Hardy-Weinberg平衡から逸脱している（P<1e-10）variantsの除外

(5) Minor allele count（MAC）が小さい（< 2）variantsの除外

フィルタリング後のに下記のデータ加工を行うことで、TogoImputation^※において利用可能にした。

フィルタリング後のaggregate VCFファイルを対象に、bcftools（version 1.9）プログラムを用いて、tbi index ファイルを計算した。インピュテーションワークフローのbcftools-index-t.cwl（version 1.0）を使用した。
フィルタリング後のaggregate VCFファイルを対象に、bref3（version 28Jun21.220）プログラムを用いて、bref3ファイル形式に変換した。インピュテーションワークフローのbeagle-bref3.cwl（version 1.0）を使用した。
インピュテーション計算の分割単位である chunk を定義するコンフィグファイルを作成した。染色体を分割せずに、ひとつの染色体を丸ごとひとつの chunk となるように設定した。

上記のリファレンスパネルの利用を希望する場合は、データ利用申請が必要となる。データ利用申請方法はこちら

※TogoImputationは、SNPアレイ解析により得られたgenotypeに対してインピュテーション解析を支援するサービスであり、現在このシステムは、国立遺伝学研究所スーパーコンピュータシステムの個人ゲノム解析区画において利用可能となっている。インピュテーションサーバのワークフロー（imputation-server-jp）とUIソースコード（imputationserver-web-ui）も公開されている。詳しくはこちら