NBDC Research ID: hum0331.v1
研究内容の概要
目的: 難病やがんを対象としたゲノム医療の推進のため、全ゲノムシークエンス解析が進められている。疾患ゲノム解析の遂行には、疾患群の対照となる健常人コントロール群の全ゲノム解析データも必要である。国内の6つの国立高度専門医療研究センター(ナショナルセンター[National Centers: NC])のバイオバンクにおいて収集し、地域性を考慮した検体から難病やがんに対するコントロール群を選定の上、全ゲノム解析を実施することで、コントロール群のゲノムデータベースを構築する。
方法: 本研究の目的に適したDNAサンプルを各バイオバンクから選定し、受託解析機関で全ゲノムシークエンス(Whole genome sequencing:WGS)解析を実施する。WGS解析はPCRフリープロトコルによりライブラリを調整し、NovaSeq 6000シークエンサーにてリードを取得することで、最低90Gbの出力を得る。解析で得られたfastq形式のリードデータは研究代表機関(国立国際医療研究センター)において情報解析(マッピング・バリアントコール)を行い、バリアント情報を含むデータをデータベース化する。
対象: 難病やがん研究のコントロール群として利用可能な健常者(難病やがんを罹患していない生活習慣病を持つ人を含む) 9850名の内、QCにより除外された560名を除く9290名
データID | 内容 | 制限 | 公開日 |
---|---|---|---|
hum0331.v1.freq.v1 | NGS(WGS) | 非制限公開 | 2023/02/01 |
※リリース情報はこちら
※論文等でデータベースからダウンロードしたデータを含む結果を公表する際には、下記文献を引用いただくか、NBDCヒトデータベースに登録されたデータを利用した旨について謝辞(Acknowledgement)に記載して下さい。記載例はこちら。
分子データ
対象 | 健常者(難病やがんを罹患していない生活習慣病を持つ人を含む)(ICD10:Z006):9290名 |
規模 | WGS |
対象領域(Target Captureの場合) | - |
Platform | Illumina [NovaSeq 6000] |
ソース | 各バイオバンクから選定した健常者の末梢血から抽出したDNA |
検体情報(購入の場合) | - |
ライブラリ作製方法(キット名) | TruSeq DNA PCR-Free HT Library Prep Kit |
断片化の方法 | 超音波断片化 |
ライブラリ構築方法 | Paired-end |
リード長(除:バーコード、アダプタ、プライマー、リンカー) | 150 bp |
クオリティコントロール方法 |
以下の条件で全ゲノムシークエンス解析を実施 - ライブラリサイズが400bp-750bpであることを確認 - QV30以上の塩基の割合が75%以上 - FASTQCによる重複リード除去後の総塩基数が900億塩基以上
アライメントとバリアントコール後に以下のサンプルを解析から除外した - Depthおよびマップ率が異常値を示すサンプル - 性染色体のDepthが臨床情報の性別と矛盾するサンプル - KINGプログラムで2親等以内と判定されたサンプルのいずれか
バリアントコールの結果は以下のフィルタリングを実行した - GQ<20またはDP<11またはDP>64またはヘテロ接合体コールにおいてマイナーアリルの割合が25%未満のジェノタイプはno callに設定 - VQSRの結果をVCFのFILTERフィールドにセット - コール率95%未満のバリアントにはFILTERにLowCRをセット - Hardy-Weinberg平衡検定のP値が10-6未満のバリアントにはFILTERにHWEをセット |
重複するリードの除去方法 | MarkDuplicates(GATK4.1.0)互換アルゴリズム(Parabricks 3.1.0 fq2bam) |
リアライメントおよびベースクオリティのキャリブレーション | - |
マッピング方法 | bwa mem(v0.7.15)互換アルゴリズム(Parabricks 3.1.0 fq2bam) |
マッピングクオリティ | MQによるハードフィルタリングは未実施 |
マッピングの際のリファレンス配列 | GRCh38(+HLA+decoy) |
平均カバー率(Depth) | 34.0(常染色体) |
変異検出方法 | HaplotypeCaller(GATK4.1.0)互換アルゴリズム(Parabricks 3.1.0 haplotypecaller) |
SNV数(QC後) |
153,554,029(常染色体) 6,325,046(X染色体) |
INDEL数(QC後) |
18,899,392(常染色体) 836,126(X染色体) |
NBDC Dataset ID |
(データのダウンロードは上記Dataset IDをクリックしてください) |
総データ量 | 69.24 GB(vcf) |
コメント(利用にあたっての制限事項) | NBDC policy |
提供者情報
研究代表者: 徳永 勝士
所 属 機 関: 国立国際医療研究センター ゲノム医科学プロジェクト
プロジェクト/研究グループ名: ナショナルセンターバイオバンクネットワーク
科研費/助成金(Research Project Number):
科研費・助成金名 | タイトル | 研究課題番号 |
---|---|---|
日本医療研究開発機構(AMED) 臨床ゲノム情報統合データベース整備事業 | ゲノム医療の実装に資する臨床ゲノム情報統合データベースの整備と我が国の継続的なゲノム医療実施体制の構築 | JP19kk0205012 |
関連論文
タイトル | DOI | データID | |
---|---|---|---|
1 | Exploring the genetic diversity of the Japanese population: Insights from a large-scale whole genome sequencing analysis | doi: 10.1371/journal.pgen.1010625 | hum0331.v1.freq.v1 |
2 |