NBDC Research ID: hum0331.v1

研究内容の概要

目的： 難病やがんを対象としたゲノム医療の推進のため、全ゲノムシークエンス解析が進められている。疾患ゲノム解析の遂行には、疾患群の対照となる健常人コントロール群の全ゲノム解析データも必要である。国内の６つの国立高度専門医療研究センター（ナショナルセンター[National Centers: NC]）のバイオバンクにおいて収集し、地域性を考慮した検体から難病やがんに対するコントロール群を選定の上、全ゲノム解析を実施することで、コントロール群のゲノムデータベースを構築する。

方法： 本研究の目的に適したDNAサンプルを各バイオバンクから選定し、受託解析機関で全ゲノムシークエンス（Whole genome sequencing：WGS）解析を実施する。WGS解析はPCRフリープロトコルによりライブラリを調整し、NovaSeq 6000シークエンサーにてリードを取得することで、最低90Gbの出力を得る。解析で得られたfastq形式のリードデータは研究代表機関（国立国際医療研究センター）において情報解析（マッピング・バリアントコール）を行い、バリアント情報を含むデータをデータベース化する。

対象： 難病やがん研究のコントロール群として利用可能な健常者（難病やがんを罹患していない生活習慣病を持つ人を含む） 9850名の内、QCにより除外された560名を除く9290名

URL： https://ncbiobank.org/

　　 https://ncbiobank.org/cbs/

データID	内容	制限	公開日
hum0331.v1.freq.v1	NGS（WGS）	非制限公開	2023/02/01

※リリース情報はこちら

※論文等でデータベースからダウンロードしたデータを含む結果を公表する際には、下記文献を引用いただくか、NBDCヒトデータベースに登録されたデータを利用した旨について謝辞（Acknowledgement）に記載して下さい。記載例はこちら。

分子データ

hum0331.v1.freq.v1


対象	健常者（難病やがんを罹患していない生活習慣病を持つ人を含む）（ICD10：Z006）：9290名
規模	WGS
対象領域（Target Captureの場合）	-
Platform	Illumina [NovaSeq 6000]
ソース	各バイオバンクから選定した健常者の末梢血から抽出したDNA
検体情報（購入の場合）	-
ライブラリ作製方法（キット名）	TruSeq DNA PCR-Free HT Library Prep Kit
断片化の方法	超音波断片化
ライブラリ構築方法	Paired-end
リード長（除：バーコード、アダプタ、プライマー、リンカー）	150 bp
クオリティコントロール方法	以下の条件で全ゲノムシークエンス解析を実施 - ライブラリサイズが400bp-750bpであることを確認 - QV30以上の塩基の割合が75%以上 - FASTQCによる重複リード除去後の総塩基数が900億塩基以上アライメントとバリアントコール後に以下のサンプルを解析から除外した - Depthおよびマップ率が異常値を示すサンプル - 性染色体のDepthが臨床情報の性別と矛盾するサンプル - KINGプログラムで２親等以内と判定されたサンプルのいずれかバリアントコールの結果は以下のフィルタリングを実行した - GQ<20またはDP<11またはDP>64またはヘテロ接合体コールにおいてマイナーアリルの割合が25%未満のジェノタイプはno callに設定 - VQSRの結果をVCFのFILTERフィールドにセット - コール率95%未満のバリアントにはFILTERにLowCRをセット - Hardy-Weinberg平衡検定のP値が10-6未満のバリアントにはFILTERにHWEをセット
重複するリードの除去方法	MarkDuplicates（GATK4.1.0）互換アルゴリズム（Parabricks 3.1.0 fq2bam）
リアライメントおよびベースクオリティのキャリブレーション	-
マッピング方法	bwa mem（v0.7.15）互換アルゴリズム（Parabricks 3.1.0 fq2bam）
マッピングクオリティ	MQによるハードフィルタリングは未実施
マッピングの際のリファレンス配列	GRCh38（+HLA+decoy）
平均カバー率（Depth）	34.0（常染色体）
変異検出方法	HaplotypeCaller（GATK4.1.0）互換アルゴリズム（Parabricks 3.1.0 haplotypecaller）
SNV数（QC後）	153,554,029（常染色体） 6,325,046（X染色体）
INDEL数（QC後）	18,899,392（常染色体） 836,126（X染色体）
NBDC Dataset ID	hum0331.v1.freq.v1 hum0331.v1.freq-index.v1 （データのダウンロードは上記Dataset IDをクリックしてください） README
総データ量	69.24 GB（vcf）
コメント（利用にあたっての制限事項）	NBDC policy

提供者情報

研究代表者： 徳永勝士

所属機関： 国立国際医療研究センターゲノム医科学プロジェクト

プロジェクト/研究グループ名： ナショナルセンターバイオバンクネットワーク

科研費/助成金（Research Project Number）：

科研費・助成金名	タイトル	研究課題番号
日本医療研究開発機構（AMED）臨床ゲノム情報統合データベース整備事業	ゲノム医療の実装に資する臨床ゲノム情報統合データベースの整備と我が国の継続的なゲノム医療実施体制の構築	JP19kk0205012

	タイトル	DOI	データID
1	Exploring the genetic diversity of the Japanese population: Insights from a large-scale whole genome sequencing analysis	doi: 10.1371/journal.pgen.1010625	hum0331.v1.freq.v1
2

研究内容の概要

分子データ

提供者情報

関連論文