NBDC Research ID: hum0343.v4

研究内容の概要

目的： 新型コロナウイルス感染症患者、無症候性感染者及び新型コロナウイルス感染症が疑われる患者の全ゲノムシーケンス、RNAシーケンス、超高精度HLA解析などを通して、重症化予測法システムの構築を行うことを目的とする。匿名化データを使用してCOVID-19の重症度予測などを数理モデルで解析するとともに、ウイルスと自己免疫性疾患およびCOVID-19の関連を解明する。

方法： ゲノムワイド関連解析、RNA-seq、タンパク質発現解析、eQTL/sQTL/pQTL解析、全ゲノムシーケンス

対象： ゲノムワイド関連解析：日本人5,682名（COVID-19感染症患者：2,393名、対照者：3,289名）

　 RNA-seq：日本人COVID-19感染症患者1,019名

　タンパク質発現量解析：日本人COVID-19感染症患者1,384名

　全ゲノムシーケンス：日本人COVID-19感染症患者1,164名

データID	内容	制限	公開日
hum0343.v1.covid19.v1	COVID19感染者のGWAS集計情報	非制限公開	2022/05/26
hum0343.v1.count.v1	COVID19感染者末梢血のNGS（RNA-seq）から得られたリードカウントデータ	非制限公開	2022/05/26
hum0343.v2.qtl.v1	COVID19感染者末梢血のRNA-seq解析データ・SNPアレイデータより算出したeQTL/sQTLサマリーデータ	非制限公開	2022/06/14
E-GEAD-759	COVID19感染者末梢血のNGS（RNA-seq）から得られたリードカウントデータ COVID19感染者末梢血のタンパク質発現量	非制限公開	2024/06/24
hum0343.v3.qtl.v1	COVID19感染者末梢血のRNA-seq解析データ・SNPアレイデータ・タンパク質発現量データより算出したeQTL/pQTLサマリーデータ	非制限公開	2024/06/24
JGAS000739	COVID19感染者末梢血のNGS（WGS）より算出した内在性ヘルペスウイルス6（eHHV-6）の有無およびアネロウイルス量	制限公開（Type I）	2024/10/02

※リリース情報はこちら

※制限公開データの利用にあたっては、利用申請が必要です。申請方法はこちら。

※論文等でデータベースからダウンロードしたデータを含む結果を公表する際には、下記文献を引用いただくか、NBDCヒトデータベースに登録されたデータを利用した旨について謝辞（Acknowledgement）に記載して下さい。記載例はこちら。

分子データ

GWAS


対象	[GWAS-1] 　　COVID-19感染者（ICD-10：U071）：2,393症例、対照者：3,289名 [GWAS-2] 　　[GWAS-1]のCOVID-19感染者の内、重症者：990症例、対照者：3,289名 [GWAS-3] 　　[GWAS-1] の対象者の内65歳未満の者（COVID-19感染者：1,484症例、対照者：2,377名） [GWAS-4] 　　[GWAS-3]の65歳未満のCOVID19感染者の内、重症者：440症例、対照者：2,377名
規模	genome wide SNPs
対象領域（Target Captureの場合）	-
Platform	Illumina [Infinium Asian Screening Array]
ソース	末梢血から抽出したDNA
検体情報（購入の場合）	-
調整試薬（キット名、バージョン）	Infinium Asian Screening Array
遺伝子型決定アルゴリズム（ソフトウェア）	genotyping： GenomeStudio haplotype phasing： SHAPEIT4（autosome）、SHAPEIT2（X-chromosome） imputation： Minimac4
関連解析（ソフトウェア）	PLINK2
フィルタリング	SampleのQC： We excluded samples with (1) sample call rate < 0.97 (2) excess heterozygosity of genotypes > mean + 3SD (3) related samples with PI_HAT > 0.175 (4) outlier samples from East Asian clusters in principal component analysis with 1000 Genomes Project samples. GenotypingのQC： We excluded variants with (1) variant call rate < 0.99 (2) significant call rate differences between cases and controls with P < 5.0×10-8 (3) deviation from Hardy-Weinberg equilibrium with P < 1.0×10-6 (4) minor allele count < 5 Imputation後のQC： MAF ≥ 0.1% and imputation score (Rsq) > 0.5
マーカー数(QC後)	[GWAS-1] 13,484,569バリアント [GWAS-2] 13,199,053バリアント [GWAS-3] 13,241,602バリアント [GWAS-4] 12,764,136バリアント
NBDC Dataset ID	hum0343.v1.covid19.v1 [GWAS-1][GWAS-2][GWAS-3][GWAS-4] （データのダウンロードは各GWAS番号をクリックしてください） Dictionary file
総データ量	[GWAS-1] 361 MB [GWAS-2] 354 MB [GWAS-3] 354 MB [GWAS-4] 343 MB
コメント（利用にあたっての制限事項）	NBDC policy

RNA-seq


対象	COVID-19感染者（ICD-10：U071）：473症例
規模	RNA-seq
対象領域（Target Captureの場合）	-
Platform	Illumina [NovaSeq 6000]
ライブラリソース	末梢血より抽出したRNA
検体情報（購入の場合）	-
ライブラリ作製方法（キット名）	NEBNext® Poly(A) mRNA Magnetic Isolation Module、NEBNext® Ultra™ Directional RNA Library Prep Kit for Illumina
断片化の方法	Mg2+含有バッファー中94°C 15分間にて加熱処理
ライブラリ構築方法	Paired-end
リード長（除：バーコード、アダプタ、プライマー、リンカー）	100 bp
マッピング方法	Adapter removal： Trimmomatic (v0.39) Alignment： STAR (v2.7.9a) Annotation： GENCODE v30
リファレンス配列	GRCh38/hg38
リードカウント決定アルゴリズム（ソフトウェア）	Gene level quantification and normalization： RSEM (v1.3.3)
フィルタリング（QC）方法	median transcripts per kilobase million (TPM) > 10
遺伝子数	5991
NBDC Dataset ID	hum0343.v1.count.v1 （データのダウンロードは上記Dataset IDをクリックしてください）サンプル情報
総データ量	6 MB
コメント（利用にあたっての制限事項）	NBDC policy

eQTL/sQTL解析


対象	COVID-19感染者（ICD-10：U071）：465症例（重症者 359名、軽症者 106名）
規模	eQTL/sQTL要約統計量
対象領域（Target Captureの場合）	-
Platform	RNA-seq：Illumina [NovaSeq 6000] SNPアレイデータ：Illumina [Infinium Asian Screening Array]
ライブラリソース	RNA-seqで得られたfastqデータ、およびGWASで用いられたSNPアレイデータ
検体情報（購入の場合）	-
ライブラリ作製方法（キット名）	RNA-seq：RNA-seqを参照 SNPアレイデータ：GWASを参照
リードカウント決定アルゴリズム（ソフトウェア）	Gene level quantification and normalization： RSEM (v1.3.3) Intron cluster quantification： LeafCutter（ v0.2.7）
フィルタリング（QC）方法	GTEx パイプライン（https://github.com/broadinstitute/gtex-pipeline/）に準拠
eQTL（cis）検出方法	各遺伝子転写開始点に関して、+-1Mb以内に存在する（= cis）変異（頻度>1%）のeQTL効果をfastQTLを用い検定した。 p値が0.05以下である変異-遺伝子組の、変異頻度、p値、効果量、原因変異確率の推定値（=PIP）をsummary dataとした。
eQTL（trans）検出方法	各遺伝子転写開始点に関してtrans-eQTL効果はtensorQTLを用い検定した。 p値が5.0*10^8以下である変異-遺伝子組の、変異頻度、p値、効果量をsummary dataとした。
sQTL検出方法	各イントロン分岐点に関して、+-1Mb以内に存在する変異（頻度>1%）のsQTL効果をfastQTLを用い検定した。 p値が0.05以下である変異-イントロン領域組の、変異頻度、p値、効果量、PIPをsummary dataとした。
NBDC Dataset ID	hum0343.v2.qtl.v1 （データのダウンロードは上記Dataset IDをクリックしてください） Dictionary file
総データ量	465症例：714 MB （tsv）
コメント（利用にあたっての制限事項）	NBDC policy

RNA-seq (E-GEAD-759)


対象	COVID-19感染者（ICD-10：U071）：1,019症例
規模	RNA-seq
対象領域（Target Captureの場合）	-
Platform	Illumina [NovaSeq 6000]
ライブラリソース	末梢血より抽出したRNA
検体情報（購入の場合）	-
ライブラリ作製方法（キット名）	NEBNext® Poly(A) mRNA Magnetic Isolation Module、NEBNext® Ultra™ Directional RNA Library Prep Kit for Illumina
断片化の方法	Mg2+含有バッファー中94°C 15分間にて加熱処理
ライブラリ構築方法	Paired-end
リード長（除：バーコード、アダプタ、プライマー、リンカー）	100 bp
マッピング方法	Alignment： STAR (v2.5.3a) Annotation： GENCODE v30
リファレンス配列	GRCh38/hg38
リードカウント決定アルゴリズム（ソフトウェア）	Gene level quantification and normalization： RSEM (v1.3.0)
フィルタリング（QC）方法	Transcripts per kilobase million (TPM) ≥ 0.1 in ≥ 20% samples Read count ≥ 6 in ≥ 20% samples
遺伝子数	20329
Genomic Expression Archive ID	E-GEAD-759 Dictionary file
総データ量	91.6 MB（tsv）
コメント（利用にあたっての制限事項）	NBDC policy

タンパク質発現量


対象	COVID-19感染者（ICD-10：U071）：1,384症例
規模	タンパク質発現量（タンパク質数：2932）
対象領域（Target Captureの場合）	-
Platform	Olink [Olink Explore 3072]
ライブラリソース	血漿
検体情報（購入の場合）	-
ライブラリ作製方法（キット名）	Olink Explore 3072
断片化の方法	-
ライブラリ構築方法	-
リード長（除：バーコード、アダプタ、プライマー、リンカー）	-
発現量決定方法（ソフトウェア）	OlinkAnalyze v3.4.1
標準化方法	Normalized Protein eXpression (NPX) transformation
バリデーション方法	Bridge sample comparison
Genomic Expression Archive ID	E-GEAD-759 Dictionary file
総データ量	91.6 MB（tsv）
コメント（利用にあたっての制限事項）	NBDC policy

eQTL/pQTL解析


対象	COVID-19感染者（ICD-10：U071）：1,405症例（重症者 995名、軽症者 410名）　うちeQTL解析対象：1,019症例　うちpQTL解析対象：1,384症例　（共通部分：998症例）
規模	eQTL/pQTL要約統計量
対象領域（Target Captureの場合）	-
Platform	RNA-seq：Illumina [NovaSeq 6000] SNPアレイデータ：Illumina [Infinium Asian Screening Array] タンパク質発現量データ：Olink Explore 3072
ライブラリソース	RNA-seqで得られたfastqデータ、およびGWASで用いられたSNPアレイデータならびにタンパク質発現量データ
検体情報（購入の場合）	-
ライブラリ作製方法（キット名）	RNA-seq：RNA-seqを参照 SNPアレイデータ：GWASを参照タンパク質発現量データ：タンパク質発現量を参照
リードカウント決定アルゴリズム（ソフトウェア）	Gene level quantification and normalization： RSEM (v1.3.0) Intron cluster quantification： OlinkAnalyze v3.4.1
フィルタリング（QC）方法	GTEx パイプライン（https://github.com/broadinstitute/gtex-pipeline/）に準拠
eQTL（cis）検出方法	各遺伝子転写開始点に関して、+-1Mb以内に存在する(= cis)変異(アレルカウント>2)のeQTL効果をfastQTLを用い検定した。 p値が0.05以下または原因変異確率の推定値(=PIP)が0.001以上である変異-遺伝子組の、変異頻度、p値、効果量、PIPをそれぞれsummary dataとした。
pQTL（cis）検出方法	各遺伝子転写開始点に関して、+-1Mb以内に存在する(= cis)変異(アレルカウント>2)のpQTL効果をfastQTLを用い検定した。 p値が0.05以下または原因変異確率の推定値(=PIP)が0.001以上である変異-遺伝子組の、変異頻度、p値、効果量、PIPをそれぞれsummary dataとした。
NBDC Dataset ID	hum0343.v3.qtl.v1 （データのダウンロードは上記Dataset IDをクリックしてください） Dictionary file
総データ量	881.5 MB （tsv）
コメント（利用にあたっての制限事項）	NBDC policy

JGAS000739


対象	COVID-19感染者（ICD-10：U071）：1,164症例（重症者 1,068名）
規模	WGS
対象領域（Target Captureの場合）	-
Platform	Illumina [NovaSeq 6000]
ライブラリソース	末梢血から抽出したDNA
検体情報（購入の場合）	-
ライブラリ作製方法（キット名）	TruSeq DNA PCR-free Library Prep Kit
断片化の方法	超音波断片化
ライブラリ構築方法	Paired-end
リード長（除：バーコード、アダプタ、プライマー、リンカー）	150 bp x 2
宿主配列除去やウイルス検出などのためのソフトウェア	https://github.com/shohei-kojima/integrated_HHV6_recon https://github.com/shohei-kojima/human_anellovirus_detection
フィルタリング（QC）	HapMap3データと共に主成分分析を行い、東アジア集団と同じクラスタに分類されることを確認した
ウイルス参照配列	上記GitHubリポジトリを参照（配列リスト）
Japanese Genotype-phenotype Archive Dataset ID	JGAD000874
総データ量	38.5 KB（tsv）
コメント（利用にあたっての制限事項）	NBDC policy

提供者情報

研究代表者： 福永興壱

所属機関： 慶應義塾大学医学部呼吸器内科

プロジェクト/研究グループ名： -

科研費/助成金（Research Project Number）：

科研費・助成金名	タイトル	研究課題番号
国立研究開発法人日本医療研究開発機構（AMED）創薬支援推進事業	新型コロナウイルス感染症の遺伝学的知見に基づいた分子ニードルCOVID-19粘膜免疫ワクチンの開発	JP20nk0101612
新興・再興感染症に対する革新的医薬品等開発推進研究事業	新型コロナウイルス感染症の重症化阻止を目指した医薬品・次世代型ワクチン開発に必要な遺伝学・免疫学・代謝学的基盤研究の推進	JP20fk0108415
新興・再興感染症に対する革新的医薬品等開発推進研究事業	新型コロナ変異ウイルスに対する遺伝学的、免疫学的、代謝学的病態解明および治療戦略の策定	JP20fk0108452
新興・再興感染症研究基盤創生事業（多分野融合研究領域）	新型コロナウイルス感染症後遺症の病態生理の多分野融合による解明	JP21wm0325031
国立研究開発法人科学技術振興機構（JST）戦略的創造研究推進事業CREST	先端ゲノム解析と人工知能によるコロナ制圧研究	JPMJCR20H2
国立研究開発法人日本医療研究開発機構（AMED）免疫アレルギー疾患実用化研究事業	免疫オミクス情報の横断的統合による関節リウマチのゲノム個別化医療の実現	20ek0410075h0001
科学研究費補助金基盤研究（Ａ）	横断的オミクス解析と全ゲノムシークエンスを駆使した疾患病態と組織特異性の解明	19H01021
国立研究開発法人日本医療研究開発機構（AMED）ゲノム創薬基盤推進研究事業	大規模集団ゲノムデータを利用した遺伝子発現制御文法の機械学習による、VUS 病原性の網羅的評価と実験検証	JP22kk0305022
国立研究開発法人科学技術振興機構（JST）創発的研究支援事業	ゲノム制御機構を解明する、解釈可能な汎用予測モデルの構築	JPMJFR225Y
国立研究開発法人科学技術振興機構（JST）戦略的創造研究推進事業さきがけ	パンデミックに対してレジリエントな研究体制構築のための基盤研究	JPMJPR21R7

	タイトル	DOI	データID
1	DOCK2 is involved in the host genetics and biology of severe COVID-19	doi: 10.1038/s41586-022-05163-5	hum0343.v1.covid19.v1 hum0343.v1.count.v1
2	The whole blood transcriptional regulation landscape in 465 COVID-19 infected samples from Japan COVID-19 Task Force	doi: 10.1038/s41467-022-32276-2	hum0343.v2.qtl.v1
3	Statistically and functionally fine-mapped blood eQTLs and pQTLs from 1,405 humans reveal their distinct regulation patterns and disease relevance	doi: 10.1038/s41588-024-01896-3	E-GEAD-759 hum0343.v3.qtl.v1
4	Blood DNA virome associates with autoimmune diseases and COVID-19.		JGAD000874

制限公開データの利用者一覧

研究代表者	所属機関	国・州名	研究題目	利用データID	利用期間
浜田道昭	早稲田大学理工学術院	日本	RNA標的創薬データベースの構築	JGAD000874	2026/05/21-2027/10/31

研究内容の概要

分子データ

提供者情報

関連論文

制限公開データの利用者一覧