NBDC Research ID: hum0343.v4

 

研究内容の概要

目的: 新型コロナウイルス感染症患者、無症候性感染者及び新型コロナウイルス感染症が疑われる患者の全ゲノムシーケンス、RNAシーケンス、超高精度HLA解析などを通して、重症化予測法システムの構築を行うことを目的とする。匿名化データを使用してCOVID-19の重症度予測などを数理モデルで解析するとともに、ウイルスと自己免疫性疾患およびCOVID-19の関連を解明する。

方法: ゲノムワイド関連解析、RNA-seq、タンパク質発現解析、eQTL/sQTL/pQTL解析、全ゲノムシーケンス

対象: ゲノムワイド関連解析:日本人5,682名 (COVID-19感染症患者:2,393名、対照者:3,289名)

         RNA-seq:日本人COVID-19感染症患者1,019名

         タンパク質発現量解析:日本人COVID-19感染症患者1,384名

         全ゲノムシーケンス:日本人COVID-19感染症患者1,164名

 

データID内容制限公開日
hum0343.v1.covid19.v1 COVID19感染者のGWAS集計情報 非制限公開 2022/05/26
hum0343.v1.count.v1 COVID19感染者末梢血のNGS(RNA-seq)から得られたリードカウントデータ 非制限公開 2022/05/26
hum0343.v2.qtl.v1 COVID19感染者末梢血のRNA-seq解析データ・SNPアレイデータより算出したeQTL/sQTLサマリーデータ 非制限公開 2022/06/14
E-GEAD-759

COVID19感染者末梢血のNGS(RNA-seq)から得られたリードカウントデータ

COVID19感染者末梢血のタンパク質発現量

非制限公開 2024/06/24
hum0343.v3.qtl.v1 COVID19感染者末梢血のRNA-seq解析データ・SNPアレイデータ・タンパク質発現量データより算出したeQTL/pQTLサマリーデータ 非制限公開 2024/06/24
JGAS000739 COVID19感染者末梢血のNGS(WGS)より算出した内在性ヘルペスウイルス6(eHHV-6)の有無およびアネロウイルス量 制限公開(Type I) 2024/10/02

※リリース情報はこちら

※制限公開データの利用にあたっては、利用申請が必要です。申請方法はこちら

※論文等でデータベースからダウンロードしたデータを含む結果を公表する際には、下記文献を引用いただくか、NBDCヒトデータベースに登録されたデータを利用した旨について謝辞(Acknowledgement)に記載して下さい。記載例はこちら

 

分子データ

GWAS

対象

[GWAS-1]

  COVID-19感染者 (ICD-10:U071):2,393症例、対照者:3,289名

[GWAS-2]

  [GWAS-1]のCOVID-19感染者の内、重症者:990症例、対照者:3,289名

[GWAS-3]

  [GWAS-1] の対象者の内65歳未満の者(COVID-19感染者:1,484症例、対照者:2,377名)

[GWAS-4]

  [GWAS-3]の65歳未満のCOVID19感染者の内、重症者:440症例、対照者:2,377名

規模 genome wide SNPs
対象領域(Target Captureの場合) -
Platform Illumina [Infinium Asian Screening Array]
ソース 末梢血から抽出したDNA
検体情報(購入の場合) -
調整試薬(キット名、バージョン) Infinium Asian Screening Array
遺伝子型決定アルゴリズム(ソフトウェア)

genotyping: GenomeStudio

haplotype phasing: SHAPEIT4(autosome)、SHAPEIT2(X-chromosome)

imputation: Minimac4

関連解析(ソフトウェア) PLINK2
フィルタリング

SampleのQC: We excluded samples with

      (1) sample call rate < 0.97

      (2) excess heterozygosity of genotypes > mean + 3SD

      (3) related samples with PI_HAT > 0.175

      (4) outlier samples from East Asian clusters in principal component analysis with 1000 Genomes Project samples.

GenotypingのQC: We excluded variants with

      (1) variant call rate < 0.99

      (2) significant call rate differences between cases and controls with P < 5.0×10-8

      (3) deviation from Hardy-Weinberg equilibrium with P < 1.0×10-6

      (4) minor allele count < 5

Imputation後のQC: MAF ≥ 0.1% and imputation score (Rsq) > 0.5

マーカー数(QC後)

[GWAS-1] 13,484,569バリアント

[GWAS-2] 13,199,053バリアント

[GWAS-3] 13,241,602バリアント

[GWAS-4] 12,764,136バリアント

NBDC Dataset ID

hum0343.v1.covid19.v1

[GWAS-1][GWAS-2][GWAS-3][GWAS-4]

(データのダウンロードは各GWAS番号をクリックしてください)

Dictionary file

総データ量

[GWAS-1] 361 MB

[GWAS-2] 354 MB

[GWAS-3] 354 MB

[GWAS-4] 343 MB

コメント(利用にあたっての制限事項) NBDC policy

 

RNA-seq

対象 COVID-19感染者(ICD-10:U071):473症例
規模 RNA-seq
対象領域(Target Captureの場合) -
Platform Illumina [NovaSeq 6000]
ライブラリソース 末梢血より抽出したRNA
検体情報(購入の場合) -
ライブラリ作製方法(キット名) NEBNext® Poly(A) mRNA Magnetic Isolation Module、NEBNext® Ultra™ Directional RNA Library Prep Kit for Illumina
断片化の方法 Mg2+含有バッファー中94°C 15分間にて加熱処理
ライブラリ構築方法 Paired-end
リード長(除:バーコード、アダプタ、プライマー、リンカー) 100 bp
マッピング方法

Adapter removal: Trimmomatic (v0.39)

Alignment: STAR (v2.7.9a)

Annotation: GENCODE v30

リファレンス配列 GRCh38/hg38
リードカウント決定アルゴリズム(ソフトウェア) Gene level quantification and normalization: RSEM (v1.3.3)
フィルタリング(QC)方法 median transcripts per kilobase million (TPM) > 10
遺伝子数 5991
NBDC Dataset ID

hum0343.v1.count.v1

(データのダウンロードは上記Dataset IDをクリックしてください)

サンプル情報

総データ量 6 MB
コメント(利用にあたっての制限事項) NBDC policy

 

eQTL/sQTL解析

対象 COVID-19感染者(ICD-10:U071):465症例 (重症者 359名、軽症者 106名)
規模 eQTL/sQTL要約統計量
対象領域(Target Captureの場合) -
Platform

RNA-seq:Illumina [NovaSeq 6000]

SNPアレイデータ:Illumina [Infinium Asian Screening Array]

ライブラリソース RNA-seqで得られたfastqデータ、およびGWASで用いられたSNPアレイデータ
検体情報(購入の場合) -
ライブラリ作製方法(キット名)

RNA-seq:RNA-seqを参照

SNPアレイデータ:GWASを参照

リードカウント決定アルゴリズム(ソフトウェア)

Gene level quantification and normalization: RSEM (v1.3.3)

Intron cluster quantification: LeafCutter( v0.2.7)

フィルタリング(QC)方法 GTEx パイプライン (https://github.com/broadinstitute/gtex-pipeline/)に準拠
eQTL(cis)検出方法

各遺伝子転写開始点に関して、+-1Mb以内に存在する(= cis)変異(頻度>1%)のeQTL効果をfastQTLを用い検定した。

p値が0.05以下である変異-遺伝子組の、変異頻度、p値、効果量、原因変異確率の推定値(=PIP)をsummary dataとした。

eQTL(trans)検出方法

各遺伝子転写開始点に関してtrans-eQTL効果はtensorQTLを用い検定した。

p値が5.0*10^8以下である変異-遺伝子組の、変異頻度、p値、効果量をsummary dataとした。

sQTL検出方法

各イントロン分岐点に関して、+-1Mb以内に存在する変異(頻度>1%)のsQTL効果をfastQTLを用い検定した。

p値が0.05以下である変異-イントロン領域組の、変異頻度、p値、効果量、PIPをsummary dataとした。

NBDC Dataset ID

hum0343.v2.qtl.v1

(データのダウンロードは上記Dataset IDをクリックしてください)

Dictionary file

総データ量 465症例:714 MB (tsv)
コメント(利用にあたっての制限事項) NBDC policy

 

RNA-seq (E-GEAD-759)

対象 COVID-19感染者(ICD-10:U071):1,019症例
規模 RNA-seq
対象領域(Target Captureの場合) -
Platform Illumina [NovaSeq 6000]
ライブラリソース 末梢血より抽出したRNA
検体情報(購入の場合) -
ライブラリ作製方法(キット名) NEBNext® Poly(A) mRNA Magnetic Isolation Module、NEBNext® Ultra™ Directional RNA Library Prep Kit for Illumina
断片化の方法 Mg2+含有バッファー中94°C 15分間にて加熱処理
ライブラリ構築方法 Paired-end
リード長(除:バーコード、アダプタ、プライマー、リンカー) 100 bp
マッピング方法

Alignment: STAR (v2.5.3a)

Annotation: GENCODE v30

リファレンス配列 GRCh38/hg38
リードカウント決定アルゴリズム(ソフトウェア) Gene level quantification and normalization: RSEM (v1.3.0)
フィルタリング(QC)方法

Transcripts per kilobase million (TPM) ≥ 0.1 in ≥ 20% samples

Read count ≥ 6 in ≥ 20% samples

遺伝子数 20329
Genomic Expression Archive ID

E-GEAD-759

Dictionary file

総データ量 91.6 MB(tsv)
コメント(利用にあたっての制限事項) NBDC policy

 

タンパク質発現量

対象 COVID-19感染者(ICD-10:U071):1,384症例
規模 タンパク質発現量(タンパク質数:2932
対象領域(Target Captureの場合) -
Platform Olink [Olink Explore 3072]
ライブラリソース 血漿
検体情報(購入の場合) -
ライブラリ作製方法(キット名) Olink Explore 3072
断片化の方法 -
ライブラリ構築方法 -
リード長(除:バーコード、アダプタ、プライマー、リンカー) -
発現量決定方法(ソフトウェア) OlinkAnalyze v3.4.1
標準化方法 Normalized Protein eXpression (NPX) transformation
バリデーション方法 Bridge sample comparison
Genomic Expression Archive ID

E-GEAD-759

Dictionary file

総データ量 91.6 MB(tsv)
コメント(利用にあたっての制限事項) NBDC policy

 

eQTL/pQTL解析

対象

COVID-19感染者(ICD-10:U071):1,405症例 (重症者 995名、軽症者 410名)

     うちeQTL解析対象:1,019症例

     うちpQTL解析対象:1,384症例

      (共通部分:998症例)

規模 eQTL/pQTL要約統計量
対象領域(Target Captureの場合) -
Platform

RNA-seq:Illumina [NovaSeq 6000]

SNPアレイデータ:Illumina [Infinium Asian Screening Array]

タンパク質発現量データ:Olink Explore 3072

ライブラリソース RNA-seqで得られたfastqデータ、およびGWASで用いられたSNPアレイデータならびにタンパク質発現量データ
検体情報(購入の場合) -
ライブラリ作製方法(キット名)

RNA-seq:RNA-seqを参照

SNPアレイデータ:GWASを参照

タンパク質発現量データ:タンパク質発現量を参照

リードカウント決定アルゴリズム(ソフトウェア)

Gene level quantification and normalization: RSEM (v1.3.0)

Intron cluster quantification: OlinkAnalyze v3.4.1

フィルタリング(QC)方法 GTEx パイプライン (https://github.com/broadinstitute/gtex-pipeline/)に準拠
eQTL(cis)検出方法

各遺伝子転写開始点に関して、+-1Mb以内に存在する(= cis)変異(アレルカウント>2)のeQTL効果をfastQTLを用い検定した。

p値が0.05以下または原因変異確率の推定値(=PIP)が0.001以上である変異-遺伝子組の、変異頻度、p値、効果量、PIPをそれぞれsummary dataとした。

pQTL(cis)検出方法

各遺伝子転写開始点に関して、+-1Mb以内に存在する(= cis)変異(アレルカウント>2)のpQTL効果をfastQTLを用い検定した。

p値が0.05以下または原因変異確率の推定値(=PIP)が0.001以上である変異-遺伝子組の、変異頻度、p値、効果量、PIPをそれぞれsummary dataとした。

NBDC Dataset ID

hum0343.v3.qtl.v1

(データのダウンロードは上記Dataset IDをクリックしてください)

Dictionary file

総データ量 881.5 MB (tsv)
コメント(利用にあたっての制限事項) NBDC policy

 

JGAS000739

対象 COVID-19感染者(ICD-10:U071):1,164症例 (重症者 1,068名)
規模 WGS
対象領域(Target Captureの場合) -
Platform Illumina [NovaSeq 6000]
ライブラリソース 末梢血から抽出したDNA
検体情報(購入の場合) -
ライブラリ作製方法(キット名) TruSeq DNA PCR-free Library Prep Kit
断片化の方法 超音波断片化
ライブラリ構築方法 Paired-end
リード長(除:バーコード、アダプタ、プライマー、リンカー) 150 bp x 2
宿主配列除去やウイルス検出などのためのソフトウェア

https://github.com/shohei-kojima/integrated_HHV6_recon

https://github.com/shohei-kojima/human_anellovirus_detection

フィルタリング(QC) HapMap3データと共に主成分分析を行い、東アジア集団と同じクラスタに分類されることを確認した
ウイルス参照配列 上記GitHubリポジトリを参照(配列リスト
Japanese Genotype-phenotype Archive Dataset ID JGAD000874
総データ量 38.5 KB(tsv)
コメント(利用にあたっての制限事項) NBDC policy

 

提供者情報

研究代表者: 福永 興壱

所 属 機 関: 慶應義塾大学医学部 呼吸器内科

プロジェクト/研究グループ名: -

科研費/助成金(Research Project Number):

科研費・助成金名タイトル研究課題番号
国立研究開発法人日本医療研究開発機構(AMED)創薬支援推進事業 新型コロナウイルス感染症の遺伝学的知見に基づいた分子ニードルCOVID-19粘膜免疫ワクチンの開発 JP20nk0101612
新興・再興感染症に対する革新的医薬品等開発推進研究事業 新型コロナウイルス感染症の重症化阻止を目指した医薬品・次世代型ワクチン開発に必要な遺伝学・免疫学・代謝学的基盤研究の推進 JP20fk0108415
新興・再興感染症に対する革新的医薬品等開発推進研究事業 新型コロナ変異ウイルスに対する遺伝学的、免疫学的、代謝学的病態解明および治療戦略の策定 JP20fk0108452
新興・再興感染症研究基盤創生事業(多分野融合研究領域) 新型コロナウイルス感染症後遺症の病態生理の多分野融合による解明 JP21wm0325031
国立研究開発法人科学技術振興機構(JST) 戦略的創造研究推進事業CREST 先端ゲノム解析と人工知能によるコロナ制圧研究 JPMJCR20H2
国立研究開発法人日本医療研究開発機構(AMED) 免疫アレルギー疾患実用化研究事業 免疫オミクス情報の横断的統合による関節リウマチのゲノム個別化医療の実現 20ek0410075h0001
科学研究費補助金 基盤研究(A) 横断的オミクス解析と全ゲノムシークエンスを駆使した疾患病態と組織特異性 の解明 19H01021
国立研究開発法人日本医療研究開発機構(AMED) ゲノム創薬基盤推進研究事業 大規模集団ゲノムデータを利用した遺伝子発現制御文法の機械学習による、VUS 病原性の網羅的評価と実験検証 JP22kk0305022
国立研究開発法人科学技術振興機構(JST) 創発的研究支援事業 ゲノム制御機構を解明する、解釈可能な汎用予測モデルの構築 JPMJFR225Y
国立研究開発法人科学技術振興機構(JST) 戦略的創造研究推進事業さきがけ パンデミックに対してレジリエントな研究体制構築のための基盤研究 JPMJPR21R7

 

関連論文

タイトルDOIデータID
1 DOCK2 is involved in the host genetics and biology of severe COVID-19 doi: 10.1038/s41586-022-05163-5 hum0343.v1.covid19.v1
hum0343.v1.count.v1
2 The whole blood transcriptional regulation landscape in 465 COVID-19 infected samples from Japan COVID-19 Task Force doi: 10.1038/s41467-022-32276-2 hum0343.v2.qtl.v1
3 Statistically and functionally fine-mapped blood eQTLs and pQTLs from 1,405 humans reveal their distinct regulation patterns and disease relevance doi: 10.1038/s41588-024-01896-3 E-GEAD-759
hum0343.v3.qtl.v1
4 Blood DNA virome associates with autoimmune diseases and COVID-19. JGAD000874

 

制限公開データの利用者一覧

研究代表者所属機関国・州名研究題目利用データID利用期間