NBDC Research ID: hum0343.v4
研究内容の概要
目的: 新型コロナウイルス感染症患者、無症候性感染者及び新型コロナウイルス感染症が疑われる患者の全ゲノムシーケンス、RNAシーケンス、超高精度HLA解析などを通して、重症化予測法システムの構築を行うことを目的とする。匿名化データを使用してCOVID-19の重症度予測などを数理モデルで解析するとともに、ウイルスと自己免疫性疾患およびCOVID-19の関連を解明する。
方法: ゲノムワイド関連解析、RNA-seq、タンパク質発現解析、eQTL/sQTL/pQTL解析、全ゲノムシーケンス
対象: ゲノムワイド関連解析:日本人5,682名 (COVID-19感染症患者:2,393名、対照者:3,289名)
RNA-seq:日本人COVID-19感染症患者1,019名
タンパク質発現量解析:日本人COVID-19感染症患者1,384名
全ゲノムシーケンス:日本人COVID-19感染症患者1,164名
データID | 内容 | 制限 | 公開日 |
---|---|---|---|
hum0343.v1.covid19.v1 | COVID19感染者のGWAS集計情報 | 非制限公開 | 2022/05/26 |
hum0343.v1.count.v1 | COVID19感染者末梢血のNGS(RNA-seq)から得られたリードカウントデータ | 非制限公開 | 2022/05/26 |
hum0343.v2.qtl.v1 | COVID19感染者末梢血のRNA-seq解析データ・SNPアレイデータより算出したeQTL/sQTLサマリーデータ | 非制限公開 | 2022/06/14 |
E-GEAD-759 | 非制限公開 | 2024/06/24 | |
hum0343.v3.qtl.v1 | COVID19感染者末梢血のRNA-seq解析データ・SNPアレイデータ・タンパク質発現量データより算出したeQTL/pQTLサマリーデータ | 非制限公開 | 2024/06/24 |
JGAS000739 | COVID19感染者末梢血のNGS(WGS)より算出した内在性ヘルペスウイルス6(eHHV-6)の有無およびアネロウイルス量 | 制限公開(Type I) | 2024/10/02 |
※リリース情報はこちら
※制限公開データの利用にあたっては、利用申請が必要です。申請方法はこちら。
※論文等でデータベースからダウンロードしたデータを含む結果を公表する際には、下記文献を引用いただくか、NBDCヒトデータベースに登録されたデータを利用した旨について謝辞(Acknowledgement)に記載して下さい。記載例はこちら。
分子データ
対象 |
[GWAS-1] COVID-19感染者 (ICD-10:U071):2,393症例、対照者:3,289名 [GWAS-2] [GWAS-1]のCOVID-19感染者の内、重症者:990症例、対照者:3,289名 [GWAS-3] [GWAS-1] の対象者の内65歳未満の者(COVID-19感染者:1,484症例、対照者:2,377名) [GWAS-4] [GWAS-3]の65歳未満のCOVID19感染者の内、重症者:440症例、対照者:2,377名 |
規模 | genome wide SNPs |
対象領域(Target Captureの場合) | - |
Platform | Illumina [Infinium Asian Screening Array] |
ソース | 末梢血から抽出したDNA |
検体情報(購入の場合) | - |
調整試薬(キット名、バージョン) | Infinium Asian Screening Array |
遺伝子型決定アルゴリズム(ソフトウェア) |
genotyping: GenomeStudio haplotype phasing: SHAPEIT4(autosome)、SHAPEIT2(X-chromosome) imputation: Minimac4 |
関連解析(ソフトウェア) | PLINK2 |
フィルタリング |
SampleのQC: We excluded samples with (1) sample call rate < 0.97 (2) excess heterozygosity of genotypes > mean + 3SD (3) related samples with PI_HAT > 0.175 (4) outlier samples from East Asian clusters in principal component analysis with 1000 Genomes Project samples. GenotypingのQC: We excluded variants with (1) variant call rate < 0.99 (2) significant call rate differences between cases and controls with P < 5.0×10-8 (3) deviation from Hardy-Weinberg equilibrium with P < 1.0×10-6 (4) minor allele count < 5 Imputation後のQC: MAF ≥ 0.1% and imputation score (Rsq) > 0.5 |
マーカー数(QC後) |
[GWAS-1] 13,484,569バリアント [GWAS-2] 13,199,053バリアント [GWAS-3] 13,241,602バリアント [GWAS-4] 12,764,136バリアント |
NBDC Dataset ID |
hum0343.v1.covid19.v1 [GWAS-1][GWAS-2][GWAS-3][GWAS-4] (データのダウンロードは各GWAS番号をクリックしてください) |
総データ量 |
[GWAS-1] 361 MB [GWAS-2] 354 MB [GWAS-3] 354 MB [GWAS-4] 343 MB |
コメント(利用にあたっての制限事項) | NBDC policy |
対象 | COVID-19感染者(ICD-10:U071):473症例 |
規模 | RNA-seq |
対象領域(Target Captureの場合) | - |
Platform | Illumina [NovaSeq 6000] |
ライブラリソース | 末梢血より抽出したRNA |
検体情報(購入の場合) | - |
ライブラリ作製方法(キット名) | NEBNext® Poly(A) mRNA Magnetic Isolation Module、NEBNext® Ultra™ Directional RNA Library Prep Kit for Illumina |
断片化の方法 | Mg2+含有バッファー中94°C 15分間にて加熱処理 |
ライブラリ構築方法 | Paired-end |
リード長(除:バーコード、アダプタ、プライマー、リンカー) | 100 bp |
マッピング方法 |
Adapter removal: Trimmomatic (v0.39) Alignment: STAR (v2.7.9a) Annotation: GENCODE v30 |
リファレンス配列 | GRCh38/hg38 |
リードカウント決定アルゴリズム(ソフトウェア) | Gene level quantification and normalization: RSEM (v1.3.3) |
フィルタリング(QC)方法 | median transcripts per kilobase million (TPM) > 10 |
遺伝子数 | 5991 |
NBDC Dataset ID |
(データのダウンロードは上記Dataset IDをクリックしてください) |
総データ量 | 6 MB |
コメント(利用にあたっての制限事項) | NBDC policy |
対象 | COVID-19感染者(ICD-10:U071):465症例 (重症者 359名、軽症者 106名) |
規模 | eQTL/sQTL要約統計量 |
対象領域(Target Captureの場合) | - |
Platform |
RNA-seq:Illumina [NovaSeq 6000] SNPアレイデータ:Illumina [Infinium Asian Screening Array] |
ライブラリソース | RNA-seqで得られたfastqデータ、およびGWASで用いられたSNPアレイデータ |
検体情報(購入の場合) | - |
ライブラリ作製方法(キット名) |
RNA-seq:RNA-seqを参照 SNPアレイデータ:GWASを参照 |
リードカウント決定アルゴリズム(ソフトウェア) |
Gene level quantification and normalization: RSEM (v1.3.3) Intron cluster quantification: LeafCutter( v0.2.7) |
フィルタリング(QC)方法 | GTEx パイプライン (https://github.com/broadinstitute/gtex-pipeline/)に準拠 |
eQTL(cis)検出方法 |
各遺伝子転写開始点に関して、+-1Mb以内に存在する(= cis)変異(頻度>1%)のeQTL効果をfastQTLを用い検定した。 p値が0.05以下である変異-遺伝子組の、変異頻度、p値、効果量、原因変異確率の推定値(=PIP)をsummary dataとした。 |
eQTL(trans)検出方法 |
各遺伝子転写開始点に関してtrans-eQTL効果はtensorQTLを用い検定した。 p値が5.0*10^8以下である変異-遺伝子組の、変異頻度、p値、効果量をsummary dataとした。 |
sQTL検出方法 |
各イントロン分岐点に関して、+-1Mb以内に存在する変異(頻度>1%)のsQTL効果をfastQTLを用い検定した。 p値が0.05以下である変異-イントロン領域組の、変異頻度、p値、効果量、PIPをsummary dataとした。 |
NBDC Dataset ID |
(データのダウンロードは上記Dataset IDをクリックしてください) |
総データ量 | 465症例:714 MB (tsv) |
コメント(利用にあたっての制限事項) | NBDC policy |
対象 | COVID-19感染者(ICD-10:U071):1,019症例 |
規模 | RNA-seq |
対象領域(Target Captureの場合) | - |
Platform | Illumina [NovaSeq 6000] |
ライブラリソース | 末梢血より抽出したRNA |
検体情報(購入の場合) | - |
ライブラリ作製方法(キット名) | NEBNext® Poly(A) mRNA Magnetic Isolation Module、NEBNext® Ultra™ Directional RNA Library Prep Kit for Illumina |
断片化の方法 | Mg2+含有バッファー中94°C 15分間にて加熱処理 |
ライブラリ構築方法 | Paired-end |
リード長(除:バーコード、アダプタ、プライマー、リンカー) | 100 bp |
マッピング方法 |
Alignment: STAR (v2.5.3a) Annotation: GENCODE v30 |
リファレンス配列 | GRCh38/hg38 |
リードカウント決定アルゴリズム(ソフトウェア) | Gene level quantification and normalization: RSEM (v1.3.0) |
フィルタリング(QC)方法 |
Transcripts per kilobase million (TPM) ≥ 0.1 in ≥ 20% samples Read count ≥ 6 in ≥ 20% samples |
遺伝子数 | 20329 |
Genomic Expression Archive ID | |
総データ量 | 91.6 MB(tsv) |
コメント(利用にあたっての制限事項) | NBDC policy |
対象 | COVID-19感染者(ICD-10:U071):1,384症例 |
規模 | タンパク質発現量(タンパク質数:2932) |
対象領域(Target Captureの場合) | - |
Platform | Olink [Olink Explore 3072] |
ライブラリソース | 血漿 |
検体情報(購入の場合) | - |
ライブラリ作製方法(キット名) | Olink Explore 3072 |
断片化の方法 | - |
ライブラリ構築方法 | - |
リード長(除:バーコード、アダプタ、プライマー、リンカー) | - |
発現量決定方法(ソフトウェア) | OlinkAnalyze v3.4.1 |
標準化方法 | Normalized Protein eXpression (NPX) transformation |
バリデーション方法 | Bridge sample comparison |
Genomic Expression Archive ID | |
総データ量 | 91.6 MB(tsv) |
コメント(利用にあたっての制限事項) | NBDC policy |
対象 |
COVID-19感染者(ICD-10:U071):1,405症例 (重症者 995名、軽症者 410名) うちeQTL解析対象:1,019症例 うちpQTL解析対象:1,384症例 (共通部分:998症例) |
規模 | eQTL/pQTL要約統計量 |
対象領域(Target Captureの場合) | - |
Platform |
RNA-seq:Illumina [NovaSeq 6000] SNPアレイデータ:Illumina [Infinium Asian Screening Array] タンパク質発現量データ:Olink Explore 3072 |
ライブラリソース | RNA-seqで得られたfastqデータ、およびGWASで用いられたSNPアレイデータならびにタンパク質発現量データ |
検体情報(購入の場合) | - |
ライブラリ作製方法(キット名) |
RNA-seq:RNA-seqを参照 SNPアレイデータ:GWASを参照 タンパク質発現量データ:タンパク質発現量を参照 |
リードカウント決定アルゴリズム(ソフトウェア) |
Gene level quantification and normalization: RSEM (v1.3.0) Intron cluster quantification: OlinkAnalyze v3.4.1 |
フィルタリング(QC)方法 | GTEx パイプライン (https://github.com/broadinstitute/gtex-pipeline/)に準拠 |
eQTL(cis)検出方法 |
各遺伝子転写開始点に関して、+-1Mb以内に存在する(= cis)変異(アレルカウント>2)のeQTL効果をfastQTLを用い検定した。 p値が0.05以下または原因変異確率の推定値(=PIP)が0.001以上である変異-遺伝子組の、変異頻度、p値、効果量、PIPをそれぞれsummary dataとした。 |
pQTL(cis)検出方法 |
各遺伝子転写開始点に関して、+-1Mb以内に存在する(= cis)変異(アレルカウント>2)のpQTL効果をfastQTLを用い検定した。 p値が0.05以下または原因変異確率の推定値(=PIP)が0.001以上である変異-遺伝子組の、変異頻度、p値、効果量、PIPをそれぞれsummary dataとした。 |
NBDC Dataset ID |
(データのダウンロードは上記Dataset IDをクリックしてください) |
総データ量 | 881.5 MB (tsv) |
コメント(利用にあたっての制限事項) | NBDC policy |
対象 | COVID-19感染者(ICD-10:U071):1,164症例 (重症者 1,068名) |
規模 | WGS |
対象領域(Target Captureの場合) | - |
Platform | Illumina [NovaSeq 6000] |
ライブラリソース | 末梢血から抽出したDNA |
検体情報(購入の場合) | - |
ライブラリ作製方法(キット名) | TruSeq DNA PCR-free Library Prep Kit |
断片化の方法 | 超音波断片化 |
ライブラリ構築方法 | Paired-end |
リード長(除:バーコード、アダプタ、プライマー、リンカー) | 150 bp x 2 |
宿主配列除去やウイルス検出などのためのソフトウェア |
https://github.com/shohei-kojima/integrated_HHV6_recon https://github.com/shohei-kojima/human_anellovirus_detection |
フィルタリング(QC) | HapMap3データと共に主成分分析を行い、東アジア集団と同じクラスタに分類されることを確認した |
ウイルス参照配列 | 上記GitHubリポジトリを参照(配列リスト) |
Japanese Genotype-phenotype Archive Dataset ID | JGAD000874 |
総データ量 | 38.5 KB(tsv) |
コメント(利用にあたっての制限事項) | NBDC policy |
提供者情報
研究代表者: 福永 興壱
所 属 機 関: 慶應義塾大学医学部 呼吸器内科
プロジェクト/研究グループ名: -
科研費/助成金(Research Project Number):
科研費・助成金名 | タイトル | 研究課題番号 |
---|---|---|
国立研究開発法人日本医療研究開発機構(AMED)創薬支援推進事業 | 新型コロナウイルス感染症の遺伝学的知見に基づいた分子ニードルCOVID-19粘膜免疫ワクチンの開発 | JP20nk0101612 |
新興・再興感染症に対する革新的医薬品等開発推進研究事業 | 新型コロナウイルス感染症の重症化阻止を目指した医薬品・次世代型ワクチン開発に必要な遺伝学・免疫学・代謝学的基盤研究の推進 | JP20fk0108415 |
新興・再興感染症に対する革新的医薬品等開発推進研究事業 | 新型コロナ変異ウイルスに対する遺伝学的、免疫学的、代謝学的病態解明および治療戦略の策定 | JP20fk0108452 |
新興・再興感染症研究基盤創生事業(多分野融合研究領域) | 新型コロナウイルス感染症後遺症の病態生理の多分野融合による解明 | JP21wm0325031 |
国立研究開発法人科学技術振興機構(JST) 戦略的創造研究推進事業CREST | 先端ゲノム解析と人工知能によるコロナ制圧研究 | JPMJCR20H2 |
国立研究開発法人日本医療研究開発機構(AMED) 免疫アレルギー疾患実用化研究事業 | 免疫オミクス情報の横断的統合による関節リウマチのゲノム個別化医療の実現 | 20ek0410075h0001 |
科学研究費補助金 基盤研究(A) | 横断的オミクス解析と全ゲノムシークエンスを駆使した疾患病態と組織特異性 の解明 | 19H01021 |
国立研究開発法人日本医療研究開発機構(AMED) ゲノム創薬基盤推進研究事業 | 大規模集団ゲノムデータを利用した遺伝子発現制御文法の機械学習による、VUS 病原性の網羅的評価と実験検証 | JP22kk0305022 |
国立研究開発法人科学技術振興機構(JST) 創発的研究支援事業 | ゲノム制御機構を解明する、解釈可能な汎用予測モデルの構築 | JPMJFR225Y |
国立研究開発法人科学技術振興機構(JST) 戦略的創造研究推進事業さきがけ | パンデミックに対してレジリエントな研究体制構築のための基盤研究 | JPMJPR21R7 |
関連論文
タイトル | DOI | データID | |
---|---|---|---|
1 | DOCK2 is involved in the host genetics and biology of severe COVID-19 | doi: 10.1038/s41586-022-05163-5 | hum0343.v1.covid19.v1 hum0343.v1.count.v1 |
2 | The whole blood transcriptional regulation landscape in 465 COVID-19 infected samples from Japan COVID-19 Task Force | doi: 10.1038/s41467-022-32276-2 | hum0343.v2.qtl.v1 |
3 | Statistically and functionally fine-mapped blood eQTLs and pQTLs from 1,405 humans reveal their distinct regulation patterns and disease relevance | doi: 10.1038/s41588-024-01896-3 | E-GEAD-759 hum0343.v3.qtl.v1 |
4 | Blood DNA virome associates with autoimmune diseases and COVID-19. | JGAD000874 |
制限公開データの利用者一覧
研究代表者 | 所属機関 | 国・州名 | 研究題目 | 利用データID | 利用期間 |
---|---|---|---|---|---|