TG

TCGA GDC

portal.gdc.cancer.gov
公共数据库完全免费本周热门英文

美国国家癌症研究所官方癌症基因组数据门户,提供标准化的多组学数据(如基因表达、突变、甲基化)及临床信息,支持科研下载与分析。

访问网站
本周访问
743PV

↑ 较上周活跃

收藏人数
0

— 暂无数据

收录时间
2026/05/26

已收录 36 天

可用性
未检测

健康检查未开启

https://portal.gdc.cancer.gov/

📍 平台介绍

GDC(Genomic Data Commons)是由美国国家癌症研究所(NCI)建立并维护的权威癌症基因组数据共享平台,于2016年正式上线,旨在统一存储、标准化处理和开放分发大规模癌症组学数据。其核心使命是支持跨研究、跨机构的数据整合与复用,推动癌症机制研究与精准医疗发展。平台托管的数据主要来源于TCGA(The Cancer Genome Atlas)、TARGET(Therapeutically Applicable Research to Generate Effective Treatments)等国家级大型项目,并持续纳入来自dbGaP授权的受控访问数据。

⚙️ 核心功能

GDC提供端到端的数据管理与分析支持,覆盖从数据提交、质控、标准化到检索、下载与在线分析的全流程:

  • 统一数据模型与标准化流程:所有原始测序数据(WES、RNA-Seq、miRNA-Seq、DNA甲基化等)均经GDC Pipeline统一比对(BWA-MEM)、变异识别(Mutect2/Strelka2)、表达定量(STAR/featureCounts)及注释,确保跨项目可比性;
  • 灵活的数据检索系统:支持按癌症类型(如BRCA、LUAD)、分子特征(如TP53突变、MSI状态)、样本属性(如组织来源、治疗史)、实验类型(Level 1–3)等多维度组合筛选;
  • 受控与开放数据分级访问:开放数据(如TCGA体细胞突变、基因表达矩阵)可直接下载;受控数据(含个体级临床信息)需通过dbGaP申请授权后访问;
  • 在线分析工具集成:内置GDC Data Portal可视化模块(如基因表达热图、生存曲线、突变瀑布图),并支持通过GDC API或Python/R客户端(gdc-client, TCGAbiolinks)批量获取与分析;
  • 数据提交与协作支持:资助项目可向GDC提交新数据,平台提供元数据模板、校验工具及技术文档,保障数据合规性与互操作性。

✨ 平台特色

GDC区别于通用数据库的关键在于其严格的领域适配性与工程化治理能力:采用GA4GH标准(如PASS、Data Use Ontology)实现元数据语义一致性;所有数据版本可控(Versioned Releases),每次发布均附带完整质控报告与变更日志;提供RESTful API与命令行工具,支持自动化工作流集成;与ICGC、EGA等国际平台保持格式兼容,促进全球癌症数据协同。

👥 适合谁用

该平台主要面向从事癌症基础研究、转化医学与生物信息学的科研人员:肿瘤生物学研究者可快速获取特定癌种的多组学基准数据集用于差异分析或机器学习建模;临床科学家可结合临床表型数据探索生物标志物;生信工程师可利用其标准化VCF/BAM/FPKM文件构建分析流水线;教学单位亦常将其作为高通量数据分析课程的真实数据源。需注意,使用受控数据须完成CITI培训并获IRB批准。

📝 总结

GDC并非通用型数据仓库,而是聚焦癌症研究的基础设施级平台。其价值不在于数据规模本身(截至2023年公开发布约3.8万个病例),而在于数据的深度标准化、可追溯性与生态整合能力。对于需要高质量、结构化、可复现癌症组学数据的研究者而言,GDC是TCGA时代以来最稳定、最被广泛引用的核心资源之一。建议用户优先查阅GDC官方文档(docs.gdc.cancer.gov)与TCGA数据使用指南,以准确理解数据层级、字段定义及伦理约束条件。

免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。网址描述信息多由AI生成,如果描述不准确,请联系我进行修改。

联系我们
联系我们

领取科研资料大礼包