生信研究的要素体系

研究要素

  • 研究对象
  • 研究方法
  • 研究器材

湿实验

干试验

实例

数据检索

  • GSE19665 G代表GEO数据库 SE代表数据集。多个数据集取交集,降低误差,提高准确性

数据处理

  • DEG differentially expressed genes:差异基因分析
  • function enrichment analyses:功能富集(分类)分析
  • protein-protein interaction network PPI:蛋白互作网络
  • STRING 记录了分子共表达关系、共存关系以及预测关系的网站

数据利用

  • 利用数据中的临床数据,对比高低表达差异

文献数据宏观剖析

  • GEO 肿瘤与非肿瘤数据库
  • TCGA 肿瘤数据库 规范
  • Oncomine 停服 #### 文章思路
分析方法
  • 差异基因筛选
  • 基因功能注释
  • 分子网络构建
  • 关键基因鉴定
结果解释 数据利用
  • 关联已有知识
  • 关联临床数据
  • 关联其他数据

通用的研究设计与框架

Introduction

  • 流行病学基础
  • 研究现状概述
  • 研究现状不足
  • 新的技术发展
  • 数据挖掘意义

Methods

  • 数据来源
  • 数据处理与分析
    • 原始处理
    • 差异表达
    • 功能注释
    • 分子网络
    • 关键基因
  • 数据利用及关联
    • 生存分析
    • 验证数据

Result

  • 见PPT

Discussion

  • 概述研究现状
  • 回顾文本结果
  • 关联已有研究
  • 略体不足之处
  • 有待功能研究
  • 展望研究意义
  • 综上归纳总结

文章精细化结构分析

常见数据库概述

  • GEO
  • STRING
  • Cytoscape
  • PPI
  • DEG
  • Hub gene
  • TCGA -Oncomine -cBioportal
  • DAVID -KEGG -GO
TCGA数据下载见PPT

常用分析方法概述

差异基因筛选
  • Differential expression analysis:差异基因是在不同组织中表达发生明显变化的基因,是导致细胞状态发生变化的关键基因, 是表达谱分析的主要对象。
  • 火山图: 火山图可用于展示两组样本间基因表达水平差异的分布状况。 横轴log2 fold change差异表达倍数(Fold Change值,简称FC,根据log2 fold change值的正负判断这些基因的表达量是上升了还是下降了),差异越大的基因分布X轴在两端。 纵坐标用-log10 p-value表示,对P值进行-log10的转化,-log10(p-value=0.05)约等于1.30,(-log10(0.01))=2,可知纵轴越往上走P值越小,而P值越小表示越显著。所以我们进行-log10(p -value)转化后,值越大就表示差异越显著。

链接:https://www.jianshu.com/p/da1c0faed49a 来源:简书

功能富集分析

  • 生物学上定义的混乱,导致不同的生物学数据库可能会使用不同的术语。GO是基因本体联合会(Gene Ontology Consortium)所建立的数据库,旨在建立一个适用于各种物种的、对基因和蛋白功能进行限定和描述的,并能随着研究不断深入和更新的语义词汇标准
  • 气泡图

聚类分析

  • 基因之间存在共表达,共表达的基因可能具有相似的生物功能,从具有相似表达谱的基因去推测其功能。
  • 可以利用不同基因表达模式对样本进行分类,找到潜在的分子标志物。
  • 实现更好的可视化

网络分析

  • 研究一个基因及其编码的蛋白质,一方面要了解它们的功能,另一方面需研究与此蛋白质相互作用的 其他蛋白质的信息,以使研究人员能够更加深入地认清相关蛋白质的功能,更清楚地理解其调控机 制。
  • STRING
  • HPRD
  • BIND
  • DIP
  • Reactome
  • BioGRID

文章结果深度剖析

  • 见PPT

关于文章的深思

  • GEO 样本量太小,容易出现:偏差;不容易有新发现;高级分析往往需要较大样本量
    • 初筛数据时:全面覆盖;多个数据库检索,关键词尽量少,关键词的近义词,相关领域发表的高质量文章,按图索骥
  • 基因功能注释:功能富集建议不要分开富集,原本P值显著的重要通路可能会被漏掉
  • 聚类:如果为无监督聚类,则对基因和表型无特殊要求
    如果为有监督聚类,即基因是经过筛选的,则尽量用筛选基因所用的表型来表征样本信息

文章图表复现

  • GEO 基因表达数据库,网址https://www.ncbi.nlm.nih.gov/geo/
  • 三个概念:GPL 平台 GSM 样本 GSE 系列
  • GEO网页分析,下载文件,根据配置和logFC挑选差异基因
  • 韦恩图:http://bioinformatics.psb.ugent.be/webtools/Venn/

功能注释

注释工具