快速了解 GWAS 领域需要知道的内容
基本概念
遗传变异(genetic variation)
- SNP(单核苷酸多态性):单个核苷酸位置上的变异。
- CNV(拷贝数变异):基因组区域的拷贝数变化。
- 插入/缺失变异(Indels):基因组中的插入或缺失变异。
- 短串联重复序列(STRs):短串联重复序列的变异。
表型(phenotype)
- 疾病表型:如何定义和分类疾病表型,如二元表型(有/无疾病)。
- 性状表型:如连续性状、定量性状等,如何进行测量和记录。
- 表型的遗传性:如何估算表型的遗传度,及其在GWAS中的应用。
基因型(genotype)
- 个体在其基因组中携带的具体遗传变异形式。例如,对于一个特定的 SNP 位点,基因型可以是 AA、Aa 或 aa,其中 A 和 a 是该位点上的两种可能的等位基因。
GWAS的目的
- 寻找与特定表型相关的遗传变异。
- 识别参与疾病发生发展的基因座。
遗传变异的作用机制
- 遗传变异如何影响基因表达和蛋白质功能,从而导致表型的变化。
表型数据
疾病表型
- 定义与分类:如何定义和分类疾病表型,如二元表型(有/无疾病)。
- 数据收集:如何设计和实施表型数据收集方案。
性状表型
- 测量与记录:如何进行连续性状和定量性状的测量与记录。
遗传性估算
统计方法
单变量关联分析
全基因组关联分析
混合模型
数据准备
基因型数据
- 数据格式:如 PLINK 格式、VCF 格式。
- 质量控制步骤:SNP 过滤、样本过滤、Hardy-Weinberg 平衡测试等。
- 数据转换:如何转换不同软件间的数据格式。
表型数据
- 收集方案设计:如何设计和实施表型数据收集方案。
- 数据清洗与标准化:数据清洗、缺失值处理等。
共变量的处理
环境因素
人口统计学数据
分析方法
多重检验校正
- Bonferroni 校正:严格的显著性校正方法。
- FDR 控制:较为宽松的多重检验校正方法,适用于 GWAS。
遗传结构控制
- PCA(主成分分析):用于控制种族混杂的分析方法。
- LMM(线性混合模型):如何同时考虑遗传结构和关联分析。
稀有变异分析
- Burden tests:用于分析稀有变异的累积效应。
- SKAT(序列核酸关联测试):适用于稀有变异的灵活分析方法。
结果解释
显著性阈值
功能注释
通路分析
可视化
曼哈顿图(Manhattan Plot)
QQ 图
后续分析
遗传风险评分(PRS)
交互作用分析
- 基因-环境交互作用:如何检测和解释基因与环境因素的交互作用。
- 基因-基因交互作用:探索不同基因间的交互效应。
验证与复现
- 使用独立样本集验证发现。
- Meta 分析:通过汇总多个研究的结果提高统计效能。