pruning and clumping

在基因组关联研究中，”pruning” 和 “clumping” 是两种用于处理和解释关联信号的方法，它们都涉及到去除冗余或无关紧要的信息，但侧重点和应用有所不同。

Pruning（修剪）

定义:
- Pruning 是指从一组 SNP 中去除那些与其他 SNP 高度连锁不平衡（LD, linkage disequilibrium）的 SNP 。这意味着如果两个或多个 SNP 彼此之间存在很强的相关性，则仅保留其中一个代表性的SNP，其余的会被剔除。
目的:
- 减少冗余信息，提高计算效率。
- 在构建遗传风险评分（GRS, Genetic Risk Scores）时，pruning 可以帮助选择一组独立的 SNP ，以避免过拟合和提高预测性能。
应用场景:
- 选取第一个 SNP ，然后计算这个 SNP 与窗口区间里第二个，第三个，等等的 $r^2$ ，当检测到高的相关性时，就会从这一对 SNP 中去除 MAF 较低的那个，保留 MAF 高的，也就是说这个过程中可能会去除掉我们选的第一个 SNP。完成后下一步就是选取下一个SNP，重复这个过程
- 构建GRS时，确保 SNP 之间低相关性，避免多重共线性问题。

Clumping（聚集）

定义:
- Clumping 是一种基于关联信号强度和连锁不平衡（LD）结构来聚类 SNP 的方法。它旨在识别那些在基因组区域内可能与同一表型或疾病相关的 SNP 簇。
目的:
- 识别独立的关联信号，即找出那些可能代表相同遗传效应的不同 SNP 群集。
- 通过对关联结果进行分组，可以更清晰地理解遗传变异的作用机制。
应用场景:
- 首先会依据从GWAS得到的 $p$ 值对 SNP 的重要性进行排序，然后选取排序后的第一个 SNP ，计算这个 SNP 与窗口区间里其他 SNP 的 $r^2$ ，当检测到高的相关性时，就会从这一对 SNP 中去除重要性低的那个，这个过程中我们选的第一个 SNP 一定会得到保留。完成后下一步就是选取p值排序后的下一个 SNP ，重复这个过程。
- 当研究者希望从众多显著 SNP 中确定关键的因果变异时,clumping 是一种有用的技术。

比较

Pruning vs Clumping:
- Pruning 更多地是关于去除冗余 SNP ，以得到一组相互独立的 SNP ，通常用于减少多重比较带来的问题，提高统计模型的解释力。
- Clumping 则是将 SNP 按照其连锁不平衡程度和关联强度进行分组，从而识别出可能的独立遗传效应区域。

总结

Pruning 主要用于减少冗余，选择独立的 SNP ，适用于构建GRS或其他需要独立 SNP 的情况。
Clumping 则是为了识别独立的遗传效应信号，帮助研究者从GWAS结果中分离出真正的关联信号。

alt text

在PLINK中提供了 Pruning 和 Clumping 的功能，可以参考plink的命令解释与相关文档

Refer to：

©Powered By hexo
Design: miccall

本站总访问量次