热点新闻
5.单细胞RNA测序-为什么 FindVariableFeatures 要选择 2000 个基因?ScaleData是对这2000个基因进行操作的?
2025-01-17 18:29  浏览:419  搜索引擎搜索“米优农业网”
温馨提示:信息一旦丢失不一定找得到,请务必收藏信息以备急用!本站所有信息均是注册会员发布如遇到侵权请联系文章中的联系方式或客服删除!
联系我时,请说明是在米优农业网看到的信息,谢谢。
展会发布 展会网站大全 报名观展合作 软文发布

为什么 FindVariableFeatures 要选择 2000 个基因?

在单细胞 RNA 测序数据中,不是所有基因对下游分析(如聚类、降维)都同等重要。FindVariableFeatures 这一步的目的是选择最具变异性的基因,以便在分析中能够捕捉到细胞之间的生物学差异。

1. 什么是变异性?
• 变异性是指一个基因在不同细胞中的表达水平变化程度。一个基因如果在所有细胞中表达都非常接近,它对区分细胞亚群的作用不大。
• 相反,如果一个基因的表达在某些细胞类型中高而在其他类型中低,这种基因能更好地反映细胞间的差异。

2. 为什么选择 2000 个基因?
• 经验法则:选取一定数量的高变异基因是一个平衡点,既可以充分捕捉生物学差异,又能降低噪声。2000 个基因通常足以反映细胞群体间的主要差异,同时减少计算复杂度和内存占用。
• 如果选择过多的基因,可能会引入更多的噪声(如技术变异);如果选择过少,可能会忽略重要的生物学信息。

ScaleData 针对的基因集合

在大多数分析中,ScaleData 只对这些高变异的基因(即选定的 2000 个基因)进行操作。这是因为:
1. 降维和聚类:下游分析(如 PCA、UMAP)通常只关注这些高变异基因,以便更好地识别细胞亚群。如果对所有基因进行标准化,可能会降低分析的信噪比。
2. 计算效率:只对部分基因进行标准化能显著减少计算量,从而提高效率。

数据示例

假设我们有以下模拟数据集,包含 5 个细胞和 5 个基因:

细胞/基因 G1 G2 G3 G4 G5
A 100 10 5 50 200
B 120 12 5 55 210
C 90 11 6 52 180
D 300 9 8 500 190
E 110 10 5 48 205

第一步:找到高变异基因
• 计算每个基因的均值和变异系数(CV = 标准差 / 均值):
• G1: 均值 = 144, 标准差 = 86.6, CV = 0.60
• G2: 均值 = 10.4, 标准差 = 1.1, CV = 0.11
• G3: 均值 = 5.8, 标准差 = 1.1, CV = 0.19
• G4: 均值 = 141, 标准差 = 193.5, CV = 1.37
• G5: 均值 = 197, 标准差 = 13.2, CV = 0.07

从以上结果看出,G1 和 G4 是变异性最高的两个基因(假设选 2 个基因)。

第二步:标准化高变异基因
• 对 G1 和 G4 进行标准化操作:
• G1 的标准化:对每个细胞的表达值减去均值并除以标准差
• G4 的标准化:对每个细胞的表达值减去均值并除以标准差

结果可能如下:

细胞/基因 G1_scaled G4_scaled
A -0.51 -0.47
B -0.28 -0.45
C -0.62 -0.46
D 1.80 1.86
E -0.34 -0.48

通过只针对高变异基因进行标准化,我们可以更专注于能够区分细胞类型的基因。这种方法能够在降维和聚类分析中更清晰地识别出不同的细胞群体,从而更好地理解生物学差异。

发布人:4d85****    IP:124.223.189***     举报/删稿
展会推荐
让朕来说2句
评论
收藏
点赞
转发