为什么 FindVariableFeatures 要选择 2000 个基因?
在单细胞 RNA 测序数据中,不是所有基因对下游分析(如聚类、降维)都同等重要。FindVariableFeatures 这一步的目的是选择最具变异性的基因,以便在分析中能够捕捉到细胞之间的生物学差异。
1. 什么是变异性?
• 变异性是指一个基因在不同细胞中的表达水平变化程度。一个基因如果在所有细胞中表达都非常接近,它对区分细胞亚群的作用不大。
• 相反,如果一个基因的表达在某些细胞类型中高而在其他类型中低,这种基因能更好地反映细胞间的差异。
2. 为什么选择 2000 个基因?
• 经验法则:选取一定数量的高变异基因是一个平衡点,既可以充分捕捉生物学差异,又能降低噪声。2000 个基因通常足以反映细胞群体间的主要差异,同时减少计算复杂度和内存占用。
• 如果选择过多的基因,可能会引入更多的噪声(如技术变异);如果选择过少,可能会忽略重要的生物学信息。
ScaleData 针对的基因集合
在大多数分析中,ScaleData 只对这些高变异的基因(即选定的 2000 个基因)进行操作。这是因为:
1. 降维和聚类:下游分析(如 PCA、UMAP)通常只关注这些高变异基因,以便更好地识别细胞亚群。如果对所有基因进行标准化,可能会降低分析的信噪比。
2. 计算效率:只对部分基因进行标准化能显著减少计算量,从而提高效率。
数据示例
假设我们有以下模拟数据集,包含 5 个细胞和 5 个基因:
细胞/基因 | G1 | G2 | G3 | G4 | G5 |
---|---|---|---|---|---|
A | 100 | 10 | 5 | 50 | 200 |
B | 120 | 12 | 5 | 55 | 210 |
C | 90 | 11 | 6 | 52 | 180 |
D | 300 | 9 | 8 | 500 | 190 |
E | 110 | 10 | 5 | 48 | 205 |
第一步:找到高变异基因
• 计算每个基因的均值和变异系数(CV = 标准差 / 均值):
• G1: 均值 = 144, 标准差 = 86.6, CV = 0.60
• G2: 均值 = 10.4, 标准差 = 1.1, CV = 0.11
• G3: 均值 = 5.8, 标准差 = 1.1, CV = 0.19
• G4: 均值 = 141, 标准差 = 193.5, CV = 1.37
• G5: 均值 = 197, 标准差 = 13.2, CV = 0.07
从以上结果看出,G1 和 G4 是变异性最高的两个基因(假设选 2 个基因)。
第二步:标准化高变异基因
• 对 G1 和 G4 进行标准化操作:
• G1 的标准化:对每个细胞的表达值减去均值并除以标准差
• G4 的标准化:对每个细胞的表达值减去均值并除以标准差
结果可能如下:
细胞/基因 | G1_scaled | G4_scaled |
---|---|---|
A | -0.51 | -0.47 |
B | -0.28 | -0.45 |
C | -0.62 | -0.46 |
D | 1.80 | 1.86 |
E | -0.34 | -0.48 |
通过只针对高变异基因进行标准化,我们可以更专注于能够区分细胞类型的基因。这种方法能够在降维和聚类分析中更清晰地识别出不同的细胞群体,从而更好地理解生物学差异。