• 全国 [切换]
  • 二维码
    米优网

    手机WAP版

    手机也能找商机,信息同步6大终端平台!

    微信小程序

    微信公众号

    当前位置: 首页 » 行业新闻 » 热点新闻 » 正文

    5.单细胞RNA测序-为什么 FindVariableFeatures 要选择 2000 个基因?ScaleData是对这2000个基因进行操作的?

    放大字体  缩小字体 发布日期:2025-01-17 18:29:50   浏览次数:4  发布人:4d85****  IP:124.223.189***  评论:0
    导读

    为什么 FindVariableFeatures 要选择 2000 个基因? 在单细胞 RNA 测序数据中,不是所有基因对下游分析(如聚类、降维)都同等重要。FindVariableFeatures 这一步的目的是选择最具变异性的基因,以便在分析中能够捕捉到细胞之间的生物学差异。 1. 什么是变异性? • 变异性是指一个基因在不同细胞中的表达水平变化程度。一个基因如果在所有细胞中表达都非常接近

    为什么 FindVariableFeatures 要选择 2000 个基因?

    在单细胞 RNA 测序数据中,不是所有基因对下游分析(如聚类、降维)都同等重要。FindVariableFeatures 这一步的目的是选择最具变异性的基因,以便在分析中能够捕捉到细胞之间的生物学差异。

    1. 什么是变异性?
    • 变异性是指一个基因在不同细胞中的表达水平变化程度。一个基因如果在所有细胞中表达都非常接近,它对区分细胞亚群的作用不大。
    • 相反,如果一个基因的表达在某些细胞类型中高而在其他类型中低,这种基因能更好地反映细胞间的差异。

    2. 为什么选择 2000 个基因?
    • 经验法则:选取一定数量的高变异基因是一个平衡点,既可以充分捕捉生物学差异,又能降低噪声。2000 个基因通常足以反映细胞群体间的主要差异,同时减少计算复杂度和内存占用。
    • 如果选择过多的基因,可能会引入更多的噪声(如技术变异);如果选择过少,可能会忽略重要的生物学信息。

    ScaleData 针对的基因集合

    在大多数分析中,ScaleData 只对这些高变异的基因(即选定的 2000 个基因)进行操作。这是因为:
    1. 降维和聚类:下游分析(如 PCA、UMAP)通常只关注这些高变异基因,以便更好地识别细胞亚群。如果对所有基因进行标准化,可能会降低分析的信噪比。
    2. 计算效率:只对部分基因进行标准化能显著减少计算量,从而提高效率。

    数据示例

    假设我们有以下模拟数据集,包含 5 个细胞和 5 个基因:

    细胞/基因 G1 G2 G3 G4 G5
    A 100 10 5 50 200
    B 120 12 5 55 210
    C 90 11 6 52 180
    D 300 9 8 500 190
    E 110 10 5 48 205

    第一步:找到高变异基因
    • 计算每个基因的均值和变异系数(CV = 标准差 / 均值):
    • G1: 均值 = 144, 标准差 = 86.6, CV = 0.60
    • G2: 均值 = 10.4, 标准差 = 1.1, CV = 0.11
    • G3: 均值 = 5.8, 标准差 = 1.1, CV = 0.19
    • G4: 均值 = 141, 标准差 = 193.5, CV = 1.37
    • G5: 均值 = 197, 标准差 = 13.2, CV = 0.07

    从以上结果看出,G1 和 G4 是变异性最高的两个基因(假设选 2 个基因)。

    第二步:标准化高变异基因
    • 对 G1 和 G4 进行标准化操作:
    • G1 的标准化:对每个细胞的表达值减去均值并除以标准差
    • G4 的标准化:对每个细胞的表达值减去均值并除以标准差

    结果可能如下:

    细胞/基因 G1_scaled G4_scaled
    A -0.51 -0.47
    B -0.28 -0.45
    C -0.62 -0.46
    D 1.80 1.86
    E -0.34 -0.48

    通过只针对高变异基因进行标准化,我们可以更专注于能够区分细胞类型的基因。这种方法能够在降维和聚类分析中更清晰地识别出不同的细胞群体,从而更好地理解生物学差异。

     
    (文/匿名(若涉版权问题请联系我们核实发布者) / 非法信息举报 / 删稿)
    打赏
    免责声明
    • 
    本文为昵称为 4d85**** 发布的作品,本文仅代表发布者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,发布者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们154208694@qq.com删除,我们积极做(权利人与发布者之间的调停者)中立处理。郑重说明:不 违规举报 视为放弃权利,本站不承担任何责任!
    有个别老鼠屎以营利为目的遇到侵权情况但不联系本站或自己发布违规信息然后直接向本站索取高额赔偿等情况,本站一概以诈骗报警处理,曾经有1例诈骗分子已经绳之以法,本站本着公平公正的原则,若遇 违规举报 我们100%在3个工作日内处理!
    0相关评论
     

    (c)2008-现在 pifa.naodi.com All Rights Reserved.