最近的两个项目压力真的太大了。

不是那种“今天任务很多”的压力,而是那种每往前走一步,前面又长出三条路,每条路都要验证、解释、画图、写清楚、还要经得起老师追问的压力。

我现在越来越觉得,读研最累的地方不是软件不会用,也不是代码跑不动,而是你以为自己已经找到一个结果了,结果老师一句话就能把它打回到上游:这个 peak 可靠吗?这个 overlap 严格吗?这个基因在人里面也上调吗?这个 enhancer 真的调控这个基因吗?这个 TF 真的能解释吗?这个 FitHiC2 是 top200K 吗?这个文献支持的是促衰还是保护?

然后我就会发现,所谓“找到一个候选基因”,根本不是找到一个名字而已,而是要给这个基因做一整套证据链。

我们现在做的是猪心脏衰老。最理想的故事是:找到一个转录因子,这个转录因子调控一个靶基因;这个靶基因在心脏衰老里有明确文献支持,最好能促进心脏肥大、纤维化、自噬异常、收缩功能下降或者其他衰老相关表型;同时,我们还要找到一个增强子,证明这个增强子可能调控这个基因。

听起来已经很复杂了,但这只是故事的开头。

首先,RNA 侧的证据要过关。这个转录因子和靶基因都必须在猪衰老阶段显著上调,而且最好是 FDR 显著,而不是只靠 P 值显著。logFC 还不能太小,表达比例也不能太低。也就是说,不能是那种 pct.1=0.05 的基因,哪怕统计上显著,生物学上也很难讲。至少要有一个比较像样的表达比例,比如 0.3 左右,才能让人相信这个基因真的在一部分细胞里有表达,而不是统计模型给出来的边缘结果。

但 RNA 只是第一层。

接下来还要看 ATAC。我们需要衰老阶段显著开放的 peak,而且这些 peak 里面要能富集到这个转录因子的 motif。也就是说,不仅这个 TF 自己要上调,它潜在能结合的区域也要在衰老阶段开放。否则就很难说它在衰老过程中真的参与调控。

然后还要看 SCENIC+。这个转录因子最好在 SCENIC+ 里面是一个 ++ 的 eRegulon,并且这个 eRegulon 要显著富集于衰老阶段。更关键的是,这个 eRegulon 里面必须包含我们的靶基因;调控关系还要是正相关,regulation 要是 1,importance 也不能太低。否则就只能说“这个 TF 可能相关”,但不能说“这个 TF 可能调控这个靶基因”。

到这里其实已经筛掉很多候选了。

随后还有跨物种证据。我们要把猪的显著差异开放 peak 通过 liftOver 转到人 hg38 上,然后和三套公共数据的人 ATAC 差异开放 peak 做 overlap。其中两套是单细胞 ATAC,一套是 bulk-ATAC。这里的 overlap 还不是“碰到一点就算”,而是老师更倾向于严格标准:两端都要覆盖 50% 以上,也就是猪的 peak 覆盖人的 peak 至少 50%,人的 peak 也覆盖猪的 peak 至少 50%。

这个标准非常狠。

任意 overlap 的时候,看起来还能剩下一些候选;一旦改成 50% reciprocal overlap,很多 peak 直接就没了。尤其是跨物种之后,坐标本来就会发生变化,peak 长度也不一样,再加上不同数据来源 peak calling 的边界不同,能严格 overlap 到的区域其实很少。

拿到这些 overlap peak 之后,还不能直接说它调控某个基因。我们还要把区域和基因连起来。

最直接的策略是看距离,比如这个区域离某个基因 TSS 在 20 kb、50 kb 或 100 kb 以内。距离越近越好,20 kb 以内最好讲,100 kb 就已经需要更谨慎了。

但老师又会问:距离近就一定调控吗?

所以我们还做了 bulk Hi-C / FitHiC2。希望能看到这个 enhancer 区域和目标基因的启动子或 TSS 区域之间存在显著互作,而且这个互作的 FDR 要显著。我们本来以为有 FitHiC2 显著互作就很不错了,结果老师又进一步要求:如果这个 interaction 不在 top200K 里面,那意义也不大。

我当时真的心态爆炸。

因为这意味着,不只是要有连接,还要是足够强、足够靠前、足够可信的连接。一个结果刚刚够到门槛,马上又会出现新的门槛。

有了这些被连接到的基因之后,还要继续过滤。这个基因必须满足:

  • 是人猪同源基因,而且同源关系要高度可信,最好是一对一 ortholog;
  • 在猪衰老阶段显著上调;
  • 在人的衰老 RNA 数据里面,至少有一套也显著上调;
  • 最好在不同数据来源之间方向一致,而不是猪上调、人不变,或者 ATAC old-open、RNA 不 old-up。

也就是说,我们不是只在猪里面找基因,而是要找到一个“猪里成立、人里也有支持”的衰老相关调控轴。

然后,对于这些满足条件的 overlap peak,还要单独做 AME。要求这些 peak 里面最好能富集到我们前面说的那个转录因子的 motif。这里又有一个问题:如果是单条 enhancer 做 AME,统计意义其实很弱,更像 motif scan,而不是严格的 motif enrichment。但汇报的时候又需要给出 motif 证据,所以只能非常谨慎地说:这是 motif presence 的线索,不是强富集结论。

随后还要看 Cicero。我们要求这个 overlap peak 和靶基因 TSS 之间有共可及性,也就是 co-accessibility 不能太低。最低可能要 0.2,严格一点甚至要 0.4。只有这样,才能说这个 enhancer 和这个 gene 在单细胞 ATAC 的开放状态上有一定联系。

但这还不是终点。

最后的最后,如果要把这个故事真正做成机制,就要进入实验验证:

  • 靶基因敲除后,要能抑制衰老表型;
  • 转录因子敲除后,要能抑制靶基因表达;
  • 干扰这个增强子后,靶基因表达要下降,同时衰老表型要被抑制;
  • 如果再恢复这个增强子、转录因子或靶基因,衰老表型最好还能被 rescue 回来。

也就是说,最终要证明的是一整条链:

衰老 → chromatin opening → enhancer activation → TF binding/regulation → target gene upregulation → aging phenotype。

而且这条链上的每一个箭头,都要有证据。

现在回头看,我觉得这个项目最折磨人的地方,是它不是一个单纯的生信分析。它更像是在给一个候选基因做全套“政审”。

RNA 要过关,ATAC 要过关,motif 要过关,SCENIC+ 要过关,跨物种 liftOver 要过关,人类公共数据 overlap 要过关,enhancer-gene link 要过关,FitHiC2 要过关,Cicero 要过关,文献机制要过关,最后实验还要能验证。

任何一环弱一点,这个候选就会变成“可以作为补充”,而不是“可以作为主线”。

更让人崩溃的是,很多时候不是结果完全没有,而是结果总差一点。比如:

这个基因猪里很强,但人里不显著。

这个 peak 任意 overlap 能碰上,但 50% reciprocal overlap 过不了。

这个 enhancer 离 TSS 不远,但 FitHiC2 不够靠前。

这个基因文献很强,但方向可能是保护性代偿,不一定是促衰。

这个 TF motif 有,但 eRegulon 里没有靶基因。

这个候选看起来很漂亮,但表达比例太低。

每一个“差一点”,都很消耗人。

以前我以为科研是找到一个有意思的现象,然后解释它。现在才发现,真正困难的是:你要不断证明这个现象不是偶然,不是噪音,不是批次,不是细胞类型混杂,不是坐标误差,不是数据库偏差,不是统计阈值放松之后才出现的结果。

有时候我真的会觉得,这不是在找基因,这是在审案子。

一个候选基因站在被告席上,我们要不断提交证据:表达证据、开放证据、motif 证据、调控证据、物种保守证据、文献证据、功能证据。老师就像法官,一条一条问:这个证据够强吗?有没有反例?有没有更严格的标准?有没有更直接的验证?

我知道老师严格是对的。因为如果证据链不够硬,后面做实验会更痛苦。一个不稳的候选,可能会浪费几个月甚至更久。现在多筛一点、多问一点,其实是在避免后面掉进更大的坑里。

但知道是一回事,压力又是另一回事。

当一个分析流程长到每一步都可能推翻前一步,当每一个结果都需要被重新解释,当你已经整理了很多图和表,下一秒又因为一个 top200K、一个 50% overlap、一个 FitHiC2 q 值被打回去的时候,真的会觉得很累。

读研好像就是这样:你不断以为自己快到终点了,然后发现前面还有一段路。而且这段路不是直的,是分叉的,每个分叉都写着“请补充证据”。

但我也不得不承认,正是这些折磨人的要求,让我逐渐知道什么叫“证据链”。

不是有差异就叫结果。

不是有 motif 就叫调控。

不是离得近就叫 enhancer-gene link。

不是 P 值显著就叫可靠。

不是一个物种成立就叫保守。

不是有文献提到就能直接套机制。

真正能讲出去的结果,必须经得起很多层追问。

所以现在虽然很崩溃,但我也能感觉到,自己确实比以前更知道怎么判断一个候选靠不靠谱了。只是这个成长过程真的太痛苦了。

如果以后有人问我,这个项目到底在做什么,我可能会说:

我们不是在找一个基因。

我们是在找一条能从猪衰老单细胞多组学,一直连到人类公共 ATAC/RNA 数据,再连到 enhancer、TF、靶基因和衰老表型的调控证据链。

如果这条链真的能闭合,那当然会很漂亮。

但在它闭合之前,每一个节点都足够让人怀疑人生。