“对我而言Q回{了自己心中的问题或者做Z个新的发玎ͼq种成就感要q高于生zM的其他快乐。”李婧翌Q?span lang="EN-US">2003U生物科学与技术系Q?/span>寏V麻省理工科技评论》中国这栯道?/span>
而她的研I内容在很多人眼里或许稍显枯燥:(x)针对前沿的生物学问题开发新的统计学Ҏ(gu)Q尤其着重于对大规模基因l和转录l数据进行分析方法的开发?/span>
׃高通量实验技术的发展Q生命科学从一个靠观察实验Z的学U逐渐变得更加需要定量化Q而这些大规模数据的生也需要算法才能够q行分析Q从而ȝ出数学规律ƈ用规律来ȝ事物的本质?/span>
加州大学z杉矶分校(UCLAQ统计系Q已获得ln教职Q副教授和博士生导师Q生物统计系、hc遗传学pd计算dpd士生导师李婧认为,生命U学作ؓ(f)一个“宏U学”,管问题的本质与生命强相养I但研I手D需要各个学U一起合作,计算则是其中非常重要的一部分Q大数据也需要有非常适合的挖掘工Pq对于从对数学与科学有强烈兴趣、ƈ在本U与博士阶段分别接受了生命科学与生物l计学系l教育的李婧有强大的吸引?/span>
李婧的研究专注于统计学与生命科学的交叉问题Q她首创性地使用严格的统计学来分析已发表的{录组学和蛋白l学数据Q发现在q往研究中,׃研究人员Ҏ(gu)量误差的忽略Q{录的重要性被严重低估Q该分析挑战了“翻译比转录重要”的观点却支持了之前大量?span lang="EN-US"> mRNA 转录水^的科学发现。因光要性,李婧的研究l果被发表在 Science 杂志q收录于本科教材 Molecular Cell Biology 中?/span>

左图是论?i> B.Schwanhäusseretal.,Nature473,337(2011) 中在不考虑实验数据误差的情况下对{录、翻译?span lang="EN-US">mRNA 降解和蛋白质降解q四个步骤对于蛋白质含量的A(ch)献的估计Q右图是在校正了实验数据误差之后的估计?/span>Q来源:(x)李婧的论文 Li et al. (2015). Statistics requantitates the central dogma. Science 347(6226):1066-1067.Q?/i>
此外Q李婧翌团队q开发了大量生物信息学工具在l织和单l胞(yu)水^上对 mRNA 分子q行全系l测量,q正在开发一能够寻扑ֈ人群亚型中和疄相关的基因变异的新的l计度量?/span>
凭借上qC异的研究成果Q李婧翌成功入?《麻省理工科技评论》?span lang="EN-US">35 岁以下科技创新 35 人”(Innovators Under 35Q?span lang="EN-US">2020 q中国区榜单?/span>

《麻省理工科技评论》?span lang="EN-US">35 岁以下科技创新 35 人?span lang="EN-US">2020 q中国区榜单入选者李婧翌
无心插柳Q却颠覆固有认知
早在 1958 q_(d)中心转录法则便被提出Q它指的是遗传信息被~码?span lang="EN-US"> DNA 中,通过转录?x)变?span lang="EN-US"> mRNAQ再通过译的过E变成蛋白质Q这是所有有l胞(yu)l构的生物所遵@的法则?/span>
在这个过E中Q除了{录和译生成?span lang="EN-US"> mRNA 和蛋白质q两个步骤,q存?span lang="EN-US"> mRNA 和蛋白质的降解,q四个步骤共同决定了每一个基因所对应的蛋白质到底在我们细?yu)中存在多少量。不q,此前中心转录法则是一个定性表qͼ“没有h知道每一步的速率是多,也没有h知道Ҏ(gu)后蛋白质含量的媄响有多少。?/span>
在李婧翌博士卛_毕业之时Q她与合作?span lang="EN-US"> Mark Biggin 博士共同研究中心转录法则的定量工作。偶然的一ơ机?x),李婧和合作者发玎ͼ2011 q发表在 Nature 上的一文章首ơ在鼠的全基因l的基因中进行了 4 Ҏ(gu)骤的量Q其得出的结论是每个基因?span lang="EN-US"> mRNA 的含量对于蛋白质含量的预效果比较差Q也是说一个基因内 mRNA 的高或低q不太能代表它的蛋白质含量的高或低?/span>
“这在当时是个非常让人震惊的l论。因为我们有很多实验手段可以用来研究 mRNAQ但是研I蛋白质相对困难很多Q所以大量生物学的发现成果都围绕 mRNA 的含量水q뀂如果这文章的l果为真Q那么之前很?span lang="EN-US"> mRNA 的结果可能都没有什么意义了。”李婧翌解释道?/span>
当李婧翌与合作伙伴看到这文章时Q他们观察到q项工作是将高通量质谱转化白质含量Q但在{化过E中Q它的标准实际上只基于高表达蛋白Qƈ假设同样的{换方式也适用于低表达蛋白Q由此导致了研究里面很多低表达蛋白的表达指征是很不准的,也就意味着高通量蛋白质测量很有可能存在误差?/span>
Z解决q一疑惑Q李婧翌实验误差考虑q徏模后发现Q实际上 mRNA 和蛋白质含量的相x比 Nature 的文章报道的要高很多Q{录的重要性被严重低估。这“无心插柳”的研究l果被发表在 Science 杂志q收录于本科教材 Molecular Cell Biology 中?/span>
李婧对《麻省理工科技评论》中国回忆道Q“我觉得很有的一Ҏ(gu)Q我们将很基本的l计Ҏ(gu)用到了正的问题上,从而发C非常意想不到的结果。这也说明了考虑数据量的随机性和数据噪音对科学结论十分重要。”这一q_(d)李婧还不到 30 岁?/span>
U研与教育同样重?/span>
作ؓ(f)一个青q科学家Q李婧翌认ؓ(f)Q保持对未知问题的好奇心Q用研究拓宽人类的知识边界,是支撑她U研工作的重要推动力?/span>
作ؓ(f)一个科研h员,李婧认为目前的l计分析q远q谈不上U学Q“如果一个分析h员在写研I报告时没有记录分析的每一步,而只是简略地记录一个结果,那最l结果就不太透明Qƈ且可能也不能被重复,可信度就要大打折扣。?/span>
此外Q李婧翌提到Q如果要最新研I的l计学方法发表在比较好的学术杂志上,通常情况下做的越复杂容易发表,q就Dl计学领域出C个通病Q很多统计方法都比较像“黑”,它们q于复杂Q也没有l实际应用的人员讲授清楚优缺点到底在哪里?/span>

对于同样的一套多个病人样本中的基因表达数据,病h是观|而基因是特征。大部分的病人已知得病或未得病。如果研I题是Q基?span lang="EN-US">A是否Z个有效的疄标志物,那么假设验是合适的l计Ҏ(gu)。而如果研I题是Q?span lang="EN-US">1L(fng)人是否得病,那么二元分类是合适的l计Ҏ(gu)?/span>Q来源:(x)李婧的论文Li et al. (2020). Statistical hypothesis testing versus machine-learning binary classification: distinctions and guidelines. Patterns 1(7):110115.Q?/i>
作ؓ(f)一个有交叉学科背景的研Ih员,李婧充分利用了q一点:(x)能够更好地让生命U学领域的数据分析h员去理解现有的一些经典方法的优缺点和适用范围Q同Ӟ李婧自己发展新Ҏ(gu)也将以此为目标,创造出更透明、更E_的统计学Ҏ(gu)。D例而言Q李婧翌在最q发表的一文章中尝试对两种常用但经常被h的统计方法:(x)假设验和二元分类Q进行解释ƈ阐述q两U方法各自适用的数据分析问题。譬如对致癌基因和抑癌基因的预测问题Q李婧翌解释了ؓ(f)什么基于现有的大数据,二元分类是一个更加适用的统计方法?/span>
作ؓ(f)教师Q李婧翌致力于将l计Ҏ(gu)开发和实际应用的重要性更紧密的结合?/span>
李婧认为,无论中美Q目前统计学的基教育中都有很多过时的教学内容Q因为很多计都已经可以依靠计算机的E序包来q行自动化运。统计学教育更重要的应该是去教授学生Z么需要统计学Q数据背后的随机性应该怎么ȝ解,以及数据分析到底惌决什么问题,“我觉得q些其实是统计教育需要改变的的东西,我希望我能够发挥一些作用。?/span>