第二天,陆时羡带着陈依依在耶鲁大学逛了一圈,一起吃过午餐,便把她送上了回洛杉矶的飞机。
等再次回到公寓的时候,已经是月明星稀。
结束了一天的导游工作,陆时羡洗了个澡,倒下便睡。
当他再次清醒的时候,已经是上午九点。
这和他固有的生物钟是极不相符的,但也能看出他最近真的透支太多了。
这次倒是可以好好休息一下。
当他租住这间单人公寓的时候,是有设计一个书房的。
但现在看来,当时的设想似乎做了无用功,自从进了实验室,他都没有多少时间踏入其中。
单人公寓的作用仅仅只是一个宿舍而已。
乘着和煦的阳光,陆时羡兴起拿起一本《蚁丘》,从序言看到湖畔的初次探险。
即使原野一次次地被烧尽,蚁丘始终都会活下来,它向荒原提供营养,也向荒原上的新草讲述旧年的灾情。
爱德华·威尔逊是那种极少的文笔极好的生物学家,在他笔下构建了一个完全由蚂蚁构建的世界,揭示了一个微观世界中的生态系统和社会结构。
可惜,他的时间并不足以将这本书细细品味一遍,只是心中不断暗叹,果然能够开创一个学科的大佬所拥有的思想深度还是目前的他所不能触及的。
下午,陆时羡准时出现在实验室里。
而其余几人也陆陆续续地抵达,最后会和到一起。
看着梅林、瑟琳和鲍勃几人的精神状态好了许多,陆时羡点点头,开口说道:”大家应该都休息好了,现在是时候大干一场了。”
这个过程非常繁琐,特别是对植物基因组而言,因其包含有大量的基因和非编码区域,导致处理工作复杂。
陆时羡将目光投向三人:“怎么样?进行处理的详细步骤应该不用我说了吧,接下来我说一下初步安排。”
看着几人点点头,他继续说道:”第一步序列质量控制鲍勃你来,而第一步基因注释工作量也比较大,由我和梅林一起来做,瑟琳你来进行第三步的基因表达分析。”
“大家有没有问题?”
听到这几句话,三人都摇摇头。
事实上,他的安排是比较合理的。
没有人能保证在测序过程中不存在任何错误,哪怕只是一点误差就会对测序结果带来干扰。
然后连带着对后续数据分析与处理造成巨大的影响,因此对序列数据进行质量控制是减少误差影响的必要环节。
当然,这个工作对鲍勃而言并不难的,他的生物信息学课程掌握的还是比较扎实的,对序列比对、K-mer分析、GC含量分析等方法并并不陌生。
而基因注释是进行数据处理的关键环节,就如它字面上的意思一样,是对基因组序列中的基因和非编码序列进行识别和注释。
进行这个工作要么需要对比较基因组学具有比较熟悉的了解,通过已知物种中的基因和基因组结构相似性来找到植物基因组中的相似序列。
要么在实验数据处理上具有极高的水准,能够利用RNA-Seq和别的专业实验数据来确定基因位置和剪接模式。
两者工作过程看似截然不同,但最后殊途同归。
基因表达分析是用来评估植物基因组序列中的基因在不同的生长发育阶段或者是在不同环境条件下的表达级别。
可以运用差异表达分析、功能分析和通路分析等方法来帮助他们深入了解植物基因的功能和在它们在生长发育和环境响应中的作用机制。
处理基因测序信息数据的工作实际上是属于生物信息学的范畴。
其实目前生物信息学能够逐渐发展为一个独立的学科并不是没有道理的。
随着陆时羡所学所知的加深,他已经越来越能体会到万事万物都是互相联系的这句话。
也就是所谓的触类旁通,他能够运用哲学观念来思考来解释。
事物自身包含的矛盾存在于一切事物中,并且贯穿于事物发展过程的始终。
自从进入计算机时代,人们获取数据的速度得到了巨大的提升。。
但显然,数据并不等于信息。
一方面是每天进入EMBL、GenBank和DDBJ的数据每天都以指数式的数量来统计。而一方面是自然科学、生理学、医学等领域新知识产生的匮乏。
人们对新知识新信息产生缓慢落后的不满和飞速增长的数据速度形成了一个巨大的主要矛盾。
矛盾推动着事物的产生与发展,于是生物信息学在这种背景下产生并发展。
它的几个主要工作恰好对应着刚刚他所说的几个步骤。
序列比对和序列分析一个是对两个或两个以上符号序列进行相似性比较,一个是获知对应的基因和基因调控序列或对基因组中