2011.7.29更新现在想想,下面这些以前的观点不是完全正确,处理PCR产物高通量测序的数据,用PC勉强可以,但是处理宏基因组数据(一般数据量都是1G以上),最起码得用工作站电脑,最好能用大型机
—————-

众所周知,数据分析是高通量测序应用于生物研究最关键的步骤,分析不好,得到的海量数据无异于一堆垃圾。下面是刚刚接触高通量测序数据分析的同学可能比较关心的几个问题。需要说明的是:这些都是基于微生物领域且数据量不是特别大的情况。其它领域(植物、动物、医学等等)的高通量测序数据处理我暂时还不太了解。

1. 是不是一定要用大型计算机?
除了序列拼接组装以外,其它分析不是一定要大型计算机,在普通的PC上也可以进行一些处理,当然,买一台或几台高性能的工作站电脑,能显著加快数据处理的速度。

2. 是不是一定要用Linux系统?
也不一定非用Linux不可,在Window下可以完成部分数据处理。如果你想以后长期从事高通量测序数据分析工作,熟悉Linux是必须的,但是如果你是为了处理一下数据混混毕业(中国有很多研究生是这样,这是事实),我觉得没必要额外花些时间去学习使用Linux,虽然现在Linux已经变得不那么难用了

3. 序列拼接又要用大型计算机又要用Linux系统怎么办?
方法有两个:(1) 找商业公司组装拼接, (2)用亚马逊的云计算服务。

4. 是不是必须自己写些程序?
数据处理中经常要对文本文件中的内容进行调整、筛选、比对,据我所知现在还没有什么软件可以非常灵活的完成这些操作,将来也很难有,因为这些操作都是与实际数据相关的,没有统一的规律。现在大部分人都是用脚本程序来完成这些任务,因此数据分析过程中需要自己写点程序。在这方面比较适合的编程语言是Python和Perl,我觉得Python比较好用也比较有前途,但很多人还是用Perl,问其原因,得到的答复是是师兄师姐都用Perl,不得不用Perl。

5. 数据如何分析?
这个问题太难回答了,并且我觉得目前及将来很长一段时间,在网上应该找不到像DGGE操作步骤T-RFLP操作步骤DGGE数据分析方法等这类非常详细的教程类的东西。因为高通量测序技术及其数据分析方法现在发展非常快,时刻在变。唯一的办法就是自己去研究Paper,研究相关软件的说明书。

如转载,请以超链接形式注明:转载自:有个博客 [ http://www.yelinsky.com/blog/ ]

Tags: , , ,