现在老多老多人想学高通量测序数据分析了,找不到地方学的话,去下面这个网站学就可以了,里包含了老多老多详细的教程:
ANGUS: http://ged.msu.edu/angus/
这个网站是密歇根州立大学(MSU)的人做的,内容非常清楚,非常详细,非常条理,一学就会。
现在老多老多人想学高通量测序数据分析了,找不到地方学的话,去下面这个网站学就可以了,里包含了老多老多详细的教程:
ANGUS: http://ged.msu.edu/angus/
这个网站是密歇根州立大学(MSU)的人做的,内容非常清楚,非常详细,非常条理,一学就会。
BLASTN与MEGABLAST都可用于核酸序列的相互比对,区别之处是:与BLASTN相比MEGABLAST运行速度快,更灵敏,通常用于从数据库从查找非常相似的序列。二者各有各的优点:MEGABLAST很灵敏,运行速度快,只有非常相似的序列才能查找出来,而BLASTN不那么灵敏,相似度较低的序列也可以查找到,但运行速度就慢了。当然二者都可以通过调整Word Size来调整灵敏度。如何选择这两个工具以及如何选择合适的Word Size需要根据具体的数据情况进行一番纠结。
NCBI的网站上是这样说的:
MEGABLAST is the tool of choice to identify a nucleotide sequence.
The best way to identify an unknown sequence is to see if that sequence already exists in a public database. If the database sequence is a well-characterized sequence, then one will have access to a wealth of biological information. MEGABLAST, discontiguous-megablast, and blastn all can be used to accomplish this goal. However, MEGABLAST is specifically designed to efficiently find long alignments between very similar sequences and thus is the best tool to use to find the identical match to your query sequence. In addition to the expect value significance cut-off, MEGABLAST also provides an adjustable percent identity cut-off for the alignment, which provides cut-off in addition to the significance cut-off threshold set by Expect value.
NCBI的在线Blast工具核酸序列比对默认是使用的MEGABLAST (Optimize for Highly similar sequences)
高通量测序又称下一代测序或第二代测序,能够快速、低成本获取大量的DNA序列,从而便于从基因的角度进行相关研究。目前主流的平台有454,Illumina,PacBio,Ion Torrent等等。之前陆陆续续写了一些关于高通量测序方面的东西,现在汇总一下(仅供参考,无法保证内容完全正确):
1 关于454测序
2 高通量测序:
3 高通量测序的应用
4 高通量测序与云计算
5 高通量测序价格
6 两个高通量测序方面的培训班
7 高通量测序仪世界分布图
8 两种小型高通量测序仪
9 19个高通量测序序列拼接组装软件
10 高通量测序数据分析
11 各种高通量测序仪比较
12 低价高通量测序服务
13 模拟DGGE图像的软件
14 一些高通量测序数据处理软件
15 一些高通量测序数据分析平台
16 生物信息云计算模式
马上到了一年一度的中国国家自然科学基金项目申报时间,与生物(无论动物、植物还是微生物)相关的项目,今年肯定有很多人申请书都提到了高通量测序技术,高通量测序,下一代测序,深度测序,454测序,Illumina测序,拼接组装,物种注释,基因注释等等这些词吧?
高通量测序数据处理经常需要很大的计算量,虽然有很多的软件可以用,但是对于一般的用户往往没有足够强大的计算机来运行这些软件,于是就有了很多在线数据分析平台,只要把序列上传上去,就可以完成数据分析。下面这些网站是一些比较好用的高通量测序数据分析平台:
1. RDP Pyrosequencing Pipeline
用于分析细菌和古菌16S rDNA高通量测序数据
2. MG-RAST
用于分析宏基因组高通量测序数据,进行物种注释和功能注释,暂时没有序列组装功能,可以上传非常大的数据文件。
3. CAMERA 2
用于分析宏基因组高通量测序数据(metagenomics data),目前似乎不能上传超过1个G的数据,主要用于分析454的宏基因组数据,可以进行序列组装。
4. img/m
这是美国能源部联合基因研究所(DOE JGI)开发的一套系统,从metagenome角度分析微生物群落的功能。系统做的非常细致,并且有workshop介绍如何使用。
使用这些平台的好处很明显:傻瓜式操作,几乎不用学就会。
坏处也很明显:不灵活,必须按照系统设定的一些模式进行分析,另外,这些系统随时都可能发生故障,一旦发生故障,数据分析就无法进行了。
这些系统一般都需要使用大型计算机或计算机集群,每天都进行超大规模的数据运算,需要投入的人力物力非常大,虽然开发这些系统的单位都有着充足的经费,但我还是有点担心,随着高通量测序技术的发展,海量数据的不断产生,这些系统是否能一直挺的住,并且持续免费提供这样的服务?
下面是几个被广泛使用的高通量测序数据分析软件,主要是针对微生物的,并且主要用于分析16S rDNA PCR产物或宏基因组(Metagenome)高通量测序数据,了解样品中细菌或古菌等微生物的种群及功能的多样性和丰度。
1. Mothur
第一次见到这个软件的时候,就被它的架构深深折服了,设计的实在是太好了!包含了各种各样常用的序列处理功能,并且功能随着开发的进行,很多新的功能和模块不断被整合进去。在Linux、Windows和Mac系统下都可以安装,使用起来非常简,网站上的使用说明也非常清晰、条理,稍微看一下,几个小时甚至更短时间就可以学会。
在Ubuntu中通过源代码编译安装Mothur的方法。
2. MEGAN
网站:http://ab.inf.uni-tuebingen.de/software/megan/
注意是MEGAN,不是MEGA。这个软件设计的也非常好,它主要是使用LCA算法,分析BLAST结果。除了进行物种的丰度和多样性分析,也可以进行功能基因的多样性和丰度分析。用Java写的,各种平台都可以运行。
3. Qiime
网站:http://qiime.sourceforge.net/
这是一个专门用于分析微生物PCR产物高通量测序数据的pipeline,主要用Python写的,也整合了很多其它的工具包。这个软件的特点是生成的图挺漂亮的,但是使用起来不是非常容易,甚至对于很多人来说成功在电脑上安装都是非常困难的。只支持Linux和Mac系统,在Windows下使用必须在虚拟机中安装。最简单的安装方法是在亚马逊的云计算平台EC2 image中安装使用。
4. STAMP
网站:http://kiwi.cs.dal.ca/Software/STAMP
这个软件主要用于分析宏基因组(Metagenome)高通量测序数据,对多个样品的Metagenomic profiles进行统计分析和比较。各种系统下都可以安装使用。
凡是机器能做的事情,都会由开始的超高价逐渐走向白菜价,这是必然的规律,高通量测序也是一样。
最近发现美国一些机构提供的Illumina高通量测序报价特别便宜,HiSeq2000 101 Cycle Paired End Sequencing每个lane的价格不到3000美元,每次运行一个lane可以产生30-37.5G有效数据,平均每G数据价格不到100美元,相当便宜。
下面是链接(大部分都是由Bobby同学提供的):
1. Pricing for Illumina HiSeq 2000
2. http://www.biotech.uiuc.edu/centers/Keck/Highthroughput/pricing.htm
3. http://www.biotech.wisc.edu/facilities/dnaseq/sequencing/Illumina
4. http://openwetware.org/wiki/BioMicroCenter:Pricing
特别声明一下:这里只是提供一些信息供大家参考,他们的高通量测序服务与本人没有任何关系!请自行比较、慎重选择。
如果你们知道哪个机构的高通量测序价格比上面这个价格更便宜,欢迎在下面留言或给我发Email(Email地址在这里)。
另外,也非常欢迎提供其它高通量测序平台(包括但不限于454,Illumina、Ion Torrent等等)的测序价格信息,如有新的信息,我会及时更新这篇文章。
高通量测序技术发展的真是快啊,454最近发布的GS FLX Titanium XL+系统的测序长度已经可达700~1000bp了!!通量700M,运行时间23小时。资料请看这里。虽然454的通量有点低,成本有点高,但是它的读长实在是有点诱人。
下面这张表格综合比较了普通测序仪3730xl及Illumina, 454, Ion Torrent, SOLiD,PacBio RS等各种高通量测序仪的通量、读长及运行成本。

下面这张表格列出了各种高通量测序仪的仪器成本(单位是千美元)、产生的数据量,错误情况及其它一些信息。

Glenn, T. C. (2011). Field guide to next generation DNA sequencers. Molecular Ecology Resources.
2011.7.29更新:现在想想,下面这些以前的观点不是完全正确,处理PCR产物高通量测序的数据,用PC勉强可以,但是处理宏基因组数据(一般数据量都是1G以上),最起码得用工作站电脑,最好能用大型机。
—————-
众所周知,数据分析是高通量测序应用于生物研究最关键的步骤,分析不好,得到的海量数据无异于一堆垃圾。下面是刚刚接触高通量测序数据分析的同学可能比较关心的几个问题。需要说明的是:这些都是基于微生物领域且数据量不是特别大的情况。其它领域(植物、动物、医学等等)的高通量测序数据处理我暂时还不太了解。
1. 是不是一定要用大型计算机?
除了序列拼接组装以外,其它分析不是一定要大型计算机,在普通的PC上也可以进行一些处理,当然,买一台或几台高性能的工作站电脑,能显著加快数据处理的速度。
继续阅读 »