11 24
高通量测序数据处理经常需要很大的计算量,虽然有很多的软件可以用,但是对于一般的用户往往没有足够强大的计算机来运行这些软件,于是就有了很多在线数据分析平台,只要把序列上传上去,就可以完成数据分析。下面这些网站是一些比较好用的高通量测序数据分析平台:
1. RDP Pyrosequencing Pipeline
http://rdp.cme.msu.edu/
用于分析细菌和古菌16S rDNA高通量测序数据
2. MG-RAST
http://metagenomics.anl.gov
用于分析宏基因组高通量测序数据,进行物种注释和功能注释,暂时没有序列组装功能,可以上传非常大的数据文件。
3. CAMERA 2
https://camera.calit2.net/
用于分析宏基因组高通量测序数据(metagenomics data),目前似乎不能上传超过1个G的数据,主要用于分析454的宏基因组数据,可以进行序列组装。
4. img/m
http://img.jgi.doe.gov/m
这是美国能源部联合基因研究所(DOE JGI)开发的一套系统,从metagenome角度分析微生物群落的功能。系统做的非常细致,并且有workshop介绍如何使用。
使用这些平台的好处很明显:傻瓜式操作,几乎不用学就会。
坏处也很明显:不灵活,必须按照系统设定的一些模式进行分析,另外,这些系统随时都可能发生故障,一旦发生故障,数据分析就无法进行了。
这些系统一般都需要使用大型计算机或计算机集群,每天都进行超大规模的数据运算,需要投入的人力物力非常大,虽然开发这些系统的单位都有着充足的经费,但我还是有点担心,随着高通量测序技术的发展,海量数据的不断产生,这些系统是否能一直挺的住,并且持续免费提供这样的服务?
11 13
下面是几个被广泛使用的高通量测序数据分析软件,主要是针对微生物的,并且主要用于分析16S rDNA PCR产物或宏基因组(Metagenome)高通量测序数据,了解样品中细菌或古菌等微生物的种群及功能的多样性和丰度。
1. Mothur
网站:http://www.mothur.org/
第一次见到这个软件的时候,就被它的架构深深折服了,设计的实在是太好了!包含了各种各样常用的序列处理功能,并且功能随着开发的进行,很多新的功能和模块不断被整合进去。在Linux、Windows和Mac系统下都可以安装,使用起来非常简,网站上的使用说明也非常清晰、条理,稍微看一下,几个小时甚至更短时间就可以学会。
在Ubuntu中通过源代码编译安装Mothur的方法。
2. MEGAN
网站:http://ab.inf.uni-tuebingen.de/software/megan/
注意是MEGAN,不是MEGA。这个软件设计的也非常好,它主要是使用LCA算法,分析BLAST结果。除了进行物种的丰度和多样性分析,也可以进行功能基因的多样性和丰度分析。用Java写的,各种平台都可以运行。
3. Qiime
网站:http://qiime.sourceforge.net/
这是一个专门用于分析微生物PCR产物高通量测序数据的pipeline,主要用Python写的,也整合了很多其它的工具包。这个软件的特点是生成的图挺漂亮的,但是使用起来不是非常容易,甚至对于很多人来说成功在电脑上安装都是非常困难的。只支持Linux和Mac系统,在Windows下使用必须在虚拟机中安装。最简单的安装方法是在亚马逊的云计算平台EC2 image中安装使用。
4. STAMP
网站:http://kiwi.cs.dal.ca/Software/STAMP
这个软件主要用于分析宏基因组(Metagenome)高通量测序数据,对多个样品的Metagenomic profiles进行统计分析和比较。各种系统下都可以安装使用。
08 25
凡是机器能做的事情,都会由开始的超高价逐渐走向白菜价,这是必然的规律,高通量测序也是一样。
最近发现美国一些机构提供的Illumina高通量测序报价特别便宜,HiSeq2000 101 Cycle Paired End Sequencing每个lane的价格不到3000美元,每次运行一个lane可以产生30-37.5G有效数据,平均每G数据价格不到100美元,相当便宜。
下面是链接(大部分都是由Bobby同学提供的):
1. Pricing for Illumina HiSeq 2000
2. http://www.biotech.uiuc.edu/centers/Keck/Highthroughput/pricing.htm
3. http://www.biotech.wisc.edu/facilities/dnaseq/sequencing/Illumina
4. http://openwetware.org/wiki/BioMicroCenter:Pricing
特别声明一下:这里只是提供一些信息供大家参考,他们的高通量测序服务与本人没有任何关系!请自行比较、慎重选择。
如果你们知道哪个机构的高通量测序价格比上面这个价格更便宜,欢迎在下面留言或给我发Email(Email地址在这里)。
另外,也非常欢迎提供其它高通量测序平台(包括但不限于454,Illumina、Ion Torrent等等)的测序价格信息,如有新的信息,我会及时更新这篇文章。
08 20
高通量测序技术发展的真是快啊,454最近发布的GS FLX Titanium XL+系统的测序长度已经可达700~1000bp了!!通量700M,运行时间23小时。资料请看这里。虽然454的通量有点低,成本有点高,但是它的读长实在是有点诱人。
下面这张表格综合比较了普通测序仪3730xl及Illumina, 454, Ion Torrent, SOLiD,PacBio RS等各种高通量测序仪的通量、读长及运行成本。

下面这张表格列出了各种高通量测序仪的仪器成本(单位是千美元)、产生的数据量,错误情况及其它一些信息。

Glenn, T. C. (2011). Field guide to next generation DNA sequencers. Molecular Ecology Resources.
05 28
2011.7.29更新:现在想想,下面这些以前的观点不是完全正确,处理PCR产物高通量测序的数据,用PC勉强可以,但是处理宏基因组数据(一般数据量都是1G以上),最起码得用工作站电脑,最好能用大型机。
—————-
众所周知,数据分析是高通量测序应用于生物研究最关键的步骤,分析不好,得到的海量数据无异于一堆垃圾。下面是刚刚接触高通量测序数据分析的同学可能比较关心的几个问题。需要说明的是:这些都是基于微生物领域且数据量不是特别大的情况。其它领域(植物、动物、医学等等)的高通量测序数据处理我暂时还不太了解。
1. 是不是一定要用大型计算机?
除了序列拼接组装以外,其它分析不是一定要大型计算机,在普通的PC上也可以进行一些处理,当然,买一台或几台高性能的工作站电脑,能显著加快数据处理的速度。
继续阅读 »
05 17
序列的拼接与组装是基因组测序数据处理中一个至关重要的步骤,对于高通量测序产生的海量短序列,拼接与组装显得尤为重要。下面是19个可用于高通量测序序列拼接与组装的软件及它们的网站,这19个软件中除了SHORTY之外,都可以用于对Illunina高通量测序仪产生的序列进行de novo组装,对454测序应该也可以,SHORTY用于组装ABI SOLiD产生的序列。这些软件都需要在高性能工作站、计算机集群甚至大型计算机上运行,大部分都只有Linux版本,不能在Windows系统下运行,所采用的算法基本都是图论中的Overlap Graph和De Bruijn Graph算法。
继续阅读 »
05 12
微生物群落结构分析的有力工具、环境微生物领域卓越的研究方法、久经考验最后终于经不住考验的分子生物学的手段——DGGE,今天彻底从我们实验室退休了,一起退休的还有另一个家伙——T-RFLP。我几个月前的预言在我们实验室首先实现了。

拍个照片就装箱子了,下次出来估计就是进博物馆喽!
给DGGE时代画上一个句号,让我们一起昂首挺进高通量测序时代吧:)
05 10
目前,最新型号的Illumina Hiseq2000高通量测序仪已经达到每次运行产生600G的数据量了,据说,在1~2年内,通量还将还将继续提高,达到每次运行产生1000G数据。这数据量真是太惊人了!相比之下,454都有点算不上高通量测序了。可是对于不专门从事基因研究的实验室来说,根本用不了这么大的数据量,即使买了这种高通量测序仪,也没有足够的样品让仪器满负荷运行,因而,选择小型的高通量测序仪更适合一些,下面是两种小型高通量测序仪:
1. Illumina MiSeq
Illumina公司推出的一种小型高通量测序系统,最高通量为1Gb/Run,运行时间为27小时,最长读长150bp,详情请看这里:http://www.illumina.com/systems/miseq.ilmn
2. Ion PGM
IIon PGM是on Torrent公司(目前已被Life Technologies公司收购)开发的小型高通量测序仪,其最新型号运行一次只需2小时,产生的数据量大于1Gb,读长大于200bp。详情在这里:http://www.iontorrent.com/technology-how-does-it-perform/
医学和动物、植物学方面我不太了解,据我所知这类小型高通量测序仪非常适合用于微生物基因方面的(如环境生态学,环境工程,发酵工程等等)研究。据估计这两种高通量测序仪价格应该都在200万人民币以内(包含处理数据所需的高性能工作站电脑),对于中国大部分科研单位,这个价格完全可承受,买个一两台,小菜一碟,还没开始着手购买的单位,已经落后了。
03 27
想知道世界上哪些单位有高通量测序仪吗?剑桥大学的James Hadfield利用Google地图API制作了一个高通量测序仪分世界布图,这个地图非常直观地展示了高通量测序仪的数量及在各个国家和地区的分布情况。要是再把其中提供商业服务的单位的高通量测序报价也标上去,就更好了。
网址:http://pathogenomics.bham.ac.uk/hts/

另外,这里还有一些具体的统计数据:http://pathogenomics.bham.ac.uk/hts/stats
之前一直以为华大一下子买了150多台,中国高通量测序仪肯定挺多的,没想到,还是不到美国的三分之一。到目前为止,美国的635台高通量测序仪是分布于194个机构,而中国内地的183台仅分布于7个机构,这7个机构分别是:华大(156台),浙江大学(1台),苏州生物医药创新中心(1台),上海康成生物(1台),上海生物芯片有限公司(7台),北京贝瑞和康生物技术有限公司(2台),中科院北京基因研究所(15台)。与美国相比,分布过于集中,不是太好。
中国台湾有21台,中国香港有13台。
在这些高通量测序仪中,Illumina Genome Analyser 2x和Illumina HiSeq 2000占了大多数,而ABI SOLiD和Roche 454相对较少。
值得注意的是,俄罗斯说:”你们玩吧,哥不和你们凑这个热闹了“。俄罗斯竟然只有八台,与马来西亚拥有的数目相同。这是怎么回事呢?
03 10
目前在很多与生物相关的领域,高通量测序的应用都在急剧、爆炸式地增加,可是高通量测序数据处理对很多生物专业的人来说并不是件很容易的事情,于是就有必然会有培训班……下面是最近看到的两个高通量测序相关的培训班:
一个是由美国能源部(The U.S. Department of Energy, DOE)联合基因研究所(Joint Genome Institute, JGI)举办的Microbial Genomics & Metagenomics Workshops
地点:Walnut Creek, California
时间:5天(在2011年每隔几个月举行一次)
费用:250美元(约等于1600人民币)
网址:http://www.jgi.doe.gov/meetings/mgm/
另一个是由华大基因举办的生物信息学前沿技术专题培训班
地点:深圳
时间:5天(2011年03月28日至2011年04月1日)
费用:6800元人民币
网址:http://www.genomics.cn/edu.php?id=398