MSU的高通量测序数据分析教程

生物技术No Comments »

现在老多老多人想学高通量测序数据分析了,找不到地方学的话,去下面这个网站学就可以了,里包含了老多老多详细的教程:

ANGUS: http://ged.msu.edu/angus/

这个网站是密歇根州立大学(MSU)的人做的,内容非常清楚,非常详细,非常条理,一学就会。

高通量测序相关资料汇总

生物技术No Comments »

高通量测序又称下一代测序或第二代测序,能够快速、低成本获取大量的DNA序列,从而便于从基因的角度进行相关研究。目前主流的平台有454,Illumina,PacBio,Ion Torrent等等。之前陆陆续续写了一些关于高通量测序方面的东西,现在汇总一下(仅供参考,无法保证内容完全正确):

1 关于454测序
2 高通量测序
3 高通量测序的应用
4 高通量测序与云计算
5 高通量测序价格
6 两个高通量测序方面的培训班
7 高通量测序仪世界分布图
8 两种小型高通量测序仪
9 19个高通量测序序列拼接组装软件
10 高通量测序数据分析
11 各种高通量测序仪比较
12 低价高通量测序服务
13 模拟DGGE图像的软件
14 一些高通量测序数据处理软件
15 一些高通量测序数据分析平台
16 生物信息云计算模式

马上到了一年一度的中国国家自然科学基金项目申报时间,与生物(无论动物、植物还是微生物)相关的项目,今年肯定有很多人申请书都提到了高通量测序技术,高通量测序,下一代测序,深度测序,454测序,Illumina测序,拼接组装,物种注释,基因注释等等这些词吧?

超大内存工作站价格

电脑相关3 Comments »

这里所说的超大内存是指512GB以上,1TB甚至是2TB(注意是内存大小不是硬盘大小),目前内存100GB以下的工作站现在已经很便宜了,大约30K-40K港币(5K美元)左右就可以买到,而超大内存的机子却非常贵,在这篇文章中(blogspot上的文章,需翻墙),作者认为计算机的Memory比CPU对于下一代测序(高通量测序)数据分析更为重要,并且解释了为什么用计算机集群很难代替超大内存的计算机用于高通量测序数据分析。

上面这篇文章中提到的512G内存的机器,价格是55K美元。
Dell的PowerEdge R910机架式服务器,1TB内存,价格大约为50K-100K美元,2TB内存,超过200K美元。

生物信息云计算模式

互联网络No Comments »

虽然现在有很多高通量测序数据处理软件,也有很多高通量测序数据分析平台,但是这两种方式都存在着弊端,前者需要用户自己拥有高性能计算机,对于只是偶尔进行高通量测序的用户来说,购买高性能计算机实在是不太合算;后者一方面不够灵活,另一方面随着数据量的增大,用户的增多,不知是否能长久的提高快速、稳定的服务。云计算可以比较好的解决这些问题。

下面两个网站展示了生物信息的云计算模式,原理非常简单:程序开发人员开发了数据处理所需要的相关程序,当用户需要处理数据时,启动亚马逊(Amazon)的云计算服务器(AWS),根据使用的计算量付费。数据处理结束,就停止计费,非常灵活。

1. BioCloudCentral

https://biocloudcentral.herokuapp.com/

2. n3phele

http://www.n3phele.com/

注意:这两个网站及其提供的程序都是免费的,但是使用过程中需要向亚马逊支付计算所需费用。

一些高通量测序数据分析平台

生物技术No Comments »

高通量测序数据处理经常需要很大的计算量,虽然有很多的软件可以用,但是对于一般的用户往往没有足够强大的计算机来运行这些软件,于是就有了很多在线数据分析平台,只要把序列上传上去,就可以完成数据分析。下面这些网站是一些比较好用的高通量测序数据分析平台:

1. RDP Pyrosequencing Pipeline

http://rdp.cme.msu.edu/

用于分析细菌和古菌16S rDNA高通量测序数据

2. MG-RAST

http://metagenomics.anl.gov

用于分析宏基因组高通量测序数据,进行物种注释和功能注释,暂时没有序列组装功能,可以上传非常大的数据文件。

3. CAMERA 2

https://camera.calit2.net/

用于分析宏基因组高通量测序数据(metagenomics data),目前似乎不能上传超过1个G的数据,主要用于分析454的宏基因组数据,可以进行序列组装。

4. img/m

http://img.jgi.doe.gov/m

这是美国能源部联合基因研究所(DOE JGI)开发的一套系统,从metagenome角度分析微生物群落的功能。系统做的非常细致,并且有workshop介绍如何使用。

使用这些平台的好处很明显:傻瓜式操作,几乎不用学就会。
坏处也很明显:不灵活,必须按照系统设定的一些模式进行分析,另外,这些系统随时都可能发生故障,一旦发生故障,数据分析就无法进行了。

这些系统一般都需要使用大型计算机或计算机集群,每天都进行超大规模的数据运算,需要投入的人力物力非常大,虽然开发这些系统的单位都有着充足的经费,但我还是有点担心,随着高通量测序技术的发展,海量数据的不断产生,这些系统是否能一直挺的住,并且持续免费提供这样的服务?

一些高通量测序数据处理软件

生物技术8 Comments »

下面是几个被广泛使用的高通量测序数据分析软件,主要是针对微生物的,并且主要用于分析16S rDNA PCR产物或宏基因组(Metagenome)高通量测序数据,了解样品中细菌或古菌等微生物的种群及功能的多样性和丰度。

1. Mothur

网站:http://www.mothur.org/

第一次见到这个软件的时候,就被它的架构深深折服了,设计的实在是太好了!包含了各种各样常用的序列处理功能,并且功能随着开发的进行,很多新的功能和模块不断被整合进去。在Linux、Windows和Mac系统下都可以安装,使用起来非常简,网站上的使用说明也非常清晰、条理,稍微看一下,几个小时甚至更短时间就可以学会。
在Ubuntu中通过源代码编译安装Mothur的方法

2. MEGAN

网站:http://ab.inf.uni-tuebingen.de/software/megan/

注意是MEGAN,不是MEGA。这个软件设计的也非常好,它主要是使用LCA算法,分析BLAST结果。除了进行物种的丰度和多样性分析,也可以进行功能基因的多样性和丰度分析。用Java写的,各种平台都可以运行。

3. Qiime

网站:http://qiime.sourceforge.net/

这是一个专门用于分析微生物PCR产物高通量测序数据的pipeline,主要用Python写的,也整合了很多其它的工具包。这个软件的特点是生成的图挺漂亮的,但是使用起来不是非常容易,甚至对于很多人来说成功在电脑上安装都是非常困难的。只支持Linux和Mac系统,在Windows下使用必须在虚拟机中安装。最简单的安装方法是在亚马逊的云计算平台EC2 image中安装使用。

4. STAMP

网站:http://kiwi.cs.dal.ca/Software/STAMP

这个软件主要用于分析宏基因组(Metagenome)高通量测序数据,对多个样品的Metagenomic profiles进行统计分析和比较。各种系统下都可以安装使用。

在Ubuntu中安装Mothur

电脑相关No Comments »

Mothur是一个架构非常好的生物信息学软件,把大量的工具和模块整合到了一起,并且将输入和输出标准化,非常简单易学。在高通量测序数据处理中特别有用。Mothur可以在Mac、Windows和Linux中运行,在Ubuntu系统中通过源代码编译的方式安装过程如下:

1. 安装GCC

sudo apt-get install build-essential

2. 安装readline库

sudo apt-get install libreadline-dev

3. 编辑Makefile文件

将TARGET_ARCH 这一行注释掉,去掉 CXXFLAGS 这一行的注释; 另外根据机器配置选择是否64位版本,64BIT_VERSION ?= yes 。具体参考这里的说明

4. 进入源代码所在文件夹,编译

make

编译需要很长一段时间,编译结束后将生成的mothur这个可执行文件所在的目录加入环境变量中,或者将mothur这个文件复制到已经在环境变量中的目录中即可。

Google涉足DNA数据库领域

互联网络2 Comments »

随着高通量测序的发展,海量的数据源源不断的产生,以至于美国国家生物技术信息中心(NCBI)都受不了了,由于经费不足,于2011年2月关闭了Sequence Read Archive(SRA)数据库,停止接受用户提交的下一代测序数据。

报道,近日,Google和TPG Biotech联合投资1500万美元致力于打造DNA云数据库,Google将和DNAnexus一起接管NCBI的海量数据库,继续为科研人员提供免费的DNA数据信息。

把云存储、云计算和DNA数据库结合起来,这是一个有着无限前景的领域,相信Google强大的技术一定能在这个领域有所作为。

模拟DGGE图像的软件

电脑相关6 Comments »

这是我去年春节假期的时候写的一个小软件,用于把高通量测序的结果以DGGE的形式展示出来。

DGGE虽然有无数的缺点,以至于正在被淘汰,但是它的结果展现形式非常直观,我决定把这种直观的方式移植到高通量测序领域来,于是就有了这个小软件。实际上这种图不仅仅可以用于高通量测序,一切与多样性和丰度有关的数据都可以用这种方式来表示。

生成的图像效果如下:

继续阅读 »

低价高通量测序服务

生物技术6 Comments »

凡是机器能做的事情,都会由开始的超高价逐渐走向白菜价,这是必然的规律,高通量测序也是一样。

最近发现美国一些机构提供的Illumina高通量测序报价特别便宜,HiSeq2000 101 Cycle Paired End Sequencing每个lane的价格不到3000美元,每次运行一个lane可以产生30-37.5G有效数据,平均每G数据价格不到100美元,相当便宜。

下面是链接(大部分都是由Bobby同学提供的):

1. Pricing for Illumina HiSeq 2000

2. http://www.biotech.uiuc.edu/centers/Keck/Highthroughput/pricing.htm

3. http://www.biotech.wisc.edu/facilities/dnaseq/sequencing/Illumina

4. http://openwetware.org/wiki/BioMicroCenter:Pricing

特别声明一下:这里只是提供一些信息供大家参考,他们的高通量测序服务与本人没有任何关系!请自行比较、慎重选择。

如果你们知道哪个机构的高通量测序价格比上面这个价格更便宜,欢迎在下面留言或给我发Email(Email地址在这里)。

另外,也非常欢迎提供其它高通量测序平台(包括但不限于454,Illumina、Ion Torrent等等)的测序价格信息,如有新的信息,我会及时更新这篇文章。