一些高通量测序数据处理软件

生物技术8 Comments »

下面是几个被广泛使用的高通量测序数据分析软件,主要是针对微生物的,并且主要用于分析16S rDNA PCR产物或宏基因组(Metagenome)高通量测序数据,了解样品中细菌或古菌等微生物的种群及功能的多样性和丰度。

1. Mothur

网站:http://www.mothur.org/

第一次见到这个软件的时候,就被它的架构深深折服了,设计的实在是太好了!包含了各种各样常用的序列处理功能,并且功能随着开发的进行,很多新的功能和模块不断被整合进去。在Linux、Windows和Mac系统下都可以安装,使用起来非常简,网站上的使用说明也非常清晰、条理,稍微看一下,几个小时甚至更短时间就可以学会。
在Ubuntu中通过源代码编译安装Mothur的方法

2. MEGAN

网站:http://ab.inf.uni-tuebingen.de/software/megan/

注意是MEGAN,不是MEGA。这个软件设计的也非常好,它主要是使用LCA算法,分析BLAST结果。除了进行物种的丰度和多样性分析,也可以进行功能基因的多样性和丰度分析。用Java写的,各种平台都可以运行。

3. Qiime

网站:http://qiime.sourceforge.net/

这是一个专门用于分析微生物PCR产物高通量测序数据的pipeline,主要用Python写的,也整合了很多其它的工具包。这个软件的特点是生成的图挺漂亮的,但是使用起来不是非常容易,甚至对于很多人来说成功在电脑上安装都是非常困难的。只支持Linux和Mac系统,在Windows下使用必须在虚拟机中安装。最简单的安装方法是在亚马逊的云计算平台EC2 image中安装使用。

4. STAMP

网站:http://kiwi.cs.dal.ca/Software/STAMP

这个软件主要用于分析宏基因组(Metagenome)高通量测序数据,对多个样品的Metagenomic profiles进行统计分析和比较。各种系统下都可以安装使用。

在Ubuntu中安装Mothur

电脑相关No Comments »

Mothur是一个架构非常好的生物信息学软件,把大量的工具和模块整合到了一起,并且将输入和输出标准化,非常简单易学。在高通量测序数据处理中特别有用。Mothur可以在Mac、Windows和Linux中运行,在Ubuntu系统中通过源代码编译的方式安装过程如下:

1. 安装GCC

sudo apt-get install build-essential

2. 安装readline库

sudo apt-get install libreadline-dev

3. 编辑Makefile文件

将TARGET_ARCH 这一行注释掉,去掉 CXXFLAGS 这一行的注释; 另外根据机器配置选择是否64位版本,64BIT_VERSION ?= yes 。具体参考这里的说明

4. 进入源代码所在文件夹,编译

make

编译需要很长一段时间,编译结束后将生成的mothur这个可执行文件所在的目录加入环境变量中,或者将mothur这个文件复制到已经在环境变量中的目录中即可。

模拟DGGE图像的软件

电脑相关6 Comments »

这是我去年春节假期的时候写的一个小软件,用于把高通量测序的结果以DGGE的形式展示出来。

DGGE虽然有无数的缺点,以至于正在被淘汰,但是它的结果展现形式非常直观,我决定把这种直观的方式移植到高通量测序领域来,于是就有了这个小软件。实际上这种图不仅仅可以用于高通量测序,一切与多样性和丰度有关的数据都可以用这种方式来表示。

生成的图像效果如下:

继续阅读 »

Win7和Ubuntu双系统问题

电脑相关2 Comments »

刚说过安装使用Linux是件很简单的事情,结果前段时间在给实验室新买的工作站安装Ubuntu的时候就遇到问题了。

问题如下:
在Windows下用wubi方式安装,很容易,但是给Ubuntu分配的硬盘空间太小,最大只有几十G,我希望给Ubuntu多分配一些空间(比如500G),于是就用光盘安装,结果问题就来了,安装结束之后不显示启动菜单,一下子就进入Windows,根本无法进入Ubuntu。

解决方法:
安装EasyBCD这个软件,然后点击Add New Entry,添加一个Linux Entry即可,Type选择GRUB2.

19个高通量测序序列拼接组装软件

生物技术4 Comments »

序列的拼接与组装是基因组测序数据处理中一个至关重要的步骤,对于高通量测序产生的海量短序列,拼接与组装显得尤为重要。下面是19个可用于高通量测序序列拼接与组装的软件及它们的网站,这19个软件中除了SHORTY之外,都可以用于对Illunina高通量测序仪产生的序列进行de novo组装,对454测序应该也可以,SHORTY用于组装ABI SOLiD产生的序列。这些软件都需要在高性能工作站、计算机集群甚至大型计算机上运行,大部分都只有Linux版本,不能在Windows系统下运行,所采用的算法基本都是图论中的Overlap Graph和De Bruijn Graph算法。
继续阅读 »

安装使用Linux是件很简单的事情

电脑相关6 Comments »

使用Liunx有什么好处?以Ubuntu版本为例,Liunx系统至少有以下这些优点:

1. 免费,完全免费;
2. 开机速度快,上网速度也很快;
3. 中毒的可能性比用Windows少很多很多;
4. 适合进行大数据量的科学计算,比如高通量测序数据处理。

安装Ubuntu Linux系统有多种方法:用光盘安装,虚拟机安装,U盘安装,在Windows下直接安装等等,其中最后一种方式非常简单,比较适合初学者,就像安装普通软件一样简单:从下面这个链接下载一个安装软件wubi.exe,然后双击,填上密码,点击安装即可。

http://www.ubuntu.com/desktop/get-ubuntu/windows-installer

安装后重启,就会发现有两个系统了,用上下箭头选择”Ubuntu”就进入了Ubuntu系统。

如果Windows系统中安装了卡巴斯基,可能需要先关掉,再安装Ubuntu。

我在笔记本上安装了Ubuntu,用了一段时间后,发现几乎完全可以满足普通的办公和上网需求。如果开个公司的话,我觉得可以考虑让公司的办公电脑都用Linux系统,这样既可以节省成本,又可以减少中毒的可能,还没有版权等烦恼。

高通量测序

生物技术4 Comments »

高通量测序(High Throughput Sequencing)又称下一代测序(Next Generation Sequencing),也叫做深度测序(Deep Sequencing),最早由454公司开创,标志性事件是,2005年底454公司推出了革命性的基于焦磷酸测序(Pyrosequencing)的高通量基因组测序系统Genome Sequencer 20 System,后来454公司被Roche以1.55亿美元收购。高通量测序一般一次可以读取上百万甚至几百万条序列,数据量非常大。这种测序的用途很多,随便搜一下就可以找到很多相关资料,前面写的454测序也介绍了一点。个人觉得它的突出优点就是快速取得海量数据,可以摆脱存在Bias的PCR,既可以定性又可以定量。如果价格能够降低一些(现在运行一次要几万到十几万RMB,有点贵!),应该可以替代甚至淘汰很多操作麻烦的分子生物学方法。

高通量测序仪主要有来自三家公司:罗氏公司(Roche)的454测序仪(Roch GS FLX, FLX Titanium), Illumina公司的Illumina Genome Analyzer,HiSeq 2000和ABI的SOLiD测序仪(SOLiD system).

在网上看到华大基因仅Illumina HiSeq 2000和AB SOLiD 4.0 System这两种高通量测序仪到年底就会有超过150台,真多啊!

由于高通量测序的数据量非常大,后续分析工作就比较复杂,目前好像还没有非常成熟的软件能够完美处理高通量测序的结果。下面是两个用于高通量测序结果分析的工具:

1.RDP Pyrosequencing Pipeline (一个在线平台)
2.微软的Sequence Assembler (一个软件)

如果没做过高通量测序,而想先看看结果是什么样子的,可以从下面的页面下载高通量测序示例结果,包括Roche/454,Illumina/Solexa,ABI/SOLiD三种机型的数据:
http://www.clcbio.com/index.php?id=1290

微软也有生物信息学软件啊

生物技术9 Comments »

今天才知道不知什么时候微软也发布了一些生物学和生物信息学软件,开始进军生物领域了。挺喜欢凑热闹的嘛!微软的这个项目叫做Microsoft Biology Initiative (MBI),FBI的兄弟?它包括个两部分:Microsoft Biology Foundation (MBF) 和 Microsoft Biology Tools (MBT)。

MBF是一套基于Microsoft .NET框架的生物信息学软件包,开始主要面向基因组学,现在扩展到了更多的生物信息学领域;

MBT是一系列帮助生物科学工作者提高工作效率的工具,包括一个Excel插件(Biology Extension for Excel,必须在Excel2007或2010上安装,不支持2003)和一个序列拼接软件(Sequence Assembler),这个Sequence Assembler好像可以用于454测序的结果分析。

这些软件都是开源的,与微软向来闭源的风格不太一样。

该项目的网址:http://research.microsoft.com/en-us/projects/bio/

可惜最近太忙了,没时间研究这玩意儿,有时间的同学可以试试好不好玩。

Chrome无法安装插件

电脑相关5 Comments »

前段时间一直用Google Chrome浏览器,速度真是快,嗖嗖的,明显比IE,Firefox快很多!从来没有用过这个浏览器的同学,强烈建议试一下!

最近不知怎么回事,所有Chrome插件(扩展)都装不上了,安装插件的时候就弹出一个对话框提示:扩展程序安装失败,Could not create directory for unzipping……

搜了一下,很多人遇到这个问题,原来这是一个没有解决的Bug,为什么这么个很明显的问题,一直不解决不了呢?真是让人纳闷……

有人说用修改环境变量的方法可以解决,我试了一下,这种方法在我的电脑上无效!

下面的手动安装方法可以暂时解决这个问题,但有点麻烦:
找到要安装的Chorme插件(扩展),在安装按钮上点击另存为,把要安装的扩展另存为文件(后缀名为.crx),将.crx改为.zip,然后用Winzip或Winrar将其解压到一个文件夹。然后打开chome的扩展安装页(在地址栏里输入chrome://extensions/),选择“开发人员模式”,点击安装正在开发中的扩展,会出现对话框选择扩展所在目录,找到刚才解压的文件夹即可,注意文件夹路径中不要有中文字符。

简单易用的单片机-Arduino

电脑相关5 Comments »

一个偶然的机会,接触到了一个叫做Arduino的东西。
Arduino距离传感器
Arduino是什么?
Arduino是意大利一个开放源代码的硬件项目,包括一块接口板和一套简单的软件开发环境。可以用于开发各种各样的自动控制和交互式的电子作品,在机器人制作领域有着广泛的应用,很多机器人项目都是基于Arduino构建的。
继续阅读 »