在Ubuntu中安装Circos

电脑相关1 Comment »

Circos是一个功能强大的数据和信息可视化工具,这好像是我迄今为止见到的最难安装的软件,折腾了半天才安装成功。

Ubuntu中安装,首先要按照其网站上的说明进行如下操作:
tar xvfz circos-x.xx.tgz
cd circos-x.xx
Now either change the first line in scripts in bin/* and tools/*/bin to
#!/usr/bin/env perl
or (better) make a symlink from /usr/bin/env to /bin/env
sudo su
cd /bin
ln -s /usr/bin/env env

然后还要安装下面这些Perl模块,以Config::General为例,安装方法是:
sudo perl -MCPAN -e shell
cpan> install Config::General

Carp
Config::General
Cwd
Data::Dumper
Digest::MD5
File::Basename
File::Spec::Functions
File::Temp
FindBin
Font::TTF::Font
GD
GD::Image
GD::Polyline
Getopt::Long
IO::File
List::MoreUtils
List::Util
Math::Bezier
Math::BigFloat
Math::Round
Math::VecStat
Memoize
Params::Validate
Pod::Usage
POSIX
Readonly
Regexp::Common
Set::IntSpan
Storable
Sys::Hostname
Text::Format
Time::HiRes

安装这些模块过程中,GD,GD::Image及GD::Polyline这些模块比较麻烦,总是提示安装失败。
退出cpan
cpan> q
安装libgd-gd2-noxpm-perl
sudo apt-get install libgd-gd2-noxpm-perl

然后删除~/.cpan/build这个文件夹中所有以GD开头的文件和文件夹

重新进入cpan,继续安装perl模块即可。

这玩意儿虽然比较难安装,但作出来的图的确是相当漂亮的!

BLASTN与MEGABLAST的区别

生物技术3 Comments »

BLASTN与MEGABLAST都可用于核酸序列的相互比对,区别之处是:与BLASTN相比MEGABLAST运行速度快,更灵敏,通常用于从数据库从查找非常相似的序列。二者各有各的优点:MEGABLAST很灵敏,运行速度快,只有非常相似的序列才能查找出来,而BLASTN不那么灵敏,相似度较低的序列也可以查找到,但运行速度就慢了。当然二者都可以通过调整Word Size来调整灵敏度。如何选择这两个工具以及如何选择合适的Word Size需要根据具体的数据情况进行一番纠结。

NCBI的网站上是这样说的:

MEGABLAST is the tool of choice to identify a nucleotide sequence.
The best way to identify an unknown sequence is to see if that sequence already exists in a public database. If the database sequence is a well-characterized sequence, then one will have access to a wealth of biological information. MEGABLAST, discontiguous-megablast, and blastn all can be used to accomplish this goal. However, MEGABLAST is specifically designed to efficiently find long alignments between very similar sequences and thus is the best tool to use to find the identical match to your query sequence. In addition to the expect value significance cut-off, MEGABLAST also provides an adjustable percent identity cut-off for the alignment, which provides cut-off in addition to the significance cut-off threshold set by Expect value.

NCBI的在线Blast工具核酸序列比对默认是使用的MEGABLAST (Optimize for Highly similar sequences)

BLAST+使用方法

电脑相关No Comments »

BLAST+与BLAST相比,有很多改进和提高,NCBI强烈推荐放弃BLAST,使用BLAST+, 这里说的BLAST和BLAST+,都是本地的,与之前的那个批量BLAST小程序不是一回事。BLAST下载地址:NCBI BLAST+ 。BLAST+的一般用法如下:

格式化数据库
makeblastdb -in db.fasta -dbtype prot -parse_seqids -out dbname
参数说明:
-in:待格式化的序列文件
-dbtype:数据库类型,prot或nucl
-out:数据库名

蛋白序列比对蛋白数据库(blastp)
blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10 -num_threads 8
参数说明:
-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-outfmt:输出文件格式,总共有12种格式,6是tabular格式对应BLAST的m8格式
-evalue:设置输出结果的e-value值
-num_descriptions:tabular格式输出结果的条数
-num_threads:线程数

核酸序列比对核酸数据库(blastn)以及核酸序列比对蛋白数据库(blastx)
与上面的blastp用法类似:
blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10 -num_threads 8
blastx -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10 -num_threads 8

以上的参数说明只是一些常用的参数,完整的参数说明可以用-help查询。

一些高通量测序数据处理软件

生物技术8 Comments »

下面是几个被广泛使用的高通量测序数据分析软件,主要是针对微生物的,并且主要用于分析16S rDNA PCR产物或宏基因组(Metagenome)高通量测序数据,了解样品中细菌或古菌等微生物的种群及功能的多样性和丰度。

1. Mothur

网站:http://www.mothur.org/

第一次见到这个软件的时候,就被它的架构深深折服了,设计的实在是太好了!包含了各种各样常用的序列处理功能,并且功能随着开发的进行,很多新的功能和模块不断被整合进去。在Linux、Windows和Mac系统下都可以安装,使用起来非常简,网站上的使用说明也非常清晰、条理,稍微看一下,几个小时甚至更短时间就可以学会。
在Ubuntu中通过源代码编译安装Mothur的方法

2. MEGAN

网站:http://ab.inf.uni-tuebingen.de/software/megan/

注意是MEGAN,不是MEGA。这个软件设计的也非常好,它主要是使用LCA算法,分析BLAST结果。除了进行物种的丰度和多样性分析,也可以进行功能基因的多样性和丰度分析。用Java写的,各种平台都可以运行。

3. Qiime

网站:http://qiime.sourceforge.net/

这是一个专门用于分析微生物PCR产物高通量测序数据的pipeline,主要用Python写的,也整合了很多其它的工具包。这个软件的特点是生成的图挺漂亮的,但是使用起来不是非常容易,甚至对于很多人来说成功在电脑上安装都是非常困难的。只支持Linux和Mac系统,在Windows下使用必须在虚拟机中安装。最简单的安装方法是在亚马逊的云计算平台EC2 image中安装使用。

4. STAMP

网站:http://kiwi.cs.dal.ca/Software/STAMP

这个软件主要用于分析宏基因组(Metagenome)高通量测序数据,对多个样品的Metagenomic profiles进行统计分析和比较。各种系统下都可以安装使用。

在Ubuntu中安装Mothur

电脑相关No Comments »

Mothur是一个架构非常好的生物信息学软件,把大量的工具和模块整合到了一起,并且将输入和输出标准化,非常简单易学。在高通量测序数据处理中特别有用。Mothur可以在Mac、Windows和Linux中运行,在Ubuntu系统中通过源代码编译的方式安装过程如下:

1. 安装GCC

sudo apt-get install build-essential

2. 安装readline库

sudo apt-get install libreadline-dev

3. 编辑Makefile文件

将TARGET_ARCH 这一行注释掉,去掉 CXXFLAGS 这一行的注释; 另外根据机器配置选择是否64位版本,64BIT_VERSION ?= yes 。具体参考这里的说明

4. 进入源代码所在文件夹,编译

make

编译需要很长一段时间,编译结束后将生成的mothur这个可执行文件所在的目录加入环境变量中,或者将mothur这个文件复制到已经在环境变量中的目录中即可。

模拟DGGE图像的软件

电脑相关6 Comments »

这是我去年春节假期的时候写的一个小软件,用于把高通量测序的结果以DGGE的形式展示出来。

DGGE虽然有无数的缺点,以至于正在被淘汰,但是它的结果展现形式非常直观,我决定把这种直观的方式移植到高通量测序领域来,于是就有了这个小软件。实际上这种图不仅仅可以用于高通量测序,一切与多样性和丰度有关的数据都可以用这种方式来表示。

生成的图像效果如下:

继续阅读 »

Win7和Ubuntu双系统问题

电脑相关2 Comments »

刚说过安装使用Linux是件很简单的事情,结果前段时间在给实验室新买的工作站安装Ubuntu的时候就遇到问题了。

问题如下:
在Windows下用wubi方式安装,很容易,但是给Ubuntu分配的硬盘空间太小,最大只有几十G,我希望给Ubuntu多分配一些空间(比如500G),于是就用光盘安装,结果问题就来了,安装结束之后不显示启动菜单,一下子就进入Windows,根本无法进入Ubuntu。

解决方法:
安装EasyBCD这个软件,然后点击Add New Entry,添加一个Linux Entry即可,Type选择GRUB2.

19个高通量测序序列拼接组装软件

生物技术4 Comments »

序列的拼接与组装是基因组测序数据处理中一个至关重要的步骤,对于高通量测序产生的海量短序列,拼接与组装显得尤为重要。下面是19个可用于高通量测序序列拼接与组装的软件及它们的网站,这19个软件中除了SHORTY之外,都可以用于对Illunina高通量测序仪产生的序列进行de novo组装,对454测序应该也可以,SHORTY用于组装ABI SOLiD产生的序列。这些软件都需要在高性能工作站、计算机集群甚至大型计算机上运行,大部分都只有Linux版本,不能在Windows系统下运行,所采用的算法基本都是图论中的Overlap Graph和De Bruijn Graph算法。
继续阅读 »

安装使用Linux是件很简单的事情

电脑相关6 Comments »

使用Liunx有什么好处?以Ubuntu版本为例,Liunx系统至少有以下这些优点:

1. 免费,完全免费;
2. 开机速度快,上网速度也很快;
3. 中毒的可能性比用Windows少很多很多;
4. 适合进行大数据量的科学计算,比如高通量测序数据处理。

安装Ubuntu Linux系统有多种方法:用光盘安装,虚拟机安装,U盘安装,在Windows下直接安装等等,其中最后一种方式非常简单,比较适合初学者,就像安装普通软件一样简单:从下面这个链接下载一个安装软件wubi.exe,然后双击,填上密码,点击安装即可。

http://www.ubuntu.com/desktop/get-ubuntu/windows-installer

安装后重启,就会发现有两个系统了,用上下箭头选择”Ubuntu”就进入了Ubuntu系统。

如果Windows系统中安装了卡巴斯基,可能需要先关掉,再安装Ubuntu。

我在笔记本上安装了Ubuntu,用了一段时间后,发现几乎完全可以满足普通的办公和上网需求。如果开个公司的话,我觉得可以考虑让公司的办公电脑都用Linux系统,这样既可以节省成本,又可以减少中毒的可能,还没有版权等烦恼。

高通量测序

生物技术4 Comments »

高通量测序(High Throughput Sequencing)又称下一代测序(Next Generation Sequencing),也叫做深度测序(Deep Sequencing),最早由454公司开创,标志性事件是,2005年底454公司推出了革命性的基于焦磷酸测序(Pyrosequencing)的高通量基因组测序系统Genome Sequencer 20 System,后来454公司被Roche以1.55亿美元收购。高通量测序一般一次可以读取上百万甚至几百万条序列,数据量非常大。这种测序的用途很多,随便搜一下就可以找到很多相关资料,前面写的454测序也介绍了一点。个人觉得它的突出优点就是快速取得海量数据,可以摆脱存在Bias的PCR,既可以定性又可以定量。如果价格能够降低一些(现在运行一次要几万到十几万RMB,有点贵!),应该可以替代甚至淘汰很多操作麻烦的分子生物学方法。

高通量测序仪主要有来自三家公司:罗氏公司(Roche)的454测序仪(Roch GS FLX, FLX Titanium), Illumina公司的Illumina Genome Analyzer,HiSeq 2000和ABI的SOLiD测序仪(SOLiD system).

在网上看到华大基因仅Illumina HiSeq 2000和AB SOLiD 4.0 System这两种高通量测序仪到年底就会有超过150台,真多啊!

由于高通量测序的数据量非常大,后续分析工作就比较复杂,目前好像还没有非常成熟的软件能够完美处理高通量测序的结果。下面是两个用于高通量测序结果分析的工具:

1.RDP Pyrosequencing Pipeline (一个在线平台)
2.微软的Sequence Assembler (一个软件)

如果没做过高通量测序,而想先看看结果是什么样子的,可以从下面的页面下载高通量测序示例结果,包括Roche/454,Illumina/Solexa,ABI/SOLiD三种机型的数据:
http://www.clcbio.com/index.php?id=1290