高通量测序与云计算

生物技术No Comments »

高通量测序(下一代测序)最大的特点就是产生海量的数据,454测序运行一次可以产生400M左右的数据,Illumina HiSeq运行一次产生的数据量高达200G!这么多数据出来以后,必然需要大量的计算,而随着高通量测序在各个领域的广泛应用,个人计算机和工作站显然将无法完成这种数据处理工作。一些大公司或高校可以用他们自己的超级计算机进行计算,如华大拥有数个大型生物信息学超级计算中心,港大有HPC。那一些小的公司和科研单位怎么办呢?

云计算是个非常合适的选择。云计算(Cloud computing)是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。整个运行方式很像电网(摘自维基百科)。简单地说就是可以通过互联网,把数据放到“云”中进行计算。目前Google、亚马逊(Amazon)和微软都在开发并提供云计算服务,比较适合进行高通量测序数据处理的应该是亚马逊的AWS

今天简单了解了一下亚马逊提供的云计算,觉得挺不错的,灵活且价格便宜:

(1) 进行计算的时候才收费,不用的时候不收费;
(2) 操作系统可以自由选择Windows和Linux,而港大的HPC只有Linux可用……
(3) 价格非常便宜,以EC2为例,标准情况下,1个Instance(大致相当于一台普通电脑的计算能力吧)使用1小时只要0.085美元。这样,租20台电脑运行1天(24小时),才40美元多一点,大致相当于260RMB,简直是太便宜了。

事实上,已经有很多人在用云计算在进行高通量测序数据处理了。请看:这里

一个生物领域的新技术,一个计算机领域的新技术,这么一碰,火花就产生了。有点可惜的是,在这两个领域,中国都没有掌握核心技术,远远落后,需要加油!

微软也有生物信息学软件啊

生物技术9 Comments »

今天才知道不知什么时候微软也发布了一些生物学和生物信息学软件,开始进军生物领域了。挺喜欢凑热闹的嘛!微软的这个项目叫做Microsoft Biology Initiative (MBI),FBI的兄弟?它包括个两部分:Microsoft Biology Foundation (MBF) 和 Microsoft Biology Tools (MBT)。

MBF是一套基于Microsoft .NET框架的生物信息学软件包,开始主要面向基因组学,现在扩展到了更多的生物信息学领域;

MBT是一系列帮助生物科学工作者提高工作效率的工具,包括一个Excel插件(Biology Extension for Excel,必须在Excel2007或2010上安装,不支持2003)和一个序列拼接软件(Sequence Assembler),这个Sequence Assembler好像可以用于454测序的结果分析。

这些软件都是开源的,与微软向来闭源的风格不太一样。

该项目的网址:http://research.microsoft.com/en-us/projects/bio/

可惜最近太忙了,没时间研究这玩意儿,有时间的同学可以试试好不好玩。

免费的文件备份/同步/共享工具

互联网络No Comments »

有一个叫做dropbox的玩意儿,试用了一下感觉非常不错,它是一个免费的文件备份、同步、共享工具,也可以看看成是一个免费的网盘。主要功能就是能使多台电脑中的某个文件夹始终保持一致,也就是说将dropbox软件安装在多台电脑中之后,会在每台电脑中建立一个文件名为My Dropbox的文件夹,如果在其中一台电脑的这个文件夹中存放了一些文件,那么这些文件会被自动同步到其它电脑,速度超快,我用一个700多兆的文件测试了一下,瞬间完成。点击这里可以注册dropbox帐号,dropbox空间大小是2G,邀请别人注册可以增大空间,最大5G。

另外,微软也有一个类似的网站:Live mesh,空间大小5G,同步功能也很强大,但个人感觉不如dropbox简单好用。

打开Excel文件提示需要安装

电脑相关14 Comments »

今天突然不能用Excel了,干着急就是打不开Excel文件,双击每个Excel文件时都提示需要安装,跳出一个对话框上面写着:”Preparing to install …”,令我非常纳闷,电脑里的Office软件是系里给装的正版的Microsoft Office Professional Edition 2003, 而且我也没有删除系统文件,怎么会出现这样的问题呢?

Google了一下,在一个国外网站找到了解决方法:在C:\Program Files\Microsoft Office\ OFFICE11目录下建一个空文件夹,命名为XLStart,就Ok了,就这么简单。不懂这是为什么,懂得同学请告诉我一下:)