06 11
EC2是亚马逊(Amazon.com)提供的弹性云计算服务;
Apache是一个跨平台的Web服务器端软件,可以使Python、PHP、Perl等语言编写的程序运行在服务器上;
Django是一个Web程序框架,应用这个框架,可以使Python Web程序的编写变得更加简单;
Amazon S3是亚马逊提供的云存储服务;
Amazon EC2与Amazon S3结合, 几乎可以提供无限的存储空间和无限的计算能力。
以上这些东西综合在一起,就可以用简单易用的Python做出一个提供海量数据处理功能的网站,感觉这玩意儿应该在高通量测序数据数据处理方面有点用。
下面是在亚马逊EC2上部署Apache和Django的步骤:
继续阅读 »
06 06
中国有很多不对劲,其中一个不对劲就是底层科研人员待遇太低,注意这里说的是底层,主要包括讲师、助研、博士生、硕士生等等。
多么低呢?下面是我了解到的一些大体情况:
我一个大学同学,现在在江苏某211大学工作,讲师,享受副教授待遇,一个月拿到手的工资4000多点。很多不享受副教授待遇的讲师,工资大概就是3000~4000左右。
大部分博士生一个月的工资不到2000元或2000元左右,也有稍高一点的,我一个高中同学在中科院北京某研究所一个月2800元,据说清华北大博士生可能是3000~4000每月吧,能达到这个数目的学校极少。
硕士生就更低了,很多学校只有几百块钱。2005年至2008年我在南大读硕士的时候,每个月工资508元,有一次去外面做实验,遇到一个和我同样专业的东南大学的同学,他们一个月50元,当时我心里高兴了好几天……
这些人中很多每天从事繁重的实验劳动,甚至接触有毒有害的化学生物试剂。而获得的收入,在目前的中国,很难过上体面的生活。
这些人工作在科研的最前沿,很多重要的数据都出自他们之手,他们生活的不体面,怎么能全身心投入科研,怎么能保证得到可靠的数据呢?从很多方面看,我们国家其实一点也不缺钱,可是在这方面不舍得花,逼得很多优秀的年轻人去了国外搞科研,去了外企工作。留下的人天天琢磨怎么搞钱,哪有心思搞科研啊?领导们总是强调科研多么多么重要,投入多少多少亿,可是这些底层科研人员却穷的嗷嗷叫。想想这些,就一点也不难理解为什么中国在大部分自然科学领域都没有自己的核心技术了。这样下去,现在没有,将来很长一段时间也难有。李开复老师说了中国100年内都不会有大发明出现,他的理由是中国教育体制有问题,我看中国的科研体制问题也不小。
正在和我一样心里美滋滋读着硕士、博士,感觉自己前途无限好的的同学要醒醒了,毕业之后如果进了高校,等待着我们的就是一个月干巴巴的几千块钱。不进高校干什么呢?其实还是有很多可干的,早点想想吧。
05 28
2011.7.29更新:现在想想,下面这些以前的观点不是完全正确,处理PCR产物高通量测序的数据,用PC勉强可以,但是处理宏基因组数据(一般数据量都是1G以上),最起码得用工作站电脑,最好能用大型机。
—————-
众所周知,数据分析是高通量测序应用于生物研究最关键的步骤,分析不好,得到的海量数据无异于一堆垃圾。下面是刚刚接触高通量测序数据分析的同学可能比较关心的几个问题。需要说明的是:这些都是基于微生物领域且数据量不是特别大的情况。其它领域(植物、动物、医学等等)的高通量测序数据处理我暂时还不太了解。
1. 是不是一定要用大型计算机?
除了序列拼接组装以外,其它分析不是一定要大型计算机,在普通的PC上也可以进行一些处理,当然,买一台或几台高性能的工作站电脑,能显著加快数据处理的速度。
继续阅读 »
05 24
港大的体育馆早上人真是少!
这么大一个羽毛球场,早上有时候竟然一个人都没有,不仅可以打球,打滚儿都没问题!

这么大一个游泳池,下午的时候,一条泳道挤四个人,早上的时候,一个人占四条泳道!

这样:
7:30-8:00 打羽毛球
8:00-8:30 游泳
8:30-9:00 休息一下,吃点水果
9:00-9:30 吃早饭
多么好!
05 23
1. 某同学在系里的计算机房打游戏,系主任(该系主任刚从别的单位调来工作)路过机房门口,正好看到了。于是进去拍了拍这位同学的肩膀说:“同学,你知不知道学校机房是不能打游戏的?!”这位同学回头打量了一下这位瘦瘦的小老头,来了一句:“你知不知道学校机房外人是不能随便进的?!”
2. 某同学在系里的计算机房打游戏,系主任进来了,厉声喝道:“不许在机房打游戏!快删掉!”,这位同学立马退出了游戏,敏捷地把桌面上该游戏的快捷方式拖到了回收站里面。系主任笑嘻嘻的用一种略微带着蔑视的口气说到:“呵呵,你以为我不知道放进回收站的文件是可以恢复的啊??快给我把回收站清空了!”这位同学赶紧清空了回收站,然后,系主任得意得走了……
05 17
序列的拼接与组装是基因组测序数据处理中一个至关重要的步骤,对于高通量测序产生的海量短序列,拼接与组装显得尤为重要。下面是19个可用于高通量测序序列拼接与组装的软件及它们的网站,这19个软件中除了SHORTY之外,都可以用于对Illunina高通量测序仪产生的序列进行de novo组装,对454测序应该也可以,SHORTY用于组装ABI SOLiD产生的序列。这些软件都需要在高性能工作站、计算机集群甚至大型计算机上运行,大部分都只有Linux版本,不能在Windows系统下运行,所采用的算法基本都是图论中的Overlap Graph和De Bruijn Graph算法。
继续阅读 »
05 12
微生物群落结构分析的有力工具、环境微生物领域卓越的研究方法、久经考验最后终于经不住考验的分子生物学的手段——DGGE,今天彻底从我们实验室退休了,一起退休的还有另一个家伙——T-RFLP。我几个月前的预言在我们实验室首先实现了。

拍个照片就装箱子了,下次出来估计就是进博物馆喽!
给DGGE时代画上一个句号,让我们一起昂首挺进高通量测序时代吧:)
05 10
目前,最新型号的Illumina Hiseq2000高通量测序仪已经达到每次运行产生600G的数据量了,据说,在1~2年内,通量还将还将继续提高,达到每次运行产生1000G数据。这数据量真是太惊人了!相比之下,454都有点算不上高通量测序了。可是对于不专门从事基因研究的实验室来说,根本用不了这么大的数据量,即使买了这种高通量测序仪,也没有足够的样品让仪器满负荷运行,因而,选择小型的高通量测序仪更适合一些,下面是两种小型高通量测序仪:
1. Illumina MiSeq
Illumina公司推出的一种小型高通量测序系统,最高通量为1Gb/Run,运行时间为27小时,最长读长150bp,详情请看这里:http://www.illumina.com/systems/miseq.ilmn
2. Ion PGM
IIon PGM是on Torrent公司(目前已被Life Technologies公司收购)开发的小型高通量测序仪,其最新型号运行一次只需2小时,产生的数据量大于1Gb,读长大于200bp。详情在这里:http://www.iontorrent.com/technology-how-does-it-perform/
医学和动物、植物学方面我不太了解,据我所知这类小型高通量测序仪非常适合用于微生物基因方面的(如环境生态学,环境工程,发酵工程等等)研究。据估计这两种高通量测序仪价格应该都在200万人民币以内(包含处理数据所需的高性能工作站电脑),对于中国大部分科研单位,这个价格完全可承受,买个一两台,小菜一碟,还没开始着手购买的单位,已经落后了。
04 24
刚发现前几天去厦门的时候,被评为了“心灵手巧的一位能人”……

http://www.yuxinlab.com/