阅读:8217回复:0
精准医学平台-生物信息与服务器的重要性-1自从人类基因组计划完成以来,对于遗传物质的解读工作随之展开。基因测序技术的飞速发展使获得大量样本序列成为可能,计算机技术和统计学方法为分析滚滚而来的数据提供了有效的工具,于是很快产生了生物信息学这门应运而生的交叉学科。近年来从事生物信息研究的科学家越来越多,各种各样的计算机软件为了不同的分析目的开发出来。 生物信息学不仅仅是一门科学学科,它更是一种重要的研究开发工具。从科学的角度来讲,它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。 从工具的角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需的舵手和动力机,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。 可见生物信息学在今后的无论是生物(医药)科研还是开发中都具有广泛而关键的应用价值;而且,由于生物信息学是生物科学与计算科学、物理学、化学和计算机网络技术等密切结合的交叉性学科,使其具有非常强的专业性,这就使得专业的生物(医药)科研或开发机构自身难以胜任它们所必需的生物信息学业务,残酷的市场竞争及其所带来的市场高度专业化分工的趋势,使得专业的生物(医药)开发机构不可能在自身内部解决对生物信息学服务的迫切需求,学术界内的生物(医药)科研机构也是如此,而这种需求,仅靠那些高度分支化和学术化的分散的生物信息学科研机构是远远不能满足的。可见,在生命科学的新世纪,生物信息学综合服务将是一个非常重要的也是一个极具挑战性的领域。 我们所寻求的强有力的数据处理分析工具就成为未来生物科学的关键所在,伴随着生物科学这一需求的加剧,以数据处理分析为本质的计算机科学技术和网络技术同样获得了突飞猛进的进展,自然就成为生物科学家的必然选择,计算机科学技术和网络技术日益渗透到生物科学的方方面面,一门崭新的、正是如火如荼的、拥有巨大发展潜力的生物信息学也就悄然而坚定地发展和成熟起来了。可以说,历史必然性的选择了生物信息学——生物科学与计算科学的融合体——作为下一代生物科学研究的重要工具。 随着生物高通量测序技术的不断进步,基因组数据爆炸式增长给基因数据处理带来了巨大的挑战。在目前的基因测序技术告诉发展的时代,生物信息处理需要应对大量的数据分析要求。无论从深度、广度还是时间等不同的纬度不断涌现出来的大量数据带来了超大规模生物数据分析的需求,对于计算能力以及用于生物数据分析的算法也提出了越来越高的要求。面对如此大规模的基因组数据,高性能计算机群将成为生物信息处理领域的首选。 计算机的集群的高效运行面临着相当多的技术难题,包括客观理性、集群的监控、调度策略的选择、资源的合理分配。而单个的服务器简单串连在一起则存在着效率底下的问题,主要是由于不能进行合理的资源的分配和任务调度,也不能在各个独立服务器上共享数据文件和数据结果。 集群管理系统的主要任务是对庞大的集群进行高效的控制,具备增删节点、监控系统运行情况以及发现并处理故障的能力。为用户提供一个具备高效率、高可用性和高扩展性的系统。集群管理系统的优势主要集中在以下几个方面: (1)实现系统的单一映像,即将资源整合成为一个统一的强大资源,给用户感觉就是一个单一的强大计算机。(2)节点管理与监控。即具备良好的扩展性,能够支持节点的增加、减少以及具备良好的应对突发事件的能力。(3)调度的决策。即如何根据实际情况对用户提交的任务进行资源的分配,达到集群高效运行的目的。 我们使用的集群管理软件是基于Rocks系统开发的,能够有效的进行集群管理。调度系统使用Sge调度系统。Sge全称为Sun Grid Engine,是SUN公司研发的自由软件和开放源代码的计算机集群管理软件。该系统可以通过对集群环境中的工作负载进行有效管理,实现对共享资源使用的控制,从而完成用户设定的执行任务。另一方面,该系统也能够对策略进行管理,使得资源利用率和系统吞吐率达到最大化的同时还可以支持任务执行要求,例如满足作业指定的截至期限、作业的优先级、用户按比例共享资源等。 我们提供硬件配置咨询和采购,集群搭建安装,集群管理和维护等一系列服务。集群的基本拓扑结构如下图所示: 以下是我们目前用于生物信息学常见的机器型号配置和基本性能,可以根据客户的样本量和数据处理类型进行一个最高性价比的搭配选择。 以下是常见配置信息以及相关性能评估
|
||||||||||||||||||||||||||||||||||||||||||||||