本报记者 潘婷
我国首台千万亿次超级计算机系统——“天河一号”近日由国防科学技术大学研制成功。在今天上午召开的中国高性能计算机TOP100组织的例行会议中,该组织公布了2009年度中国高性能计算机前100强排名,“天河一号”高居榜首。
“天河一号”有哪些特点?其研制过程中的难点在哪里?巨型计算机对于一个国家的意义何在?就这些问题,记者采访了参与“天河一号”研制的国防科学技术大学计算机系的专家。
可以存下13亿中国人每人一张照片
今天上午,在国防科学技术大学面积近千平方米的巨大机房中,记者见到了“天河一号”。
103台灰白色的计算机机柜整齐列阵,机身上的小指示灯渐次闪烁。机房中,每台机位的上下两个抽屉式电风扇让机房中充斥着阵阵凉风。
在紧张工作的“天河一号”旁边,“天河一号”工程办公室主任李楠向记者介绍了“天河一号”的特点。
李主任告诉记者,“天河一号”的第一个特点是性能高。高性能首先表现为高运算速度。“‘天河一号’24小时的工作量,如果用现在最先进的双核高性能个人PC机来操作,需要整整160年才能完成。”另外,高性能也体现在其存储量巨大,“天河一号”的存储量可以达到1PB。“如果给全中国13亿人每人拍一张高清晰度的数码照片,在‘天河一号’里可以全部存下来。”
另外,“天河一号”具有高效能。“其效能的高低,通俗来说就是是否省电,也就是单位计算性能需要消耗多少资源。参照国际上关于高性能计算机效能 GR EEN 500组织在2009年6月公布的排名中,‘天河一号’排名第五。这说明‘天河一号’的能效在世界上处于领先水平。”
其第三个特点是高安全性。李主任告诉记者,安全性对于任何一台计算机来说都非常重要,“尤其是对于巨型计算机来讲,它的用户主要是大的石油企业、气象预报部门和各大银行系统等,这些单位对于信息安全的要求都非常高。”李主任表示,对于普通的联网PC机来说,管理员拥有查看权限,可以进入网络中的任何一台计算机的内部。但是,对于“天河一号”来说,只有用户自己掌握密码,系统管理员也不能进入用户的信息系统查看到任何信息。“打个比方,一个用户如果拥有了‘天河一号’的使用权,就相当于某个人在银行租到了一个保险柜,唯一一把钥匙就在这个人自己身上,银行的工作人员和任何其他人都不可能打开这个柜子。”
“天河一号”的第四个特点是易使用。“天河一号”在设计上采用刀片式结构,每个机位都包含可以抽出的32个刀片,这些刀片上装有电路板。“当某个刀片上某点出现故障,计算机的错误自查系统会迅速找到并定位错误出现的刀片位置。然后,工作人员可以迅速将其抽出并进行维修。此外,虽然“天河一号”其体积巨大、工作原理复杂,但是其操作界面和普通PC机相似,操作简便,而且可以与大部分国际上通用的软件兼容。
巨型计算机研制困难重重
当今世界,高性能计算已成为理论和试验之外的第三种科学研究手段,是推动科技创新和经济社会发展的战略高技术。各大国纷纷投入巨资研制开发超级计算机系统,以提升综合国力和科技竞争力。
在2009年6月公布的世界超级计算机500强(TOP500)中,美国占据291席,欧洲占据145席,亚洲仅占十几席。与发达国家相比,我国不仅在计算能力上相差一个量级,装机数量也相去甚远。那么,要研制成功“天河一号”这样的巨型计算机,研究人员面临的最重要的技术难点主要有哪些?
“天河一号”工程重要参与者、国防科学技术大学计算机学院的李思昆教授告诉记者,任何一台巨型计算机的研制都必须要解决以下几大难题。
首先,在体系结构方面。一台计算机从百万亿次到千万亿次的跃升并不只是一个简单的数字上的变化,而需要在其体系结构上进行大量的创新和调整。“如果原来是10个人来完成某项工作,现在就相当于要有100个甚至1000个人来完成一个工作。每个人的工作怎么分配、人与人之间如何分工合作、如何互联协调就变得极其重要。否则,就很难保证1000个人的工作效率就比100个人高。很可能这1000个人的内耗巨大,或者经常需要返工,而导致工作效率低于100个人的效率。”要解决这些问题,就需要设计出一套让这数千个部件可以和谐互联的体系系统。
第二点,是如何来应对错误。李教授告诉记者,“天河一号”有1万余个部件,从科学角度来讲,故障是不可避免的,“这就需要设计出一套机制来保证某个部件的错误不至于影响到整个系统的运作,此外还可以尽快找到并排除错误。”
第三点,就是要解决能耗问题。巨型计算机的能耗极大,即使是效能已经很高的“天河一号”,每小时的耗电量也达到1280千瓦/时。“一个美国科学家曾经说过,‘如果不解决能耗问题,那么巨型计算机就只能和核电站建在一起了。’”而美国就打算把未来的巨型计算机建在海边,因为核电站需要用海水来为核反应堆降温。
巨型计算机与国计民生息息相关
在“天河一号”机房的一台显示器前,记者看到了“天河一号”计算并预报的2009年8月9日袭击台湾的“莫拉克”台风的走势图。从这段动画中可以清晰地看到台风的中心、中心风力和走势,而这次预报被证实与后来的真实情况基本相同,准确率极高。
除了气象预报领域,巨型计算机在很多和国计民生相关的重要领域都发挥着举足轻重的作用。
“天河一号”工程重要参与者、国防科学技术大学计算机学院窦文华教授为记者展示了一段美国总统信息技术顾问委员会2005年6月对总统提交的报告,报告中说:计算科学对国家保持科学研究领导地位、提高经济竞争力以及维护国土安全发挥了重要作用。该委员会确信,计算科学是21世纪最重要的技术领域之一,因为它对整个社会的进步起着基础性的作用。
而美国国家研究委员会计算机科学与通信部2004年11月也提交过以下报告:为满足美国现在和未来的需求,政府部门应该和国会一起在加速超级运算发展和确保国家在持有多个强有力的软硬件供应方面担负起主要职责。
从这两份报告中,可以充分表明美国以及世界各国对发展巨型计算机重要意义的认识。
此外,李楠主任还通过几个例子,向记者展示了巨型计算机在国计民生各关键领域的支撑性作用。
在制药领域中,巨型计算机出现前,一种新药的问世要经过原理研究、动物实验、志愿者实验等数个步骤,整个研制周期在15年左右。而如今,很多基础性的实验和计算工作都可以由巨型计算机来完成,一种新药的研制周期可以缩短为3~5年。“一种新药可以改变人类的命运,比如盘尼西林,就以其广谱抗菌能力,挽救了无数人的生命。”
在飞机制造领域,巨型计算机也发挥了不可替代的作用。以前,飞机确定外形需要在风洞中进行大量实验。“比如,某型波音飞机在确定外形前就在风洞中进行了3年的定型试验。而现在,通过巨型计算机强大的计算能力和模拟技术,大量的实验可以通过计算机计算和模拟而省去,周期可以缩短到3~6个月。”
在石油勘探领域,巨型计算机也发挥着重要的作用。李主任告诉记者,1983年面世的“银河一号”巨型计算机,其当时研制的主要目的就是为了石油勘测。“我们当时要从美国进口相关的计算机,但是美国人不允许我们进核心控制室。所以,国家当时就下定决心要研制出自己的巨型计算机。”
可见,“天河一号”的诞生,是我国高性能计算机技术发展的又一重大突破,是国家和军队信息化建设的又一重要成果,标志着我国超级计算机研制能力实现了从百万亿次到千万亿次的重大跨越,我国成为继美国之后第二个能研制千万亿次超级计算机系统的国家,对提升综合国力具有重要的战略意义。
另据介绍,“天河一号”将于今年年底至明年在天津滨海新区安装部署。投入使用后,国家超级计算天津中心将成为我国首个具有千万亿次计算能力的超算中心,也是世界上少数几个具有千万亿次计算能力的超算中心之一,将有力带动天津滨海新区高科技服务产业发展和高端信息产业发展,为经济、社会发展提供高科技支撑。本报10月29日长沙电
相关阅读: