拥有为14万3千枚16核CPU;
存储容量高达2PB(1PB等于100万GB)
最高带宽达到69.6TB/s(1TB等于1000GB);
每秒峰值运算达1.07千万亿次,相当于20万台普通笔记本同时运算能力;
……
显然,这不是一台普通的电脑,这是中国首台自主研发CPU和底层系统的千万亿次超级计算机神威蓝光。
10月13日,带着几分好奇,电脑报记者来到济南超级计算机中心,第一次了解到神威蓝光的诸多细节,也见到了与这台国产超级计算机朝夕相处的一群科学家。
走进超级计算机的心脏
没有想象中巨大,神威蓝光就是一个放大的“0”躺在机房里,走进它,如果不是旁边一排商业服务器的噪声提醒,从外面封闭的外壳难以察觉它的运行。
国家超级计算济南中心陈德训研究员像魔法师为记者打开了三扇门。
第一扇“0”型头部的一扇门,映入记者眼帘的是晶莹透明、手指粗细的水管,有序地排列在两排机架上,与地板下的制冷系统相连,用手摸一下这些水管,都是冰凉的感觉。
第二扇门打开,是配列整齐的CPU,每排8颗CPU,128个核,一个机架上是一万亿次的计算能力。
第三扇门打开的时候,就是一个空的椭圆形小房间,“这里有什么宝贝?”
“进来吧,感受一下安静。”陈德训邀请记者走进蓝光超级计算机的内部,“环形墙”原来是9个计算机仓和2个网络机仓,除了网络连线上的指示灯闪烁,这里简直可以当着是静修的空间。
“这就是神威蓝光的主机部分”,总工程师周明忠研究员说包含14万3千个核的主机只占用60平米的机房,与其庞大的计算能力相比,确实是小巧玲珑。
神威蓝光从2011年9月整个系统安装加电测试以来,一直就是保持24小时的开机运行状态。
“关键是主机的CPU和底层软件系统全部是国内自主研发生产的,使中国成为继美国、日本之后,世界上第三个具有独立研发千万亿次超级计算机的能力的国家。”陈德训和所有研究员都倍感自豪。
最神秘的神威蓝光的CPU,是全球第一颗16核CPU,比AMD的要早6个月,并行操作系统、虚拟机管理器、多核编译器、并行编译器、海量并行文件系统、多核数学库则是自主研发的软件成果。
此时是10月13日中午12:08,从主机房外监控室的屏幕上,看到此刻正忙着的CPU是7760个,系统为正在运行的项目配置了8704颗CPU,屏幕上绿色显示闲着的CPU主要分布在第3号机仓。
“正在运行的是什么计算?”
“我们并不清楚每个计算项目的具体运行内容,监控主要是看机器性能配置,发现有问题会及时自动处理。”
“通常一次运算要多少时间?”
“一天的计算时间是最短的项目,项目一周左右的计算时间比较普遍。”
“怎么知道在这里跑的运算项目没有暗藏恶意代码?”
“运行前有一套安全检测程序会保证机器安全”研究员对记者的疑问一一耐心解答。
疯狂博士带你看超级计算机
相信各位读者都曾经看到中国某某超级计算机又勇夺世界排名多少位之类的新闻,对“天河”、“银河”、“神威蓝光”等等关键词记忆犹新。
不过在我们的想象中,对超级计算机的认识却仅仅停留在“运算能力比普通电脑强很多”这个层面上。
到底超级计算机是个什么样子?它的各部分硬件和普通电脑有什么不同?其实包括疯狂博士自己也想把它弄个明白。10月13日,疯狂博士亲自深入国家超级计算济南中心,为大家揭开超级计算机神秘的面纱!
走进神威蓝光超级计算机的机房,可以看到很多立式的机柜,在机房正中间摆成一圈的机柜正是神威蓝光,旁边排成一行的是常规的X86架构服务器机柜(从前面的机房布局图也能看出来)。
疯狂博士也见过不少大型机房,不过神威蓝光给我的最大印象就是非常安静!和旁边发出巨大噪音的X86服务器形成了鲜明的对比。
超频用水冷?超算也用水冷!
经工程师介绍,神威蓝光全部采用水冷设计,一是比风冷省电,二是几乎零噪音(这个我们后面详细介绍)。
工程师打开机柜,一层层的刀片机引入眼帘。经工程师介绍,每一片上有两颗处理器,每颗处理器有16个物理核心,每颗处理器配备了16GB DDR3内存。
疯狂博士发现刀片机上有三个电源开关,原来每一片都配备了三个独立的电源,就算有一个坏掉,另两个也能及时补上,大大保证了服务器的可靠性和稳定性(三个一起坏?这几率太太太小了)。
从机柜背后可以看到,各个节点之间是用光纤进行连接的,这样才能保证足够的数据带宽;而刀片机之间是直接用PCB连接的,数据带宽更高。
那么千兆网线这样显得比较“慢”的网络连接是用来做什么的呢?其实是用来连接监控单元的,监控对于数据带宽要求很低,所以一般的网络就行了。
一提到水冷散热系统,恐怕大家最先想到的就是发烧玩家玩超频的必备神器了。
其实,神威蓝光超级计算机也是采用的水冷散热系统,而且这也是它最有特色的设计之一。
首先,这套给超级计算机使用的水冷系统非常安静,基本上可以算是零噪音了;
其次,它非常节能,远比常规的散热系统省电得多,毕竟只需要驱动功率不算大的水泵,而且在冬天,济南的室外温度很低,冷却水在室外实现自然冷却,散热效率更高;
再次,这套水冷散热系统的运营成本也很低,一年的冷却水损耗率才30%(其他超级计算机采用的水冷系统蒸发量远高于它)。
超算拆开给你看!
这里需要说明一下,和我国其他几个超级计算机中心所用的CPU+GPU方案不同的是,神威蓝光采用的是完全自主开发的纯CPU方案。
其中申威SW1600C采用的架构与X86、ARM完全不同,采用自己的编译器和软件,具备16个物理核心(一般台式机上最多才8核),频率为1GHz,每颗CPU搭配16GB DDR3 1066内存。
看到这里可能玩家有疑问,怎么才1GHz?现在台式机的处理器默认频率都快破4GHz了。其实不能这么比较,申威SW1600C的架构不同于X86和ARM(X86和ARM兼容的软件无法直接在它上面运行,因此拥有很好的安全性),而且针对的数据与应用也不同于一般台式机,所以不能单纯从频率来衡量。
另外,从结构图上也可以看到,申威SW1600C内部有4个核心组,也就是说每个核心组包含了4个物理核心,由交叉开关来进行动态调节计算负载。
再来看看一个计算单元的主板,两颗采用BGA封装的申威SW1600C直接焊接在主板上面,周围是DDR3内存颗粒,每颗CPU分配了16GB内存。
疯狂博士仔细观察了一下主板上的供电电路,一共是11+1相供电,相当于高端Z77等主板的供电规格, 看来申威SW1600C的功耗应该和普通台式机处理器差不多!
|
|