显然,这不是一台普通的电脑。是国内第一台自主研发CPU和底层系统的千万亿次超级计算机神威蓝光。10月13日,《计算机报》记者带着些许好奇,来到了济南超算中心,在这里他第一次了解到了神威蓝光的很多细节,见到了一群与这台国产超算朝夕相处的科学家。

本报记者在神威蓝光超级计算机旁边

它有143000个16核CPU;

存储容量高达2PB(1PB等于100万GB)。

最大带宽69.6TB/s(1TB等于1000 GB);

每秒峰值运算达到107万亿次,相当于20万台普通笔记本的同时运算能力;

……

走进超级计算机的心脏

没有想象中的巨大,神威蓝光是躺在机房里的一个放大的“0”。如果不是旁边一排商用服务器的噪音提醒,从外面封闭的外壳很难察觉到它的运行。

国家超级计算济南中心陈德勋研究员像魔术师一样为记者打开了三扇门。

第一扇标有“0”字头的门引起了记者的注意。水管晶莹剔透,手指粗细,整齐有序地排列在两排架子上,与地板下的制冷系统相连。用手触摸这些水管是一种冰冷的感觉。

第二扇门打开,里面是排列整齐的CPU,每排8个CPU,128个核心,一个机架的计算能力是万亿次。

当第三扇门打开时,是一个空荡荡的椭圆形房间。“这里有什么宝藏?”

“进来感受一下寂静吧。”陈德训邀请记者走进蓝光超级计算机的内部。“环形墙”最初由九个电脑仓库和两个网络仓库组成。除了网络连接上的闪灯,可以是一个退路空间。

“这是神威蓝光的主机部分。”总工程师周表示,拥有143000个核心的大型机只占用60平方米的机房,与其庞大的计算能力相比,实在是小巧玲珑。

神威蓝光自2011年9月整套系统安装测试后,一直24小时运行。

“关键是主机的CPU和底层软件系统都是我国自主研发生产的,使我国成为继美国和日本之后,世界上第三个拥有自主研发千万亿次超级计算机能力的国家。”陈德训和所有的科研人员都很自豪。

神威蓝光最神秘的CPU是全球首款16核CPU,比AMD早6个月。并行操作系统、虚拟机管理器、多核编译器、并行编译器、海量并行文件系统和多核数学库是自主开发的软件成果。

此时是10月13日中午12点08分。从主机室外监控室的屏幕上可以看到,有7760个CPU处于繁忙状态,系统为正在运行的项目配置了8704个CPU。屏幕上的绿色显示,闲置的CPU主要分布在3号机房。

“正在运行什么计算?”

“我们不知道每个计算项目的具体操作内容。监控主要看机器的性能配置。如果发现问题,会及时自动处理。”

"做一次手术通常需要多长时间?"

“一天的计算时间是最短的项目,项目的计算时间在一周左右。”

“你怎么知道这里运行的计算项目没有隐藏恶意代码?”

"在操作之前,有一套安全检查程序来确保机器的安全."研究员耐心地一一回答了记者的问题。

每天都有超级计算应用

在监控室可以随时查看超级计算机的状态参数。

有什么比超级计算机的应用更贴近人们的生活?我们每天看的天气预报是应用最广泛的。

"如果有必要,我们可以计算1000年后的气候."总工程师周说,自1850年有气象记录以来,人类已经产生了一系列气象数据,专家可以根据历史数据建立数学模型,推断过去1000年或未来1000年的天气变化。

现在的天气预报数据实际上每个小时都有一个新的计算结果,气象部门要参考其他气象因素才能定时播报。

类似的应用还包括海洋数据分析,可以了解几千年前海底地貌的形状。其他成熟的应用还包括石油勘探、金融分析、农业中的基因育种和筛选、动漫产业等等。

济南超算中心的定位是服务黄河三角洲和半岛经济。全国一半以上的海洋科研机构位于山东省。服务海洋数据研究是济南超算的主要任务。

然而,这些应用程序的软件大多是国际共享的。济南超算中心R&D部总经理潘景山对中国缺少R&D感到有点遗憾。

据介绍,目前国内只有四个超算中心,包括在建的长沙中心、天津中心和深圳中心,都是基于GPU的异构架构。只有济南超算中心是国产CPU和底层软件系统。机器成本低于采用国外处理器和系统,但研发成本远大于采用国外产品。

“仅Cpu的研发就是十几年。我们在硬件上和国外产品不相上下,但在应用软件上差距超过30年。”

应用软件的开发不是一个简单的过程,需要计算专家和行业专家的参与。一个项目的开发大约需要200人年,使用寿命是20到30年。

“在美国的三大实验室里,应用领域的研发人员有几千人,而计算机专业人员的团队只有100人。”相对于国外对超算应用的重视,潘景山在济南超算中心看到40名员工,倍感压力。

国外对超级计算系统和应用的开发投入比例为1: 2或1: 3,而国内对软件应用的投入仅为硬件系统的1/5。“大型软件,比如海洋和气象,可以在70年代的代码和90年代的代码中找到。是长期积累的东西。海洋和气象软件可以免费使用,但是还有很多领域需要我们自己开发。现在我们有大量的数据,缺乏计算软件等工具。看到数据挖掘不出智慧。”

自从神威蓝光运营以来,潘景山和同事们一起在超算中心加班度过了很多个周六。记者周六的采访,也是他们众多工作日中普通的一天。

疯狂博士向你展示超级计算机。

相信各位读者都看过我国某超算再次获得世界排名的新闻,对天河、银河、神威蓝光等关键词记忆犹新。

然而,在我们的想象中,对超级计算机的理解仅仅停留在“计算能力比普通计算机强很多”的层面。

超级计算机到底是什么样的?它的硬件和普通电脑有什么区别?其实包括疯狂博士本人都想搞清楚。10月13日,疯狂博士亲自前往国家超级计算济南中心,揭开超级计算机的神秘面纱!

超级计算机房看个究竟(1)

神威蓝光,8704核心,2PB存储空间的主要技术参数相当抢眼。

你的电脑有8核?在超算8704核面前很弱,还没全满

整个神威蓝光超级计算机有多大?这还不到它的四分之一。

打开其中一个柜子,可以看到很多层刀片。

超级计算机房看什么(2)

为什么每层都有三个电源开关?因为一楼有三个电源,两个备用。

机柜里黄色的是光纤线(内部数据通讯),蓝色的是千兆网线(与控制室通讯)。所有单元通过PCB连接直接相互通信。

最大带宽为69.6 TB/s。

走进神威蓝光超算的机房,可以看到很多立式机柜。机房中间一圈摆放的机柜是神威蓝光,旁边一字排开的是常规X86架构的服务器机柜(从前面的机房布局可以看出)。

疯狂博士也看过很多大型机房,但印象最深的是神威蓝光gav

据工程师介绍,神威蓝光全部采用水冷设计,比风冷更节能,噪音几乎为零(这个我们后面会详细介绍)。

工程师打开橱柜,层层叶片映入眼帘。据工程师介绍,每个芯片上有两个处理器,每个处理器有16个物理核心,每个处理器配备16GB DDR3内存。

疯狂博士发现刀锋机器上有三个电源开关。最初,每个刀片配备有三个独立的电源。即使一个坏了,另外两个也能及时补充,大大保证了服务器的可靠性和稳定性(三个一起坏?机会太小了,夫人。

从机柜背面可以看到,所有节点均采用光纤连接,以保证足够的数据带宽;刀片通过PCB直接连接,因此数据带宽更高。

那么像千兆网线这种“慢”的网络连接是用来做什么的呢?其实就是用来连接监控单元的,监控对数据带宽要求很低,一般网络就行。

水冷超频?超级计算也用水冷!

一排排透明的管子是神威蓝光用的水冷系统。

水冷系统的进出水管有多粗?中间是本博士的Note手机。自己对比一下。

水冷系统的储水管,左边的小管是用来观察水位的。

说到水冷系统,恐怕首先想到的就是发烧玩家超频的必备神器。

其实神威蓝光超级计算机也是水冷系统,这也是它最有特色的设计之一。

首先,这个超级计算机的水冷系统非常安静,基本可以算是零噪音;

其次,非常节能,比常规冷却系统节能很多。毕竟它只需要小功率驱动水泵,而且冬天济南室外温度很低,冷却水在室外自然冷却,冷却效率更高;

再次,这种水冷系统的运行成本也很低,冷却水的损失率一年只有30%(其他超级计算机使用的水冷系统蒸发量比它高很多)。

超级计算,打开给你看!

神威SW1600C国产处理器现场拍摄

配有两个神威SW1600C处理器的计算单元主板。

神威SW1600C处理器结构图

这里需要说明的是,与国内其他超算中心使用的CPU GPU方案不同,神威蓝光采用的是完全自主研发的纯CPU方案。

其中,神威SW1600C的架构与X86、ARM完全不同。它使用自己的编译器和软件,拥有16个物理核心(一台台式机最多8个核心),频率为1GHz,每个CPU配备16GB DDR3 1066内存。

看到这里,玩家可能会有疑问。为什么只有1GHz?现在桌面处理器的默认频率差不多是4GHz。其实不能这么比。神威SW1600C的架构不同于X86和ARM(X86和ARM兼容的软件不能直接在上面运行,所以安全性好),其针对的数据和应用也不同于普通桌面,不能简单用频率来衡量。

另外,从结构图可以看出,神威SW1600C有四个核心组,也就是说每个核心组包含四个物理核心,计算负载由crossbar动态调整。

我们来看看一个计算单元的主板。两个BGA封装的神威SW1600C直接焊接在主板上,周围是DDR3内存颗粒,每个CPU分配16GB内存。

疯狂博士仔细观察了主板上的供电电路,完全是11相供电,相当于Z77等高端主板的供电规格。看来神威SW1600C的功耗应该和普通桌面处理器差不多!