高性能计算，高性能计算的提升性能

本文目录一览

1，高性能计算的提升性能
2，高性能计算主要是研究什么的
3，什么是高性能计算
4，什么是高性能计算机
5，什么是高性能计算技术
6，高性能计算主要是研究什么的
7，高性能计算机是如何实现的从处理器存储中两个角度谈
8，高性能计算的优化
9，高性能计算的概述
10，高性能计算的摩尔定律

1，高性能计算的提升性能

各种高性能计算设施都要根据企业不同的需求选用，但所有高性能计算应用程序都必须经过特殊优化，这与传统数据中心要求不大一样。以下方式可以让HPC应用程序平台以最高的性能执行。普通的服务器开销为每机柜30kw，这个数字还在不断上升。由于高密度，高效率数据中架构基础设施与冷却系统变得至关重要。

高性能计算的提升性能

2，高性能计算主要是研究什么的

高性能计算主要研究方向有四个方面：高性能计算理论基础；高性能计算系统；高性能计算系统的设计；高性能计算驱动力。高性能计算机的发展趋势主要表现在网络化、体系结构主流化、开放和标准化、应用的多样化等方面。网络化的趋势将是高性能计算机最重要的趋势，高性能计算机的主要用途是网络计算环境中的主机。以后越来越多的应用是在网络环境下的应用，会出现数以十亿计的客户端设备，所有重要的数据及应用都会放在高性能服务器上，Client/Server模式会进入到第二代，即服务器聚集的模式，这是一个发展趋势。网络计算环境的应用模式将仍然是Internet/Web，但5～10年后，信息网格模式将逐渐成为主流。在计算网格方面美国大大领先于其他国家。

高性能计算主要是研究什么的

3，什么是高性能计算

应该和分布式计算有一定联系.好像是计算机硕士研究的一个方向,呵呵

起码每秒计算100一次

什么是高性能计算集群群集技术开放分类： it、群集技术就像冗余部件可以使你免于硬件故障一样，群集技术则可以使你免于整个系统的瘫痪以及操作系统和

什么是高性能计算

4，什么是高性能计算机

什么是高性能计算机　　高性能计算机顾名思义是一种性能比普通计算机高的计算机，它内部配置了多个处理器共同组成高性能计算机的一部分，通过多台计算机也可以实现高性能计算操作，高性能计算机需要在相应的高性能计算系统或者环境当中运行，那么你对高性能计算机的了解有多少呢?下面跟我一起来了解一下高性能计算机的一些相关介绍吧。　　一、高性能计算简介：　　高性能计算指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。有许多类型的HPC 系统，其范围从标准计算机的大型集群，到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连，比如那些来自 InfiniBand 或 Myrinet 的`网络互连。基本的网络拓扑和组织可以使用一个简单的总线拓扑，在性能很高的环境中，网状网络系统在主机之间提供较短的潜伏期，所以可改善总体网络性能和传输速率。　　二、高性能计算机：　　高性能计算机能够执行一般个人电脑无法处理的大资料量与高速运算的电脑。其基本组成组件与个人电脑的概念无太大差异，但规格与性能则强大许多，是一种超大型电子计算机。具有很强的计算和处理数据的能力，主要特点表现为高速度和大容量，配有多种外部和外围设备及丰富的、高功能的软件系统。现有的超级计算机运算速度大都可以达到每秒一太次以上。　　高性能计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机，多用于国家高科技领域和尖端技术研究，是一个国家科研实力的体现，它对国家安全，经济和社会发展具有举足轻重的意义。是国家科技发展水平和综合国力的重要标志。　　作为高科技发展的要素，高性能计算机早已成为世界各国经济和国防方面的竞争利器。经过中国科技工作者几十年不懈地努力，中国的高性能计算机研制水平显著提高，成为继美国、日本之后的第三大高性能计算机研制生产国。中国现阶段超级计算机拥有量为22台(中国内地19台，香港1台，台湾2台)，居世界第2位，就拥有量和运算速度在世界上处于领先地位，随着超级计算机运算速度的迅猛发展，它也被越来越多的应用在工业、科研和学术等领域。但就高性能计算机的应用领域来说中国和发达国家美国、德国等国家还有较大差距。中国高性能计算机及其应用的发展为中国走科技强国之路提供了坚实的基础和保证。　　高性能计算机“π”系统23日在上海交通大学上线运行，将支持俗称“人造太阳”的惯性约束核聚变项目等高端科研工程。据介绍，“π”系统峰值性能达到263万亿次，位列最新全球TOP500榜单第158名。该系统由浪潮公司设计构建，该系统上线将重点支持上海交通大学的教学科研，将成为“IFSA惯性约束聚变科学与应用协同创新中心”的超算核心支持平台。　　三、高性能计算机的用途：　　1.气候预测：借助超级计算机预测气候变化，从而减轻气候变化给人类带来的破坏。　　2.交通业：超级计算机可用来认识和改进汽车、飞机或轮船等交通工具的空气流体动力学、燃料消耗、结构设计、防撞性，并帮助提高乘坐者舒适度、减少噪音等，所有这些都具有潜在的经济和安全收益。　　3.生物信息学和计算生物学：生物学已经显示出巨大的计算需求，超级计算机将帮助寻找疾病治疗的革命性方法。　　4.社会健康与安全：比如，污染、灾难规划以及针对本地和国家基础设施进行的恐怖主义活动等。　　5.地震：对地震的模拟能帮助人类探索地震预测方法，从而减轻与地震相关的风险。　　6.地球物理探测和地球科学：比如石油的勘测问题，这类问题具有潜在和巨大的经济效益。　　7.天体物理学：模拟时间进程并加速这种模拟的进程，从而对天体的演变进行建模和理论试验。　　8.材料科学与计算纳米技术：对物质和能量的模拟是计算密集型的。 ;

5，什么是高性能计算技术

高性能计算(High performance computing，缩写HPC) 指通常使用很多处理器（作为单个机器的一部分）或者某一集群中组织的几台计算机（作为单个计算资源操作）的计算系统和环境。有许多类型的HPC 系统，其范围从标准计算机的大型集群，到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连，比如那些来自 InfiniBand 或 Myrinet 的网络互连。基本的网络拓扑和组织可以使用一个简单的总线拓扑，在性能很高的环境中，网状网络系统在主机之间提供较短的潜伏期，所以可改善总体网络性能和传输速率。

比如说超算！

6，高性能计算主要是研究什么的

高性能计算主要研究方向有四个方面：高性能计算理论基础；高性能计算系统；高性能计算系统的设计；高性能计算驱动力。高性能计算机的发展趋势主要表现在网络化、体系结构主流化、开放和标准化、应用的多样化等方面。网络化的趋势将是高性能计算机最重要的趋势，高性能计算机的主要用途是网络计算环境中的主机。蓝海大脑高性能计算一体机融合计算、网络、存储、 GPU、虚拟化的异构计算水冷服务器，支持主流虚拟化平台如Vmware、Redhat、Microsoft Hyper-V 等，支持在线压缩、重复数据自动删除、数据保护、容灾备份及双活等功能，引领高性能计算行业以节能、绿色、低碳、静音的发展方向为宗旨。型号蓝海大脑高性能计算服务器英特尔处理器 Intel Xeon Gold 6240R 24C/48T,2.4GHz,35.75MB,DDR4 2933,Turbo,HT,165W.1TB Intel Xeon Gold 6258R 28C/56T,2.7GHz,38.55MB,DDR4 2933,Turbo,HT,205W.1TB Intel Xeon W-3265 24C/48T 2.7GHz 33MB 205W DDR4 2933 1TB Intel Xeon Platinum 8280 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W 1TB Intel Xeon Platinum 9242 48C/96T 3.8GHz 71.5MB L2,DDR4 3200,HT 350W 1TB Intel Xeon Platinum 9282 56C/112T 3.8GHz 71.5MB L2,DDR4 3200,HT 400W 1TBAMD处理器 AMD锐龙Threadripper Pro 3945WX 4.0GHz/12核/64M/3200/280W AMD锐龙Threadripper Pro 3955WX 3.9GHz/16核/64M/3200/280W AMD锐龙Threadripper Pro 3975WX 3.5GHz/32核/128M/3200/280W AMD锐龙Threadripper Pro 3995WX 2.7GHz/64核/256M/3200/280W AMD锐龙Threadripper Pro 5945WX 4.1G 12核/64M/3200/280W AMD锐龙Threadripper Pro 5955WX 4.0G 16核/64M/3200/280W AMD锐龙Threadripper Pro 5965WX 3.8G 24核/128M/3200/280W AMD锐龙Threadripper Pro 5975WX 3.6G 32核/128M/3200/280W AMD锐龙Threadripper Pro 5995WX 2.7G 64核/256M/3200/280W显卡 NVIDIA A100×4, NVIDIA GV100×4 NVIDIA RTX 3090×4, NVIDIA RTX 3090TI×4, NVIDIA RTX 8000×4, NVIDIA RTX A6000×4, NVIDIA Quadro P2000×4,NVIDIA Quadro P2200×4硬盘 NVMe.2 SSD: 512GB，1TB； M.2 PCIe - Solid State Drive (SSD), SATA SSD: 1024TB, 2048TB, 5120TB SAS:10000rpm&15000rpm,600GB,1.2TGB,1.8TB HDD : 1TB，2TB,4TB,6TB,10TB 外形规格立式机箱 210尺寸mm（高*深*宽) : 726 x 616 x 266 210A尺寸mm（高*深*宽) : 666 x 626 x 290 210B尺寸mm（高*深*宽) : 697 x 692 x 306 声卡：7.1通道田声卡机柜安装 : 前置机柜面板或倒轨（可选）电源功率 : 1300W×2; 2000W×1软件环境可预装 CUDA、Driver、Cudnn、NCCL、TensorRT、Python、Opencv 等底层加速库、选装 Tensorflow、Caffe、Pytorch、MXnet 等深度学习框架。前置接口 USB3.2 GEN2 Type-C×4 指承灯电和硬盘LED 灵动扩展区 : 29合1读卡器，eSATA，1394，PCIe接口（可选）读卡器 : 9合1SD读卡器（可选）模拟音频 : 立体声、麦克风后置接口 PS2接口 : 可选串行接口 : 可选 USB3.2 GEN2 Type-C×2 网络接口 : 双万兆 (RJ45) IEEE 1394 : 扩展卡口模拟音频 : 集成声卡 3口连接线专用屏蔽电缆（信号电缆和电源电缆）资料袋使用手册、光盘1张、机械键盘、鼠标、装箱单、产品合格证等再不明白自己去百度下。

7，高性能计算机是如何实现的从处理器存储中两个角度谈

处理器负责的数据的计算，任务的处理。现在的处理器通过高的主频和更多的线程、核心来提高自己的运算速度。如何判定速度呢。首先从频率上来讲，高的频率肯定要比低频计算的快，但是在相同的频率下就要看架构了，比如每年新的架构都会强于前一年出的产品，然后看核心数，（也要看是否支持多核心）索然多核已经普及，但是一些程序和游戏在多核心的cpu、下仍然用的单一核心来运行。更多数量的核心和线程也是为了提高计算机的性能。然后是存储。cpu是用来计算的，他自己不会存储资料。而硬盘是用来存储资料的。提高存储就会有两个概念，读取和写入。这个速度会影响你的计算机性能。举个例子，比如你的计算机很强悍，cpu能力很强，而你的存储介质很差，就会出现小马拉大车的感觉。比如你的cpu可以处理一个g的内容。而你的存储器只能输出500mb（0.5g），这样下来cpu的能力就不能达到极限，而瓶颈就出现在存储上面。所以说，想要一个高性能计算机，处理器和存储是很重要的两点。以为你就问了这两个点，我就说这些。高性能计算机实现的点还有很多。

8，高性能计算的优化

高性能计算(HighPerformanceComputing)是计算机科学的一个分支，主要是指从体系结构、并行算法和软件开发等方面研究开发高性能计算机的技术。随着计算机技术的飞速发展，高性能计算机的计算速度不断提高，其标准也处在不断变化之中。高性能计算简单来说就是在16台甚至更多的服务器上完成某些类型的技术工作负载。到底这个数量是需要8台，12台还是16台服务器这并不重要。在定义下假设每一台服务器都在运行自己独立的操作系统，与其关联的输入/输出基础构造都是建立在COTS系统之上。简而言之，讨论的就是Linux高性能计算集群。一个拥有20000台服务器的信息中心要进行分子动力学模拟无疑是毫无问题的，就好比一个小型工程公司在它的机房里运行计算流体动力学(CFD)模拟。解决工作负载的唯一限制来自于技术层面。接下来我们要讨论的问题是什么能直接加以应用。量度(Metrics)性能(Performance)，每瓦特性能(Performance/Watt)，每平方英尺性能(Performance/Squarefoot)和性能价格比(Performance/dollar)等，对于提及的20000台服务器的动力分子簇来说，原因是显而易见的。运行这样的系统经常被服务器的能量消耗(瓦特)和体积(平方英尺)所局限。这两个要素都被计入总体拥有成本(TCO)之列。在总体拥有成本(TCO)方面取得更大的经济效益是大家非常关注的。议题的范围限定在性能方面来帮助大家理解性能能耗，性能密度和总体拥有成本(TCO)在实践中的重要性。性能的定义在这里把性能定义为一种计算率。例如每天完成的工作负载，每秒钟浮点运算的速度(FLOPs)等等。接下来要思考的是既定工作量的完成时间。这两者是直接关联的，速度=1/(时间/工作量)。因此性能是根据运行的工作量来进行测算的，通过计算其完成时间来转化成所需要的速度。定量与定性从定性的层面上来说这个问题很容易回答，就是更快的处理器，更多容量的内存，表现更佳的网络和磁盘输入/输出子系统。但当要在决定是否购买Linu集群时这样的回答就不够准确了。对Linux高性能计算集群的性能进行量化分析。为此介绍部分量化模型和方法技巧，它们能非常精确的对大家的业务决策进行指导，同时又非常简单实用。举例来说，这些业务决策涉及的方面包括：购买---系统元件选购指南来获取最佳性能或者最经济的性能配置---鉴别系统及应用软件中的瓶颈计划---突出性能的关联性和局限性来制定中期商业计划Linux高性能计算集群模型包括四类主要的硬件组成部分。(1)执行技术工作负载的计算节点或者服务器；(2)一个用于集群管理，工作控制等方面的主节点；(3)互相连接的电缆和高度普及的千兆以太网(GBE)；(4)一些全局存储系统，像由主节点输出的NFS文件一样简单易用。高性能计算机的衡量标准主要以计算速度(尤其是浮点运算速度)作为标准。高性能计算机是信息领域的前沿高技术，在保障国家安全、推动国防科技进步、促进尖端武器发展方面具有直接推动作用，是衡量一个国家综合实力的重要标志之一。随着信息化社会的飞速发展，人类对信息处理能力的要求越来越高，不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算机，而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。一个简单量化的运用模型这样一个量化的运用模型非常直观。在一个集群上对既定的工作完成的时间大约等同于在独立的子系统上花费的时间：e1、时间(Time)=节点时间(Tnode)+电缆时间(Tfabric)+存储时间(Tstorage)Time = Tnode + Tfabric + Tstorag这里所说的时间(Time)指的是执行工作量的完成时间，节点时间(Tnode)是指在计算节点上花费的完成时间，电缆时间(Tfabric)是指在互联网上各个节点进行互联的完成时间，而存储时间(Tstorage)则是指访问局域网或全球存储系统的完成时间。计算节点的完成时间大约等同于在独立的子系统上花费的时间：2、节点时间(Tnode)=内核时间(Tcore) +内存时间(Tmemory)这里所说的内核时间(Tcore)指的是在微处理器计算节点上的完成时间。而内存时间(Tmemory)就是指访问主存储器的完成时间。这个模型对于单个的CPU计算节点来说是非常实用的，而且能很容易的扩展到通用双插槽(SMP对称多处理)计算节点。为了使第二套模型更加实用，子系统的完成时间也必须和计算节点的物理配置参数相关联，例如处理器的速度，内存的速度等等。计算节点图示中的计算节点原型来认识相关的配置参数。图示上端的是2个处理器插槽，通过前端总线(FSB-front side bus)与内存控制中心(MCH)相连。这个内存控制中心(MCH)有四个存储信道。同时还有一个Infiniband HCA通过信道点对点串行(PCIe)连接在一起。像千兆以太网和串行接口(SATA)硬盘之类的低速的输入输出系统都是通过芯片组中的南桥通道(South Bridge)相连接的。在图示中，大家可以看到每个主要部件旁边都用红色标注了一个性能相关参数。这些参数详细的说明了影响性能(并非全部)的硬件的特性。它们通常也和硬件的成本直接相关。举例来说，处理器时钟频率(fcore)在多数工作负荷状态下对性能影响巨大。根据供求交叉半导体产额曲线原理，处理器速度越快，相应成本也会更高。高速缓存存储器的体积也会对性能产生影响，它能减少主频所承载的工作负荷以提高其运算速度。处理器内核的数量(Ncores)同样会影响性能和成本。内存子系统的速度可以根据双列直插内存模块频率(fDIMM)和总线频率(fBus)进行参数化，它在工作负荷状态下也对性能产生影响。同样，电缆相互连接(interconnect fabric)的速度取决于信道点对点串行的频率。而其他一些因素，比如双列直插内存模块内存延迟(DIMM CAS Latency)，存储信道的数量等都做为次要因素暂时忽略不计。使用的性能参数在图示中标明的6个性能参数中，保留四个和模型相关的参数。首先忽略信道点对点串行的频率(fPCIe)，因为它主要影响的是电缆相互连接(interconnect fabric)速度的性能，这不在范围之列。接下来注意一下双列直插内存模块频率(fDIMM)和总线频率(fBus)会由于内存控制中心(MCH)而限于固定比率。使用的双核系统中，这些比率最具代表性的是4:5, 1:1, 5:4。一般情况下只会用到其中的一个。高速缓存存储器的体积非常重要。在这个模型中保留这个参数。内核的数量(Ncores)和内核频率(fcore)也非常重要，保留这两个参数。高性能计算(HPC)模型　这第二个模型的基本形式在计算机体系研究领域已经存在了很多年。A普通模式是：(3) CPI = CPI0 + MPI * PPM这里的CPI指的是处理器在工作负荷状态下每执行一个指令的周期。CPI0是指内核CPI，MPI I则是指在工作负荷状态下高速缓存存储器每个指令失误的次数(注释：在高性能计算领域，MPI主要用于信息传递界面，在此处主要是指处理器构造惯例)，PPM是指以处理器时钟滴答声为单位对高速缓存存储器每个指令失误的次数的记录。第二和第三个方程式相互吻合。这第一个术语代表的是处理器，第二个术语代表的是内存。可以直观的看到，假设每项工作下执行的P指令的工作负荷与代表处理器的频率的内核频率(每秒钟处理器运行周期的单位)再与方程式(3)相乘，就得到了方程式(4):Tnode = (CPIo * P) * (1 / fcore) + (MPI * P) * PPM * (1 / fcore)在这里要注意(CPIo * P)是以每项工作分配下处理器的运行周期为单位，对微处理器架构上运行的既定工作负荷通常是个恒量。因此把它命名为α。(处理器周期本身无法对时间进行测算，如果乘以内核的频率就可以得到时间的测算标准。因此Tnode在方程式(4)的右边)。(MPI * P)也是同理。对于既定工作负荷和体系结构来说它也是个恒量，但它主要依赖于高速缓存存储器的体积。我们把它命名为M(MBcache)。而PPM是指访问主存的成本。对于既定的工作负荷来说，通常是个固定的数字C。PPM乘以内存频率和总线频率的比值(fcore / fBus)就从总线周期(bus cycles)转化成了处理器周期。因此PM = C * fcore / fBus。套入M(MBcache)就可以得到：(5) Tnode = α * (1 / fcore) + M(MBcache) * (1 / fbus)这个例子说明总线频率(bus frequency)也是个恒量，方程式(5)可以简化为方程式(6)：(6) Tnode = α * (1 / fcore) + β在这里Tcore = α * (1 / fcore)，而Tmemory = β(也就是公式2里的术语。我们把这些关键点关联在一起)。首先在模型2里，公式5和公式6都有坚实的理论基础，因为经分析过它是如何从公式3推理而来(它主要应用于计算机体系理论)。其次，这个模型4个硬件性能参数的3个已经包括其中。还差一个参数就是内核数量(Ncores)。用直观的方式来说明内核的数量，就是假设把N个内核看做是一个网络频率上运行的一个内核，称之为N*fcore。那么根据公式(6)我们大致可以推算出：(7) Tcore ~ α / (N*fcore)Tcore~ ( α / N) * (1 / fcore )也可以把它写成：(8) αN = ( α / N)多核处理器的第一个字母Alpha可能是单核处理器的1/N次。通过数学推算这几乎是完全可能的。通常情况下我们是根据系统内核和总线频率(bus frequencies)来衡量计算机系统性能，如公式(5)所阐述的。但是公式(5)的左边是时间单位--这个时间单位指的是一项工作量的完成时间。这样就能更清楚的以时间为单位说明右侧的主系统参数。同时请注意内核的时钟周期τcore(是指每次内核运行周期所需的时间)也等同于(1 / fcore)。总线时钟(bus clock)周期也是同理。(9) Tnode = αN * τcore + M(MBcache) * τBus这个公式的转化也给了一个完成时间的模型，那就是2个基本的自变量τcore和τBus呈现出直线性变化。这对使用一个简单的棋盘式对照表对真实系统数据进行分析是有帮助的。

9，高性能计算的概述

图1显示了一网状 HPC 系统。在网状网络拓扑中，该结构支持通过缩短网络节点之间的物理和逻辑距离来加快跨主机的通信。尽管网络拓扑、硬件和处理硬件在 HPC 系统中很重要，但是使系统如此有效的核心功能是由操作系统和应用软件提供的。HPC 系统使用的是专门的操作系统，这些操作系统被设计为看起来像是单个计算资源。正如从图1和图2中可以看到的，其中有一个控制节点，该节点形成了 HPC 系统和客户机之间的接口。该控制节点还管理着计算节点的工作分配。对于典型 HPC 环境中的任务执行，有两个模型：单指令/多数据 (SIMD) 和多指令/多数据 (MIMD)。SIMD在跨多个处理器的同时执行相同的计算指令和操作，但对于不同数据范围，它允许系统同时使用许多变量计算相同的表达式。MIMD允许HPC 系统在同一时间使用不同的变量执行不同的计算，使整个系统看起来并不只是一个没有任何特点的计算资源（尽管它功能强大），可以同时执行许多计算。不管是使用 SIMD 还是 MIMD，典型 HPC 的基本原理仍然是相同的：整个HPC 单元的操作和行为像是单个计算资源，它将实际请求的加载展开到各个节点。HPC 解决方案也是专用的单元，被专门设计和部署为能够充当（并且只充当）大型计算资源。

10，高性能计算的摩尔定律

提及摩尔定律，作为计算机发展的第一定律一直在引领IT产业的前行。不过随着多核技术的发展和应用，摩尔定律在面临挑战的同时，在某些领域已经被超越。例如在日益普及的高性能计算（HPC）中。那为何摩尔定律会首先在高性能计算领域被超越？这之中又隐含着怎样的产业趋势？首先从代表全球高性能计算水平和趋势的全球高性能计算TOP500近几年性能发展的趋势看，无论是最大性能（全球排名第一的系统）、还是最小性能（全球排名最后）和平均性能，其发展曲线的速度是基本一致的。但与摩尔定律的发展曲线相比，则明显处于陡势的增长态势。这说明这两年来，高性能计算性能和应用的发展速度已经超越了摩尔定律。熟悉摩尔定律的人都知道，摩尔定律有三种解释。一种是集成电路芯片上所集成的电路的数目，每隔18个月就翻一番；第二种是微处理器的性能每隔18个月提高一倍，而价格下降一半；第三种解释是用一个美元所能买到的电脑性能，每隔18个月翻两番。这三种解释中业内引用最多的是第一种。但具体到高性能计算，笔者更愿意用第二或者第三种来解释。按理说，随着高性能计算性能的不断提升和系统的日益庞大，高性能计算用户无论在初期的采购搭建系统，还是后期的使用中的成本都会大幅的增加，在经济危机的特殊时期，高性能计算如此大的TCO会导致用户的减少和整体性能的下降才对。但前不久发布的全球高性能计算TOP500证明，增长的势头未减，这除了市场和用户的需求外，更在于处理器厂商采用新的技术，在性能提升的同时，让用户以更低的成本享受到更高、更多的计算性能。从这个意义上看，摩尔定律在被延续的同时也正在被超越，即在高性能计算领域，用户性能/投入比远远大于摩尔定律。当然这主要得益于处理器制程、架构技术、多核技术、节能技术、软件优化和快速部署等。例如从制程和核数上看，最新的全球高性能计算TOP500排名显示，45纳米已经占据了绝对的主流。而多核也达到了全球TOP500的2/3。从部署的速度看，AMD刚刚发布不久的6核就已经有两套进入TOP500中。而英特尔正式发布的新的Nehalem多核架构的高性能计算系统更有33套（基于这个处理器的系统）进入TOP500，其中有两套在TOP20里。快速的部署给用户带来的是最新技术和性能的获得。当然对于用户而言，多核并非是关键，重要的是如何充分发挥多核的效能。这就需要相关的平台技术和软件优化。例如在高性能计算领域，业内都听说过“半宽板”这个标准。这个“半宽板”标准其实是英特尔在几年前提出的，半宽的小板在加高计算密度的同时，节约了很多复用的部件，在加强高性能计算的密度同时，配合散热的技术设计，可以提供更多的计算能力同时降低能耗。这就引出了一个新的发展方向，即高性能计算未来发展就是能耗更多被用于计算性能的提高，而不是散热。此外，就是SSD（固态硬盘），它可以在大幅提高高性能计算系统可靠性和I/O性能的同时，还可以降低功耗。而软件优化更是高性能计算中重中之重的部分，编译器、函数库以及MPI库，所有这些可以帮助ISV能够把多核处理器的计算性能充分发挥出来。由此来看，在高性能计算领域，单纯的处理器已经不能满足市场和用户的需求，它们需要的是高性能计算平台级的解决技术及方案。这也是为什么在全球高性能计算TOP500开始引入能效的主要原因。说到能效，笔者早就听说在业内有个与摩尔定律同样重要的“基辛格规则”。它是以处理器业界闻名的英特尔首席技术官帕特·基辛格名字命名的。该规则的主旨是今后处理器的发展方向将是研究如何提高处理器能效，并使得计算机用户能够充分利用多任务处理、安全性、可靠性、可管理性和无线计算方面的优势。如果说“摩尔定律”是以追求处理性能为目标，而“基辛格规则”则是追求处理器的能效，这规则至少在高性能计算领域已经得到了验证，而它由此带来的是摩尔定律的被超越，即用户将会在更短的周期，以更低的价格获得更高的能效。

文章TAG：高性能高性能计算性能计算高性能计算