请为中国超级计算机喝彩–技术补遗

By: fancia | Post date: June 2, 2010 | Comments: 3 Comments

Posted in categories: Opinions, 中文, 网文备份

补遗1：

为什么22nm以下做不出来？

不是做不出来，技术上连5nm都做得出来。因为单原子链宽度1~2nm。单电子逻辑门也在研究中。

但是，如果线宽过窄，同时意味线间距，即绝缘空间过窄。窄到其势垒相对热运动动能以及自然放射性和宇宙射线次级辐射造成的量子跃迁概率不可忽略。因此电路出错率迅速上升。这对目前的低容错能力电路设计是无法接受的。因此可应用线宽受到局限。

补遗2：

关于拼机。

拼机不是体力活和砸钱就干得出来的。你弄1000台22艇拼一块还是干不了航母舰队的活。

大规模机群(Cluster)实现超越单机性能必须克服如下瓶颈：

1)并行化优化编译包–这个没有公共开源解决方案，必须自己搞。没有这个，大规模机群和学校图书馆那一大堆单机没有本质区别；

2)跨节点全自动负载管理–你必须能够合理实时自动分配进程。没有这个，你的大规模机群很可能只有1%的CPU累死，其他99%干看着不干活。这个存在开源解决方案，例如SGE，但是只适用于少于数百节点的中小规模机群。这个也必须自主实现；

3)分布式高速存储组元–这个不是把1000块硬盘堆一起就行的。你必须保障全部节点能够实时无瓶颈读写。包括多备份，大缓存(cache)，多通道等技术。就像北京火车站比二道河火车站客流大1000倍，你无法在北京造1000个二道河火车站来实现。你必须有自主设计–即便是配套电路；

4)跨节点内存共享–一般中小型机群都没有这个。各个节点用自己的内存。但是对大机群，必须有这个。因为你不可能为单一节点安装1TB内存。但是会有任务需要这个级别的数据空间。这个不是InfiniBand缺省可以实现的。必须有不同于普通工作站的主板设计 –这个是买不到抄不来的。必须自己搞；

5)实时容错设计–数万个节点中每天都会有数个节点故障。系统不可因此导致任务失败或系统崩溃。监视，检测，实时换用备份，重置作业，这些功能同样是没处抄的。代码都得自己写；

6)机房工程–能耗，制冷，通风，灭火。必须做到一个机柜起火居域灭火而体系仍正常工作；

7)用户帐户管理–这个虽然铜臭却必不可少。否则等着破产。

补遗3：

关于后门。

硬件后门是双刃剑–万一后门被无间道泄露出去，战时对自己的打击将是致命的。硬件里的逻辑后门恐怕并不现实。

软件中的后门是普遍的。而且夹杂在大堆BUG中。自主知识产权软件有必要。

事实上，更普遍的，硬件存在明显的军用级和民用级。不是后门的原因，而是可靠性和对环境耐受度的区别。我们买不到军用级芯片。如果使用民用级芯片在军用系统中，平时完全没有问题，低烈度演习也挺得过去。但是真到战场上，会迅速被电磁脉冲武器摧毁。而敌军的军用级电子设备安然无恙。这样我军就死翘翘了。这个才是必须开发自主知识产权的芯片的关键所在。

比如龙芯，我们有自主知识产权，民用级委托意法半导体制造推广，但是我们仍旧可以自主生产军用级芯片，达到抵抗不能摧毁敌方自己的军用级芯片的抗电磁脉冲和战场环境能力，才能够和敌方回到同一起跑线上。

这个才是关键。

3 Comments

longcang says:

June 25, 2010 at 7:42 am

好像这个超级电脑并没什么好开心的。。不过，身为中国人，还是支持。

然后路过留下脚印，http://www.lccmg.com

Log in to Reply
fancia says:

June 2, 2010 at 5:31 pm

例如那个 Flashmob1，如果运行1年，成本如何？

体育馆租金：体育馆面积大约10000平米。200平米住宅月租金就算1500美元，这很便宜了。那么一年的房租就是90万美元。

对比：同样能力的机群需要125个双四核刀片工作站。一个机柜满载可以装48个刀片工作站。加上外设，只需要四个机柜。这只需要一个20平方米的机房。加上一个雇员的办公室和其他工作间，50平米足够。一年房租4500美元。节约99.5%。

电费：每台笔记本电脑满符合功率大约70W,这个估计不算高。那么，1000台，一小时70度。一年61万千瓦小时。同时，体育馆空调，以每20台笔记本一吨制冷量，共50吨，功耗大约1kW每吨，这个就是另外一小时50度，一年44万千瓦小时。总共105万千瓦小时。按8美分一度，这个也不算贵。一年就是8.4万美元。这里照明什么的小打小闹就忽略不计了。

刀片服务器每台满载功耗约300W。125台满载功耗37.5千瓦。每5个刀片需要1吨制冷量，加上办公室制冷，按30吨算。这个共计59万千瓦小时。按8美分一度，一年就是4.7万美元。节约43%。

工资。假设每个笔记本的主人每天花20分钟看一看自己的笔记本，如果不正常重起一下，按最低工资付2美元。那么一年就是73万美元。

而那一个雇员一年给十万，大把的人愿意干。节约86%。

折旧费。就算大家的电脑都是便宜货，600美元一台。可电脑最多用6年吧。1000台每年折旧费10万美元。

而那个上述四个机柜的中型机群，每刀片价格在4000美元上下，系统集成价格在60万到80万美元。这个是比较贵的。如果也按6年寿命算，按80万高点算，每年折旧费13.3万美元，高出33%。

软件费用，假设Flashmob1的软件是开源免费。操作系统随机带，也不另算，总可以吧。上述四机柜机群全部软件按每年每节点1000美元的license费用，每年12.5万美元。

这样计算下来，Flashmob1的年使用代价是约180万美元。而那个四机柜中型机群的年使用代价是41万美元，节约77%！，节能43%！

这下你知道为什么大家要开发大机群，而不是用微机凑了吧。

此外，Flashmob1不能运行任何单进程所需内存大于3.4G的任务，但是四机柜中型机群的可寻址内存可轻易超过1TB。Flashmob1不能运行任何单进程数据量大于100GB的任务，但是四机柜中型机群可轻易拥有64TB+高速共享硬盘空间。

这就是差距！

Log in to Reply
fancia says:

June 2, 2010 at 4:41 pm

关于云计算机群和大规模机群的对比。

http://bbs.tiexue.net/post_4285900_1.html 贴 163楼试图用云计算机群混淆超级计算机大机群的概念。

这里是扫盲贴：

和具有下列特性的大机群相比，跨网云计算有如下据心局限：

1)并行化优化编译包–这个没有公共开源解决方案，必须自己搞。没有这个，大规模机群和学校图书馆那一大堆单机没有本质区别；

对云机群而言，运行程序包括两个部分：一个在主机上的任务分配器和一个在终端上的执行机。执行机空闲时
向任务分配器提出任务请求。然后在终端上执行。执行完毕将结果上传到任务分配器。因此，它所能执行的任务必须是CPU密集型，通讯较少，否则任务分配器会迅速当机。这个的典型例子是Mersenne Prime Search.

缺点：单机必须单独安装执行机。

2)跨节点全自动负载管理–你必须能够合理实时自动分配进程。没有这个，你的大规模机群很可能只有 1%的CPU累死，其他99%干看着不干活。这个存在开源解决方案，例如SGE，但是只适用于少于数百节点的中小规模机群。这个也必须自主实现；

云机群始终是按请求分配任务。任务分配器不负责负载管理。因此一旦某些结点故障，导致任务丢失或者失败，云机群只能在Time out之后重新分配这个任务。反应迟缓，单独低质量结点会大大影响机群效率–除非你的任务本质就是单步骤的大规模并行结构，例如SETI.

3)分布式高速存储组元–这个不是把1000块硬盘堆一起就行的。你必须保障全部节点能够实时无瓶颈读写。包括多备份，大缓存(cache)，多通道等技术。就像北京火车站比二道河火车站客流大1000倍，你无法在北京造1000个二道河火车站来实现。你必须有自主设计–即便是配套电路；

云机群在这方面非常受到限制。因为云结点之间通讯缓慢，各结点硬盘容量有限。一但任务需要每个结点看到大数据包，例如小到20G，或者需要大量结点间通讯，云机群就死翘了。这个只能用大机群实现。

4)跨节点内存共享–一般中小型机群都没有这个。各个节点用自己的内存。但是对大机群，必须有这个。因为你不可能为单一节点安装1TB内存。但是会有任务需要这个级别的数据空间。这个不是InfiniBand缺省可以实现的。必须有不同于普通工作站的主板设计 –这个是买不到抄不来的。必须自己搞；

云机群根本不可能实现这个。因此如果你的任务需要内存超过3.4G,所有基于Windows XP的云机群就都无能为力了。

5)实时容错设计–数万个节点中每天都会有数个节点故障。系统不可因此导致任务失败或系统崩溃。监视，检测，实时换用备份，重置作业，这些功能同样是没处抄的。代码都得自己写；

云机群无能力监视结点状态。一旦某些结点故障，导致任务丢失或者失败，云机群只能在Time out之后重新分配这个任务。反应迟缓，单独低质量结点会大大影响机群效率–除非你的任务本质就是单步骤的大规模并行结构，例如SETI.

6)机房工程–能耗，制冷，通风，灭火。必须做到一个机柜起火居域灭火而体系仍正常工作；

云机群没有这个。但是有多少台结点，就有多少个结点的主人需要操心这个。如果你有一万个结点，实际上你是在剥削10000个人的劳动。而一个10000个结点的大机群可能雇5个人就可以有效管理了。（一个用户和账号管理，一个电工，一个负责换出问题的硬件，一个负责软件维护，一个主任）。这个人力资源成本相差巨大。大机群反而相对便宜。

7)用户帐户管理–这个虽然铜臭却必不可少。否则等着破产。

云机群通常为特定用途设立。一般用不到这个。

此外，云机群在数据安全性，可靠性，和性能稳定性方面都和大机群不在一个层次上。

Log in to Reply

Dao's BLOG

My work, my view, and my imagination

Pages

Categories

请为中国超级计算机喝彩–技术补遗

3 Comments

Leave a Reply Cancel reply

Recent Posts

Archives

My Account