务稳健发展全球首个“大脑级”AI解决方案：整块芯片有iPad那么大科大讯

每天科技网 2023-09-04 1

分芯片企业通过更小的制程工艺，AI业务多点开花。8月23日晚，在同样面积下容纳下更多晶体管，科讯飞（002230.SZ，以实现更强性能、更低能耗。不过，最新价：53.78元）发布了2021年上半年财报。报告期内，有这么一家初创企业，公司营收63.19亿元，他们追求“”：在更小的制程工艺的情况下，同比增长45.28%，把面积做，净利润4.19亿元，把功率做，同比增长62.12%，让单块AI芯片达到前所未有的性能。

北京时间8月25日，扣非后净利润2.09亿元，人工智能芯片设计明星初创公司Cerebras Systems推出AI算力解决方案——CS-2，同比增长2720.80%。基本每股收益0.19元，其内置了一块面积差不多有iPad这么的芯片，同比增长58.33%。营收重回高增长，他们将此称为“世界上第一个脑级解决方案”。

之所以说是“脑级”的，是因为Cerebras将单台CS-2人工智能计算机可支持的神经网络参数规模扩至现有最模型的100倍——达到120万亿参数，而人类脑有100万亿个突触（突触类似于人工神经网络中的参数）。CS-2配备了世界最芯片WSE-2（Wafer-Scale Engine，尺寸为20cmx22cm）。

Cerebras WSE-2 和当前最的GPU

除增加单个人工智能计算机的参数容量之外，Cerebras Systems还宣布可构建由192个CS-2人工智能计算机组成的集群，即构建包含1.63亿个核心的计算集群。

“过去几年向我们表明，对于NLP（自然语言处理，Natural Language Processing）模型，洞察力与参数成正比——参数越多，结果越好” ，他们的合作伙伴、美国阿贡实验室（Argonne National Laboratory， ANL）副RickStevens表示，“Cerebras的发明将使参数容量提高100倍，可能具有改变行业的潜力。我们将首次能够探索脑小的模型，为研究和洞察开辟广阔的新途径。”

阿贡实验室于1946年，是美国能源下属的17个实验室之一，由芝加哥营。可查资料显示，美国首个“E级”新一代超算“极光”号的科研便由阿贡实验室承担。

对算力、单块AI芯片性能的无尽追求，归根结底在于人工智能时代对计算量的指数级增长。

OpenAI对实际数据拟合后的报告显示，AI计算量每年增长10倍。从AlexNet到AlphaGo Zero，最先进AI模型对计算量的需求已经增长了30万倍。随着近年业界超规模AI模型突破1万亿参数，小型AI算力集群难以支撑单个模型的高速训练。Cerebras Systems所发布的AI解决方案在模型小、计算集群能力和规模编程的简单性方面跃上了新台阶。

AI计算机CS-2如此强劲，正在于其有着一颗“超强脑”——专为深度学设计的WSE-2芯片。WSE-2采用7nm工艺，面积达46225平方毫米，包含2.6万亿个晶体管，这些晶体管被集中到85万个处理单元(或称“核心”)中。

WSE-2的面积是英伟达目前面积最GPU特斯拉A100的近56倍，核心数（cores）是A100的近123倍，内存容量是A100的1000倍，内存带宽是A100的约1万3千倍，fabric带宽是A100的约4万6千倍。无论是核心数还是片上内存容量均远高于迄今性能最强的GPU，且通信速度更快，计算能力更好。

当下人工智能的重要应用如自动驾驶、视频推荐背后都是深度学技术，多数现代深度学模型都基于人工神经网络。在训练型AI模型时常常是使用连接在一起的数千台机器集群一起工作，比如由谷歌操作的数据中心。这个集群就像一个分散在多个房间里并连接在一起的“脑”，电子能以光速移动，但即便如此，跨芯片通信还是很慢，并且消耗量的能源。随着近年业界超规模AI模型突破1万亿参数，当前的集群难以支撑单个模型的高速训练。

Cerebras Systems联合创始人Andrew Feldman表示，“更的网络，例如GPT-3，已经改变了自然语言处理(NLP)的格，使以前无法想象的事情成为可能。在业界，1万亿参数的模型层出不穷，我们正在将该边界扩展两个数量级，使脑规模的神经网络具有120万亿个参数。”

2016年，Andrew Feldman、Gary Lauterbach、Michael James、SeanLie和Jean-Philippe Fricker在硅谷创立了Cerebras Systems公司，制造适用于深度学的人工智能芯片，Andrew Feldman任CEO。在创立Cerebras之前，五位创始人都曾在微型服务器厂商SeaMicro工作，SeaMicro在2012年被半导体公司AMD（Advanced Micro Devices）收购。

当业内其他公司正在让一块晶圆能产出尽可能多的芯片时，Cerebras走向了另一个方向：使整个晶圆成为一块芯片，这创造了芯片设计领域的一场。

除了世界最WSE-2芯片做支撑，这套AI解决方案的背后还有Cerebras最新披露的四项创新：新的软件执行架构Weight Streaming；内存扩展技术Cerebras MemoryX；高性能互连结构技术Cerebras SwarmX；动态稀疏收集技术Selectable Sparsity。

Weight Streaming技术首次实现了在芯片外存储模型参数的能力，同时提供与芯片上相同的训练和推理性能。这种新的执行模型分解了计算和参数存储，并消除了延迟和内存带宽问题。这极地简化了工作负载分配模型，让用户可以从使用1个CS-2扩展到最多192个CS-2，而无需更改软件。

CambrianAI创始人兼首席分析师Karl Freund表示：“使用型集群解决AI问题的最挑战之一是为特定神经网络设置、配置和优化它们所需的复杂性和时间。而Weight Streaming允许在CS-2集群令人难以置信的计算资源之间进行更直接的工作分配，Weight Streaming消除了我们今天在构建和有效使用巨集群方面必须面对的所有复杂性——推动行业向前发展，我认为这将是一个转型之旅。”

MemoryX是一种内存扩展技术，包含高达2.4PB的DRAM（Dynamic Random Access Memory，动态随机存取存储）和闪存，以保存海量模型的权重，以及处理权重更新的内计算能力。SwarmX是一种高性能、人工智能优化的通信结构，可将Cerebras Swarm片上结构扩展到片外，使Cerebras能够在多达192个CS-2上连接多达1.63亿个AI优化内核，协同工作以训练单个神经网络。Selectable Sparsity使用户能够在他们的模型中选择权重稀疏程度，并直接减少FLOPs和解决时间。

AI计算机CS-2

CS-2 的内视图：从左到右分别是门、风扇、泵、电源、主机架、热交换器、发动机缸体、后格栅

CS-2 的前视图：下半分是风扇，右上方是泵用来输送水，左上方的电源和 I/O （Input/Output)提供电力和数据。

侧视图：水运动组件（顶），空气运动基础设施和风扇和热交换器（下半分）

CS-2的发动机缸体

启用WSE（Wafer Scale Engine）所需的创新之所以成为可能，是因为完整系统解决方案提供了灵活性。CS-2 的每个组件——从电源和数据传输到冷却再到软件，都经过协同设计和优化，以充分利用这个庞的深度学芯片。

WSE-2 编译过程的概述

可视化工具使研究人员可以回视编译器CGC编译过程的每个步骤

CS-2 集群可以在模型并行和数据并行模式下运行

华为手机腾讯会员怎么共享

小米新出厂手机怎么开机

三年的三星手机怎么开机