英特尔要用AI一统芯片江湖 不断打造更好的CPU

新智元原创

采访/作者:闻菲

【新智元导读】英特尔全球副总裁兼人工智能产品事业部总经理 Naveen Rao 时隔两年再次接受新智元采访,AI 已成为英特尔“绝不能输的战场”。Naveen认为谷歌、微软等巨头自己造芯的做法不会持久,终将重回英特尔的怀抱。英伟达在AI领域的生态很强大,但英特尔CPU在基础设施里有更雄厚的基础。芯片创业公司要活下去很难。AI时代,仍将由英特尔来主导。

2018 英特尔人工智能大会(AIDC)14、15日在京举行,英特尔全球副总裁兼人工智能产品事业部总经理 Naveen Rao 时隔两年,再次接受新智元的采访。

尽管外界对英特尔10 纳米芯片“难产” 和英特尔 Nervana 神经网络处理器 NNP 发布时间一再延迟充满了“焦灼的期待”,但与两年前相比——那时候 Naveen刚加盟英特尔不久,他告诉新智元英特尔预计在 2017 年第一季度推出一款深度学习芯片——Naveen 显得更加从容。

当被问及“是否觉得在 2019 年底才推出 AI 芯片有些晚”时,他反而笑着问道:“为什么会觉得晚呢?”

收购Nervana Systems——Naveen Rao 出走高通,在 2014 年与人联合成立的深度学习芯片初创公司,成为英特尔全面拥抱人工智能的一个重要节点,Naveen 表示 AI 已是英特尔“绝不能输的战场”。

如今,英特尔上下全面意识到了 AI 的重要性,他率领的包括 Nervana 团队在内的人工智能产品事业部,推进 Nervana 神经网络处理器之外,还为英特尔其他所有部门提供技术支持。“最近两年英特尔至强处理器的改进也基本来自于我们组的工作。” Naveen 说。

一把钥匙开不了所有的锁。Naveen 表示不同的计算需要不同的架构,但任何计算都离不开CPU。市面上已经安装并投入使用的CPU 是英特尔的巨大优势。“客户的基础设施更新是逐步做起的,” Naveen 说:“没有人会一下子把旧的全扔掉然后换新的。” 在这些基础设施中,英特尔的 CPU 占了近九成,眼下最火热的人工智能推理,也有近 90% 是在英特尔的芯片上完成。

英伟达占据了很大的AI训练市场,也在为GPU添加更多的AI元素,“这是很正确的做法,”Naveen说:“但我们也将提供对 AI 来说最好的 CPU。”

“CPU 加 GPU 再加各种 AI 加速器很好,如果客户需要,把它们全部封装进一个芯片里也很好,” Naveen 说:“两者在我看来是一样的。”

换言之,AI时代,仍将由英特尔来主导。

谷歌TPU不是英特尔的对手

2018 年 5 月,谷歌在 I/O 大会上发布了第三代 TPU,由 TPU 3.0 组成的 TPUPod 运算阵列,性能相比上一代提升了 8 倍,每秒运算性能 “远超” 100PFLOPS,也即 10 亿亿次——中国引以为傲的超级计算机神威·太湖之光的 Linpack 浮点性能是 9.3 亿亿次——为了给它降温,谷歌第一次在其数据中心引入了液冷。

为了给 TPU 3.0 Pod 运算阵列降温,谷歌第一次在其数据中心引入了液冷

除了谷歌,微软、亚马逊等巨头都在研发自己的 AI 芯片。国内,大公司自己造芯的声势更加明显:百度的“昆仑”,阿里的“平头哥”,华为的“昇腾”,一个比一个浩大。

不管怎么看,形势对英特尔来说都很不利。

但 Naveen 却说,“除了TPU(还仅供谷歌内部使用)和GPU,你还能再说出一款已经量产的AI训练芯片吗?”

“英特尔不与我们的客户相竞争,” Naveen 说:“谷歌、微软等大公司自己做芯片,归根结底是由于我们芯片厂商没有提供给他们适合的产品,因此,短期看他们自己做芯片更省钱,更有效率。我不认为他们会销售芯片,也不认为他们想要进入芯片行业,等到英特尔研发出工艺更好、价钱更便宜的芯片时——芯片制造工艺是英特尔的核心价值所在——大公司自然就会重新使用英特尔的产品,不再自己做芯片。”

而且,英特尔的产品线可是从云到端全面覆盖的。

佩服英伟达十年建生态,但英特尔要一统江湖

至于英伟达,Naveen认为英伟达在一个正确的时机做出了正确的选择,大力投入深度学习,现在也在不断为GPU 增加更多的“AI元素”,“这是很正确的做法”。

Naveen 表示,英特尔近年来对AI的认识也有了很大转变。见证了人工智能几起几落的英特尔,在2014年之前并不认为这一次深度学习真的能掀起些什么。

收购Naverna 代表着英特尔对人工智能态度的转变,从“不重要”变为“非要不可”,Nervana团队现在为英特尔的所有部门,从CPU到FPGA再到物联网……提供技术支持。“实际上,至强处理器近两年来的性能提升基本上都来自我们组的贡献。”Naveen说。

抢占先机的英伟达,市值已经翻了几十番,GPU在AI训练市场拥有毋庸置疑的领先地位。但真正成就英伟达的,是其配套软件生态系统 CUDA。

“英伟达最初在2005年推出CUDA,这也就是说他们花了十年时间才让CUDA能够使用,”Naveen说,没有人能一夜之间颠覆这种优势,要让一款硬件取得成功,相关的软件生态系统至关重要,而要打造这样一套生态,“非常、非常地难”。

面对英伟达在人工智能领域凭借GPU+CUDA构建起的强大生态,Naveen表示英特尔的应对之道是他们两年前便开始布局的nGRAPH——如今,有各种各样的机器学习框架,而这些框架上的模型又需要在不同的硬件上面运行。以前做深度学习和人工智能运算,大家主要用GPU来加速,训练直接在框架里调用英伟达的CUDA库,推理则是用英伟达的TensorRT。现在硬件的选择变多了,大家也想做更多的优化,“框架编译器”(compiler)的概念也随之兴起。

最初是谷歌的XLA(Accelerated Linear Algebra/加速线性代数),但XLA是用于 TensorFlow的编译器,针对的也自然是谷歌的TPU。类似的是Facebook的Glow,实际上现在每家公司都在不同的层级上构建属于自己的中间表示,好让编程语言能够适应更多的硬件组合。

2016年8月,陈天奇团队推出了TVM,让包括图模型(Graph)在内的编程语言能够适应越来越多的硬件。Naveen告诉新智元,实际上TVM是比nGRAPH更低一级的中间表示,而英特尔正在与TVM合作。

英特尔要做的事情是,不与谷歌、Facebook、百度等公司直接竞争,“因为他们都是我们的客户”,nGRAPH能支持所有的框架,“无论你使用哪种框架,新建一个框架也行,我们都乐意支持”。

框架编译器,比如英特尔的nGRAPH,能将不同框架上运行的模型针对各种硬件进行优化,包括英伟达的GPU和其他硬件。

但Naveen也承认,业界现在确实有在所有这些中间表示中确定一个“标准”的意向,因为标准就是标准,有了大家都方便,而英特尔也不讳言想让nGRAPH成为这个标准。

“我们比所有人都领先,目前最接近的就是谷歌的XLA。”

“台积电的7nm从晶体管密度上说远不及英特尔的10nm”

但是等等,2019年底英特尔预计推出的可是“10纳米”芯片,对手台积电、三星早就量产了10nm,高通骁龙835已经在市场上整整卖了一年,台积电今年“7纳米”芯片量产成功,明年更是已经确定要上EUV 5纳米的研发。

但这里有个“陷阱”:一般人可能都认为10nm肯定比14nm先进,7nm也当然比10nm要好。实际上,7nm也好,10nm也罢,这些“线宽”仅仅代表工艺节点,但要衡量这个工艺的好坏,栅极间距(gate pitch)、逻辑单元高度(Logic Cell Height)、鳍片间距(fin pitch)、最小金属间距(Min Metal Pith)等关键技术参数更为重要。

英特尔22nm和14nm工艺比较:鳍片间距提升

2017年9月,英特尔主动公布出台积电、三星和自家10nm工艺相关技术参数指标,由下图可见,英特尔的10nm光刻技术制造出来的鳍片、栅极间隔更小。因此,在晶体管密度上几乎是台积电、三星的两倍。

英特尔的10nm光刻技术制造出来的鳍片、栅极间隔更小,在晶体管密度上几乎是台积电、三星的两倍

摩尔定律是怎么说的?

“积体电路上可容纳的晶体管数目,每隔18个月便会增加一倍。”

因此,要看的是电路上晶体管的密度,而不仅仅是“线宽”。

Anandtech总结的全球半导体企业制程路线图,那时候格芯还没有宣布放弃7nm

关于英特尔10纳米工艺芯片的“难产”,业界有各种各样的推论和假说,Naveen 自然没有给出正面回答,只说 “我们的10纳米工艺研发进度正顺利按计划完成”。

“但是,台积电的7nm从晶体管密度上说远不及英特尔的10nm。” Naveen说:“这是绝对的。”

AI芯片初创公司活下去没靠山不行

巨头、英伟达、台积电等等都搞定了,对于颇有井喷式爆发的大批AI芯片初创公司又如何呢?

作为曾经芯片初创公司的CEO,Naveen 直言:“要做出能够大规模商用的芯片,靠初创芯片公司100%不行。”

现在确实是“计算机体系结构的黄金时代”,也有不少炒作,但计算机架构不是那么简单的事情。芯片的技术周期很长,也极少能用一代就取得成功,需要不断的迭代,这期间芯片的架构可能过时,或者有竞争对手出现。

做芯片是非常难的一件事情——你或许真的能设计出一款能解决一切问题的超级芯片,但要将这款芯片制造出来,需要付出大量的努力,而就算芯片真的做出来了,成功也不仅仅是靠处理器,还有生态系统和商业模式要考虑,要在百亿台处理器规模的数据中心无差错的使用,价格要能让客户用得起。

这也是Nervana Systems 选择被英特尔收购的原因。“我们想要的是把自己的技术推向市场,而英特尔精湛的制造工艺和成熟的销售渠道以及其他资源,让我们能够把 Nervana的技术留下来并推向市场,这是我们唯一关心的。”

“我并不是说所有芯片初创公司都会死,”Naveen 说:“上世纪90年代,图形处理器市场,当初也有成千上万家 GPU 创业公司,有些被收购了,其技术也成为那些公司的一部分,大部分都倒闭了,最终活下来的有多少?而活下来的这两家,在此期间也几度濒临破产。”

“作为芯片初创公司要生存下去实在太难了,”Naveen说。Nervana Systems 曾经有过那么一个窗口,抓住这个机遇或许能成为下一个“英特尔”,但 Naveen和他的团队,做了99%的人都会做的、更保守、更安全、更稳妥、从各种意义上说,也是最明智的选择——投入英特尔的怀抱。(Moblieye 的创始人是不是也是这样想的呢?)

AI是绝不能输的战场,CPU的AI化是英特尔的未来

刚刚加入英特尔时,Naveen和他的团队就未来AI和计算的发展着很强的vision,但并没有获得大多数人的同意。

“实际上,当时人工智能对英特尔来说并非值得优先考虑的事情(priority),而现在英特尔的每个部门都在想着AI。”Naveen说:“AI是英特尔‘绝不能输的战场’。”

CPU曾经是英特尔的一切,也是令英特尔如此辉煌的原因。但过去两年来,“CPU就是一切”(注:非Naveen原话)的意识形态在公司内部已经有所转变,大家意识到各种各样的加速器,尤其是AI加速器,开始扮演起越来越重要的角色。

尽管CPU不再是“唯一”,但仍然是计算结构里不可或缺的重要组成部分。Naveen说,只要是冯·诺依曼架构,“你必须要有一个CPU”。

在CPU的周围,你可以放上GPU、DSP、ISP,以及NNP,或者各种新的架构,其中一些会被淘汰,而另一则会被被大家广泛使用,“我们很乐意把大家都用的这种架构放进CPU里”,Naveen说。

CPU+GPU+NNP等众多核心的异构计算很好,把所有这些核心封装到CPU里成为一个SoC也很好,“在我看来这两者是一样的”。

英特尔另一大优势在于,市面上已经安装并且投入使用的CPU。“客户的基础设施更新是逐步做起的,” Naveen 说:“没有人会一下子把旧的全扔掉然后换新的。” 如今,全球有3500万公司使用英特尔的CPU,眼下最火热的人工智能推理,也有近 90% 是在英特尔的芯片上完成。

与此同时,英特尔还在不断打造更好的CPU,不仅为人工智能。