英伟达GPU在AI领域的成功引来了大量的挑战者。在国外,云端芯片初创公司几乎都采用DSA(Domain Specific Architecture,领域专用架构)挑战英伟达,比如已经被英特尔收购的Habana Labs。在国内,也有多家初创公司用GPGPU的架构研发AI云端芯片。
“用相同的架构竞争,专利就是一个问题。DSA是不同的道路,特别在云端AI推理方面,DSA可以完胜GPU。” 瀚博半导体创始人兼CEO钱军解释了创业前的技术路线思考。
雷锋网此前的文章介绍过,钱军有25年以上高端芯片设计经验,离职前在AMD任Senior Director,全面负责GPU(图像处理器)和AI服务器芯片设计和生产,现在市场上的AMD Radeon图像处理器和AI服务器芯片都是由其带队开发。
瀚博半导体创始人兼CEO钱军
瀚博的另一个创始人,也是CTO和总架构师的张磊有23年以上芯片和IP架构设计的丰富经验,2013年晋升为AMD Fellow,负责AI、深度学习,视频编解码和视频处理领域。
外界不少人误以为有多款GPU成功经验的两位创始人会选择用GPU挑战英伟达,但瀚博在2021世界人工智能大会(WAIC 2021)开幕前夕发布的首款产品SV102云端推理芯片采用的是DSA架构,而这款AI芯片获取客户的秘诀是TCO(Total Cost of Ownership,总体拥有成本)。
GPU不是云端推理最好的架构
初创公司要与巨头竞争,差异化是必然的选择。对于芯片公司而言,市场规模和技术路线是关键的考量因素。就云端芯片而言,随着AI模型的成熟,市场对云端AI训练需求的增速会降低,云端AI推理的市场规模将会迅速增加。有数据显示,2021年云端推理芯片市场已经大于训练市场。
云端AI芯片市场的变化是挑战英伟达的一个好机会。根据MLPerf此前发布的基准测试,英伟达在训练测试中一直保持着较高的水平,但在推理测试中,GPU并不如其在训练中的表现那么亮眼。
本月初,英国初创公司Graphcore的IPU首度公开MLPerf基准测结果,结果显示在Inference v1.0基准测试下,IPU相比GPU有1倍多的性价比收益。
“GPU在推理侧不是最好的架构,我们更好的DSA架构,能够在云端推理市场完胜GPU。”钱军表示。
但即便如此,能够定义和推出客户愿意买单的AI推理芯片才能够挑战英伟达。钱军分享了他的一些思考。他表示,计算机视觉占了AI市场的大半壁江山,视频流又占近70%的数据流,未来视频相关的数据只会越来越多,因此基于视频的AI应用首先要有强大的解码能力。
钱军认为,AI芯片视频处理能力可以用三个指标去衡量,包括延迟、吞吐量和能效。
当然,芯片的性能也是核心指标,同时,对于各种数据类型和AI模型的支持也是吸引客户的关键。钱军介绍,“我们的产品对于支持主流AI模型很全面,芯片设计也有前瞻性,支持计算机视觉、自然语言处理、搜索推荐、智能视频处理领域的众多常用神经网络,软件栈支持灵活扩展,支持用户自定义算子。”
云端推理DSA架构芯片完胜GPU
英伟达的众多挑战者中,有底气说出完胜的公司并不多。雷锋网了解到,瀚博的首款芯片研发周期大概是两年半,这也是业界高性能芯片普遍的研发周期。2018年底瀚博半导体创立之后,瀚博的团队就开始自主IP的研发,到了今年6月份,首款芯片SV102测试成功。
“SV102开始测试后的8分钟就全部点亮,也就是通过PCIe就能看到所有功能模块,在30多个小时内,所有模块基础测试都提前完成。”钱军说,“这对于一个全新设计的高端芯片是一个奇迹。”
虽然钱军没有具体介绍瀚博的DSA架构,不过CTO张磊用一组数据展示了瀚博首款产品相比GPU的竞争优势。
瀚博SV102是面向云端高性能推理的AI芯片,强调AI推理、视频处理以及可扩展性三大能力。AI推理性能表现在高效、高能耗比和低延时三方面,具体而言,SV102在Int8精度下的峰值性能为200TOPS,在75功耗下,吞吐率是GPU的2-10倍,延时更是不到GPU的5%。
瀚博半导体创始人兼CTO张磊
张磊介绍,SV102采用的是单宽半高半长的设计,存储最高支持32GB,接口是16个PCIe Gen4,采用被动散热的方式。之所以单独给出Int8的性能数据是因为最新和主流云端推理GPU都只用了Int8做推理基准测试,SV102也支持FP16和BF16的数据类型。
从给出的数据可以看到,在ResNet50和BERT两个模型下,瀚博SV102对比英伟达最新的A10和主流的T4有2-10倍的性能优势。
视频处理则是瀚博AI芯片的一大特色。“国内外已经推出的云端AI推理芯片几乎都没有内置视频解码功能,如果客户需要做视频解码,就需要用单独的芯片进行解码。SV102就支持64路以上H.264、H.265或AVS2 1080P解码,支持8K分辨率。”张磊表示。
由此带来的是TCO的优势,这里的TCO主要包含服务器+AI芯片+芯片功耗+运营成本。张磊给出的测算是,基于SV102的性能、功耗以及尺寸的特性,相比T4的服务器可以节省60%以上的TCO,对比A10的服务器也可以节省50%的成本。在高密度视频处理场景,瀚博给出的数据也显示出其性能和价格的优势。
赢得互联网客户
即便从产品性能层面瀚博有完胜GPU的信心,但客户的认可才是最终的成功。所以,首要问题就是客户的迁移成本。张磊告诉雷锋网:“从AI推理的角度看,迁移到我们的AI芯片上的成本比较小。对于那些有自己算法的客户,迁移的成本也是很小的一部分。更重要的是要让客户看到TCO的巨大节省,这样对于客户来说才能具有足够的吸引力,应用落地也会非常快。”
钱军补充表示:“一定要理解客户的需求,然后针对需求投入精力。”
对于瀚博来说,就是尽快完善软件和生态的建设。瀚博的VastStream软件平台支持TensorFlow、 PyTorch、Caffe2等常见的深度学习框架模型与ONNX格式的模型,借助高度定制的AI编译器可以充分优化模型的执行效率。
钱军介绍,“我们在互联网侧的落地速度更快一些,现已与国内外多家头部互联网公司合作。同时,我们还在大力增加软件团队,未来软件人员的数量会是硬件团队规模的3-5倍。”
虽然钱军没有透露具体的合作客户,不过快手作为瀚博的A轮投资人,双方应该在业务上更容易达成合作。但无论如何,瀚博的首款芯片的大规模落地还有一段距离。
“瀚博今年的产能已经确定,明年大部分的产能也已经提前预知。”钱军透露。
小结
今年四月份第一次和钱军深度对话的时候,对于其产品钱军仅仅透露了技术路线的选择。在首款产品流片和完成测试之后,瀚博对外透露了有限的产品信息,但核心的架构以及内置多路视频解码能力的特性并未公布更多消息,雷锋网认为这些才是瀚博最核心的竞争力。
当然,对于互联网客户以及行业客户而言,TCO以及易用程度才是更直接的考量因素。瀚博能否用TCO打动足够多的客户,仍需观察。但同样值得关注的是,在瀚博的产品规划里,有15瓦到150瓦的硬件产品,覆盖边缘和云端。
凡注有"环球传媒网"或电头为"环球传媒网"的稿件,均为环球传媒网独家版权所有,未经许可不得转载或镜像;授权转载必须注明来源为"环球传媒网",并保留"环球传媒网"的电头。
- 韩式炸鸡多少钱一份 韩国的炸鸡一般多少钱2022-06-15
- 为什么有时候月亮特别大 凌晨四点看到超级2022-06-15
- 北京工体哪个夜店最嗨 三里屯酒吧消费怎么2022-06-15
- 每日热门:热力学第一第二定律是什么?能量2022-06-15
- 每日速读!古船女人和井(篱笆女人狗、辘轳2022-06-15
- 每日讯息!欧美经典摇滚歌曲有哪些?摇滚歌曲2022-06-15
- 每日关注!岗位调动申请书范文 简单的工作2022-06-15
- 【聚看点】岁月如水:岁月如水,醉美流年2022-06-15
- 观焦点:建行密码丢失如何找回?建行手机银2022-06-15
- 观速讯丨怎么安装摄像头?自己安装监控详细2022-06-15
- 今日热搜:德川家康家训是什么?一起看看《2022-06-15
- 今日快讯:皮鞋怎么保养?皮鞋保养的小技巧2022-06-15
- 观察:coat翻译中文是什么意思?coat外套2022-06-15
- 观天下!我国有哪些神话故事?60个中国古代2022-06-15
- 丈夫死了妻子用还钱么 丈夫欠款死亡妻子该2022-06-15
- 美国黄石公园火山喷发 美国黄石国家公园2022-06-15
- 每日看点!含硒第一名的水果是什么?硒含量最2022-06-15
- 看热讯:曾经心痛dj有没有?曾经心痛dj舞曲2022-06-15
- 信息:犀利哥现状怎么样?犀利哥最帅最霸气2022-06-15
- 动态:自己的神话(自己创造一个神话故事)2022-06-15
- 今日热讯:flv电影在哪里可以下载?下载app2022-06-15
- 儿童封口贴能纠正张嘴睡觉吗 孩子张嘴睡觉2022-06-15
- 星海:一站式跨境浏览,探索全球!2022-06-15
- 【海淘狂欢节】鱼GO全球大促季!这些海淘优2022-06-15
- 招商银行存款有风险吗 中国银行非指定账户2022-06-15
- 为什么法官都喜欢调解 实名举报法官有用吗2022-06-15
- 今年全球最高温度可达到多少度 高温低温怎2022-06-15
- 喉咙不痛但又有异物感 咽喉有异物感是怎2022-06-15
- 献血对身体有害吗 献血屋献血流程2022-06-15
- 今日热门!刘彻和卫子夫的关系? 刘彻一生最2022-06-15