含光800
含而不露,光而不耀,高性能人工智能推理芯片
整体介绍 架构特征 特色技术 特色技术 软硬件协同 行业应用
含光800
含光800是平头哥发布的首颗数据中心芯片。含光800是一颗高性能人工智能推理芯片,基于12nm工艺, 集成170亿晶体管,性能峰值算力达820 TOPS。 在业界标准的ResNet-50测试中,推理性能达到78563 IPS,能效比达500 IPS/W。
含光800采用平头哥自研架构,通过软硬件协同设计实现性能突破。平头哥自主研发的人工智能芯片软件开发包,让含光800芯片在开发深度学习应用时可以获得高吞吐量和低延迟的高性能体验。含光800已成功应用在数据中心、边缘服务器等场景
查看含光800数据表(PDF)
架构特征
为了让用户便捷地使用含光800加速芯片,平头哥提供了HGAI (HanGuang Artificial Intelligence) 软件开发包,让用户在含光800芯片上部署深度学习应用时可以获得高吞吐量和低延迟的高性能体验。
HGAI 主要包括模型的前端Graph IR(intermediate representation) 转换、量化、编译和运行时等几部分。经过HGAI 转换、编译完成的模型可以很方便地集成到当前主流的深度学习推理框架中,让用户非常便捷地利用含光800芯片的强大算力加速推理运算。
目前HGAI 支持的主流深度学习框架主要有:TensorFlow、MXNet 、 Caffe、ONNX,后续将会支持更多主流深度学习框架。同时用户也可以通过NPUSMI来在线监控含光800运行状态,包括主频、内存利用率、算力利用率等。
加速卷积和矩阵乘操作,支持反卷积、孔洞卷积、3D卷积、 插值、ROI等
针对ResNet-50、SSD/DSSD、Faster-RCNN、Mask-RCNN、DeepLab 等模型优化
高密度的计算,极大提升处理效率
软硬协同支持权重的稀疏压缩,计算的量化压缩
除INT8/INT16量化加速外,也覆盖FP16/BF16的向量计算
加速各种ReLu、Sigmoid、Tanh等函数,未来也可支持未来新型激活函数
每一块芯片内含四核,视部署场景之算力需求灵活配置,可以从单卡单核,到多卡全四核
特色技术
深度优化CNN及视觉类算法
通用可扩展到其他DNN模型
高能效、低延时
指令集支持可编程模型扩展
完整软件栈,支持TensorFlow、MXNet、Caffe、ONNX等框架
单芯片INT8推理算力全球领先
行业应用
云计算服务
电商智能搜索
电商营销
特色技术
深度优化CNN及视觉类算法
通用可扩展到其他DNN模型
高能效、低延时
指令集支持可编程模型扩展
完整软件栈,支持TensorFlow、MXNet、Caffe、ONNX等框架
单芯片INT8推理算力全球领先
软硬件协同
为了让用户便捷地使用含光800加速芯片,平头哥提供了HGAI (HanGuang Artificial Intelligence) 软件开发包,让用户在含光800芯片上部署深度学习应用时可以获得高吞吐量和低延迟的高性能体验。
HGAI 主要包括模型的前端Graph IR(intermediate representation) 转换、量化、编译和运行时等几部分。经过HGAI 转换、编译完成的模型可以很方便地集成到当前主流的深度学习推理框架中,让用户非常便捷地利用含光800芯片的强大算力加速推理运算。
目前HGAI 支持的主流深度学习框架主要有:TensorFlow、MXNet 、 Caffe、ONNX,后续将会支持更多主流深度学习框架。同时用户也可以通过NPUSMI来在线监控含光800运行状态,包括主频、内存利用率、算力利用率等。
如需了解更多信息,请登录 技术资料 >