首页 / 行业
算法框架是AI芯片与商业应用的桥梁
2022-06-19 08:00:00
近些年AI模型的应用场景飞速扩展,包括自动驾驶、智慧城市、教育、医疗、金融等等,行业的多样性和应用场景的分散,使得AI模型爆炸式增长。
在日前某论坛上,商汤科技联合创始人兼大装置首席科学家林大华谈到,商汤科技每年要生产几万个AI模型,然而模型丰富,算子的长尾效应也很明显,10% 经典算子虽然占据90% AI芯片算力,而90%长尾算子却占据大量计算时间。
多元化的应用催生了多样的算法框架,算法支持应用,而算法框架是将算法用于解决实际问题,助力AI芯片算力价值体现,充当AI芯片与应用的桥梁。
比如说算法就是诸如LR、GBDT、DNN、DeepFM这样的实际解决某个数学问题的公式实现。算法框架可以让算法执行更高效,比如最早玩深度学习的人都用Theano,基于Theano去开发算法很困难,后来有了PyTorch和TensorFlow,让基于深度学习的算法开发更方便。
目前算法框架已经非常丰富,包括PyTorch、TensorFlow,还有商汤科技开源的Sense Parrots,华为开源的昇思MindSpore,百度飞桨PaddlePaddle等等。
算法工程师其实是基于算法框架开发AI算法的,也就是说深度学习框架衔接起了硬件芯片算力和上面AI算法应用,然而AI训练框架逐渐丰富,但未形成统一的芯片接口,这使得AI训练芯片对框架逐一适配的成本高昂,这也阻碍了AI芯片在市场应用上的快速迭代。
为此,商汤科技希望基于已经开源开放的算法体系,构建统一的接口,把大家协同在一起,在软件层面,在算法的结构分解出一些标准算子,表明哪些算子在哪些应用场景中最为重要,这样可以让大家能够把有限的适配资源,投放到更有用的地方。
商汤给出的软件解决方案包括了算法分级体系和标准算子接口体系。据林大华介绍,算法分级体系首先是从影响力、性能、部署特性三个维度,即算法模型在学术界和工业界的影响力,算法模型的精度和速度,以及算法模型的部署友好性,将AI算法进行分级,这样可以给出方向性的应用参考。
接着是卷积输入配置频率统计,每个算法模型在实际训练中存在不同的卷积输入参数配置,不同参数配置的卷积算子使用频率存在较大的差异。
再得出高优Spec优化清单,从算法模型优先级评估+模型卷积输入配置频率,得到模型重要性和卷积输入配置频率加权评分,再得到高优Spec优化清单,芯片厂商可参考优化的清单进行针对性优化。
总之,基于算法分级体系的算子优化方法可以助力挖掘高优Spec,确认常用卷积输入配置优化优先级,提高芯片厂商适配能效。
长尾算子在实际应用中占比非常高,但却不在标准算法库里面,因此需要建立标准算子接口来提升芯片和框架的适配。
标准算子接口体系,包括统一算子接口及函数签名和一致性测试套件。主要特点是,不依赖具体的框架和芯片,逻辑简单、易阅读、易扩展,与标准接口定义保持一致,具有可移植性和强适用性,提供一致性的错误处理机制,支持主流开发框架和应用模型。
传统芯片和框架适配流程,存在这样的问题:1、厂商合作前沟通成本高;2、适配工作量难度高,风险难以控制;3、适配案例和经验难以复用到其它芯片和框架适配场景中。而接入标准算子接口体系的芯片和框架适配流程,有几个优点:1、厂商合作前没有额外沟通成本;2、工作量小、难度低,风险可控;3、一次接入即可完成对主流芯片、框架适配场景的支持。
整体而言,近些年AI产业在芯片算力、算法、框架,以及应用方面都有很大的进步,然而如果AI产业要长期健康的发展,还需要上下游机构、厂商一起,携手合作构建出一个繁荣的生态,这中间的算法框架在连接起底层芯片和上层业务方面,承担着重要责任。
在日前某论坛上,商汤科技联合创始人兼大装置首席科学家林大华谈到,商汤科技每年要生产几万个AI模型,然而模型丰富,算子的长尾效应也很明显,10% 经典算子虽然占据90% AI芯片算力,而90%长尾算子却占据大量计算时间。
多元化的应用催生了多样的算法框架,算法支持应用,而算法框架是将算法用于解决实际问题,助力AI芯片算力价值体现,充当AI芯片与应用的桥梁。
比如说算法就是诸如LR、GBDT、DNN、DeepFM这样的实际解决某个数学问题的公式实现。算法框架可以让算法执行更高效,比如最早玩深度学习的人都用Theano,基于Theano去开发算法很困难,后来有了PyTorch和TensorFlow,让基于深度学习的算法开发更方便。
目前算法框架已经非常丰富,包括PyTorch、TensorFlow,还有商汤科技开源的Sense Parrots,华为开源的昇思MindSpore,百度飞桨PaddlePaddle等等。
算法工程师其实是基于算法框架开发AI算法的,也就是说深度学习框架衔接起了硬件芯片算力和上面AI算法应用,然而AI训练框架逐渐丰富,但未形成统一的芯片接口,这使得AI训练芯片对框架逐一适配的成本高昂,这也阻碍了AI芯片在市场应用上的快速迭代。
为此,商汤科技希望基于已经开源开放的算法体系,构建统一的接口,把大家协同在一起,在软件层面,在算法的结构分解出一些标准算子,表明哪些算子在哪些应用场景中最为重要,这样可以让大家能够把有限的适配资源,投放到更有用的地方。
商汤给出的软件解决方案包括了算法分级体系和标准算子接口体系。据林大华介绍,算法分级体系首先是从影响力、性能、部署特性三个维度,即算法模型在学术界和工业界的影响力,算法模型的精度和速度,以及算法模型的部署友好性,将AI算法进行分级,这样可以给出方向性的应用参考。
接着是卷积输入配置频率统计,每个算法模型在实际训练中存在不同的卷积输入参数配置,不同参数配置的卷积算子使用频率存在较大的差异。
再得出高优Spec优化清单,从算法模型优先级评估+模型卷积输入配置频率,得到模型重要性和卷积输入配置频率加权评分,再得到高优Spec优化清单,芯片厂商可参考优化的清单进行针对性优化。
总之,基于算法分级体系的算子优化方法可以助力挖掘高优Spec,确认常用卷积输入配置优化优先级,提高芯片厂商适配能效。
长尾算子在实际应用中占比非常高,但却不在标准算法库里面,因此需要建立标准算子接口来提升芯片和框架的适配。
标准算子接口体系,包括统一算子接口及函数签名和一致性测试套件。主要特点是,不依赖具体的框架和芯片,逻辑简单、易阅读、易扩展,与标准接口定义保持一致,具有可移植性和强适用性,提供一致性的错误处理机制,支持主流开发框架和应用模型。
传统芯片和框架适配流程,存在这样的问题:1、厂商合作前沟通成本高;2、适配工作量难度高,风险难以控制;3、适配案例和经验难以复用到其它芯片和框架适配场景中。而接入标准算子接口体系的芯片和框架适配流程,有几个优点:1、厂商合作前没有额外沟通成本;2、工作量小、难度低,风险可控;3、一次接入即可完成对主流芯片、框架适配场景的支持。
整体而言,近些年AI产业在芯片算力、算法、框架,以及应用方面都有很大的进步,然而如果AI产业要长期健康的发展,还需要上下游机构、厂商一起,携手合作构建出一个繁荣的生态,这中间的算法框架在连接起底层芯片和上层业务方面,承担着重要责任。
最新内容
手机 |
相关内容
重庆东微电子推出高性能抗射频干扰
重庆东微电子推出高性能抗射频干扰MEMS硅麦放大器芯片,芯片,推出,算法,抑制,音频,信号,重庆东微电子有限公司最近推出了一款高性能写flash芯片时为什么需要先擦除?
写flash芯片时为什么需要先擦除?,擦除,芯片,充电,初始状态,存储单元,数据,Flash芯片是一种非易失性存储器技术,用于存储数据并实现固华为公开半导体芯片专利:可提高三维
华为公开半导体芯片专利:可提高三维存储器的存储密度,专利,存储密度,存储器,芯片,存储单元,调整,华为是全球领先的信息与通信技术解新一代8通道脑电采集芯片研制成功,
新一代8通道脑电采集芯片研制成功,铠侠与西部数据已中止合并谈判,合并,芯片,脑电,新一代,通道,产品,近日,一项重要的科技突破在全球范加特兰毫米波雷达SoC芯片赋能室内
加特兰毫米波雷达SoC芯片赋能室内安防新应用,毫米波雷达,芯片,用于,稳定性,目标,感知,室内安防是一个重要的领域,随着技术的进步和人电容式触摸按键屏中应用的高性能触
电容式触摸按键屏中应用的高性能触摸芯片,芯片,位置,触摸屏,能力,响应,用户,电容式触摸按键屏(Capacitive Touch Key Screen)是一种常台积电1.4nm,有了新进展
台积电1.4nm,有了新进展,台积电,行业,需求,竞争力,支持,芯片,近日,台积电(TSMC)宣布将探索1.4纳米技术,这是一项令人振奋的举措,将有望为E苹果即将推出Mac系列新品,或搭载3nm
苹果即将推出Mac系列新品,或搭载3nm M3芯片,芯片,搭载,推出,全新,市场,研发,近日,有关苹果即将推出新一代Mac系列产品的消息引起了广