到了2022年的第三季度,国内的主流手机厂商都已经发布了今年的旗舰机型,在清一色的八淦一的完美衬托下,旗舰机型里搭载MTK的天玑9000可谓是消费者的福利(这是在没有麒麟的背景下)。
我们一起看看2022年国内品牌的销售数据,2022年4月,国内市场智能手机销量仅为1760万部,同比下滑21.6%,环比下滑12.2%,单月销量创下2020年疫情以来第二差的单月成绩,仅高于2020年2月的水平。
国内手机市场自今年2月开始,呈现下行颓势,同时在疫情的影响下,手机市场需求持续疲软,加上在芯片、形态、功能并没有显著进步或者革新的前提下,消费者换机意愿仍然较低。
从各手机品牌厂商角度来看,2022年4月,苹果逆势夺回销量冠军;荣耀维持了销量亚军的成绩,销量同比大增127.7%;而2022年第一季度销量排名第一的OPPO,销量同比下滑42.7%、环比下滑15.2%,销量同比环比下滑幅度,均高于国内市场智能手机的平均下滑幅度,销量排名也滑落至第三。
在如今国内芯片高端代工空缺的情况下,海思半导体尽管设计水平依旧名列前茅,但是因为众所周知的原因,导致麒麟无法量产;在这里,国内的供应链仍需加速发展。
这次,我们就谈谈智能手机SOC的那些事。
手机SOC俗称主芯片,一般集成CPU、GPU、XPU、Memory、ISP、Modem以及各种接口。
CPU
CPU是中央处理器,一般采用ARM架构,包括了寄存器组、指令集、总线、存储器映射规则、中断逻辑和调试组件等,分A系列、R系列、M系列。其中M系列主要用作微控制,主频较低,在500MHz以下,因此主要针对低成本和低功耗的应用,如MCU。R系列主要用作实时操作,主频在500MHz~1GHz,因此主要针对实时制动传动和通信,如Cat x物联网模块。A系列主要用作应用处理器,算力较强,主频在500MHz~3GHz,因此可以运行操作系统及提供丰富的媒体和图形体验,如手机平板CPU。
衡量CPU一般需要综合评估计算核(Axx架构)、主频(多少GHz)、缓存(多少K Cache)以及工艺制程(几nm)。用的什么架构决定了单核一次处理信息的能力,按ARM的命名规则,数越大处理能力越强,但A5X系列升级到X1超大核,A7X系列升级到X2超大核,也能明显看出后者更强。主频表示计算核一秒计算的次数,频率越高计算性能越强。缓存里存储的是被CPU访问最频繁的数据和指令,CPU调用时首先在L1 Cache里找,没命中再去L2 Cache里找,还没命中再去L3 Cache里找,最后才去内存里调用。缓存越大命中率越高,CPU计算效率也越高。工艺制程决定了晶体管的尺寸,一般制程节点越先进CPU性能越好,功耗越低,同等制程节点下,台积电制造的性能最好。
CPU遵循冯诺依曼架构(存储程序,顺序执行),因此需要大量的空间去放置存储单元和控制单元,相比之下计算单元只占据了很小的一部分,所以它在大规模并行计算能力上极受限制,而更擅长于逻辑控制。为了解决CPU在大规模并行运算中遇到的困难,GPU应运而生。
与CPU相对应的就是GPU,CPU是中央处理单元,GPU是图形处理单元。顾名思义,GPU是专门用来处理图形和视频显示的,我们能在显示器上看见图像就是GPU在工作。
计算机没有GPU也可以工作,就像远程服务器一样,但如果我们对显示有要求就不得不使用它了。现在基本CPU上都会集成GPU,也就是常说的集成显卡,但它的能力有限,办公有余,游戏不足。
我们的显示器上会有很多像素点,GPU的作用就是根据指令给每个像素点找到对应的颜色,每个像素点有上千万种颜色可供选择,一块屏幕又有数十万个像素点,游戏过程中还要随时刷新,因此这是一个庞大的工作量,就不得不交给独立的GPU来完成。
GPU
接下来,说说现阶段大力发展的NPU。我们以麒麟990为例,进行分析。
达芬奇架构,是华为自研的面向AI计算特征的全新计算架构,具备高算力、高能效、灵活可裁剪的特性,是实现万物智能的重要基础。具体来说,达芬奇架构采用3D Cube针对矩阵运算做加速,大幅提升单位功耗下的AI算力,每个AI Core可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU实现数量级的提升。
同时,为了提升AI计算的完备性和不同场景的计算效率,达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。支持多种精度计算,支撑训练和推理两种场景的数据精度要求,实现AI的全场景需求覆盖。
在如智能手机等实际端侧AI应场景中,AI算力与功耗的协调是至关重要的,一般来讲更高的AI算力意味着更大的功耗,因此智能手机的续航常常使AI算力受限。而有了达芬奇架构NPU,这一状况将得到改善,如果麒麟990能够搭载达芬奇架构NPU,麒麟芯片或将再次迎来震动行业的算力升级。
DaVinci Core是如何实现高效AI计算的?
在2018年全联接大会上,华为推出AI芯片昇腾310,这是达芬奇架构的首次亮相,昇腾310相当于AI芯片中的NPU。其中,DaVinci Core只是NPU的一个部分,DaVinci Core内部还细分成很多单元,包括核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等,它们各自负责不同的运算任务实现并行化计算模型,共同保障AI计算的高效处理。
3D Cube矩阵乘法单元:算力担当
刚才已经提到,矩阵乘是AI计算的核心,这部分运算由3D Cube完成,Buffer L0A,L0B,L0C则用于存储输入矩阵和输出矩阵数据,负责向Cube计算单元输送数据和存放计算结果。
Vector向量计算单元:灵活的多面
虽然Cube的算力很强大,但只能完成矩阵乘运算,还有很多计算类型要依靠Vector向量计算单元来完成。Vector的指令相对来说非常丰富,可以覆盖各种基本的计算类型和许多定制的计算类型。
Scalar标量计算单元:流程控制的管
Scalar标量运算单元主要负责AI Core的标量运算,功能上可以看作一个小CPU,完成整个程序的循环控制,分支判断,Cube/Vector等指令的地址和参数计算以及基本的算术运算等。
3D Cube计算方式,有哪些独特的优势?
不同于以往的标量、矢量运算模式,华为达芬奇架构以高性能3D Cube计算引擎为基础,针对矩阵运算进行加速,大幅提高单位面积下的AI算力,充分激发端侧AI的运算潜能。以两个N*N的矩阵A*B 乘法为例:如果是N个1D 的MAC,需要N^2(即N的2次方)的cycle数;如果是1个N^2的2D MAC阵列,需要N个Cycle;如果是1个N维3D的Cube,只需要1个Cycle。
华为创新设计的达芬奇架构将大幅提升算力,16*16*16的3D Cube能够显著提升数据利用率,缩短运算周期,实现更快更强的AI运算。这是什么意思呢?举例来说,同样是完成4096次运算,2D结构需要64行*64列才能计算,3D Cube只需要16*16*16的结构就能算出。其中,64*64结构带来的问题是:运算周期长、时延高、利用率低。
SOC缓存
缓存其实就是CPU本身的内存,用来放置当前需要处理的数据,如同内存对于手机的作用,那么为何CPU不用手机内存而用本身的缓存呢?
CPU缓存的作用主要是为了解决CPU运算速度与内存读写速度不匹配的矛盾,而缓存的容量要比内存要小的太多,但是其速度要比内存快的多,因此这样会让CPU使用很长的时间等待数据到来或把数据写入内存中。搜索在缓存中的数据是内存中的一小部分,但这一小部分是短时间内CPU即将访问的,当CPU调用大量数据时,就能够避开内存直接从缓存中调用,从而加快读取速度。
当CPU需要读取数据并进行计算时,首先需要将CPU缓存中查到所需的数据,并在最短的时间下交付给CPU。如果没有查到所需的数据,CPU就会提出“要求”经过缓存从内存中读取,再原路返回至CPU进行计算。而同时,把这个数据所在的数据也调入缓存,可以使得以后对整块数据的读取都从缓存中进行,不必再调用内存。
高端CPU当前分为一级(L1)、二级(L2)和三级(L3)缓存,缓存容量L1最小,L2次之,L3最大。分为三级结构是因为L1制造难度大,成本高,但L1缓存容量对系统提升比较有限,所以一般都很小。而CPU的读取顺序是:L1→L2→L3→内存,L2作为外部缓冲,而L3就是L2的缓冲。因为CPU缓存比内存读取速度快,所以缓存容量越大越好。
2021年高端处理器都已经发布,那么CPU缓存部分哪家更舍得堆料呢,我们本次选择骁龙8gen1、天玑9000和A15来具体对比:
可以看到高通和联发科虽然提升很大,但苹果A15在CPU缓存方面依然遥遥领先,几乎相当于骁龙8gen1的5倍,天玑9000的4倍,这也是使用几年的苹果手机任然能够流畅运行的原因。
手机SOC内存RAMd的重要性
我们都知道,手机内存(RAM)越大性能和体验越好,对于安卓而言,这个道理简单粗暴。但除了容量,还有很多因素会影响手机内存的性能。
如今手机内存主要以LPDDR4X和LPDDR5两种标准为主。LPDDR5相比较于LPDDR4X,综合场景续航提升大约10%,玩游戏省电大约20%,微信视频和语音续航大约提升10%,一句话概括就是性能更强,功耗更低。实际上,从LPDDR3→ LPDDR4→ LPDDR4X→ LPDDR5,下一代内存较之前辈都具备上述优势。
内存频率:内存频率越高,性能越强。LPDDR4X就存在LPDDR4X-1866(等效3733MH)和LPDDR4X-2133(等效4266MHz)两种频率,LPDDR5也包含LPDDR5-2750(等效5500MHz)和LPDDR5-3200(等效6400MHz)两种频率,现在很多旗舰手机搭载的所谓“满血LPDDR5内存”,指的就是LPDDR5-3200标准。
内存通道:手机专用的LPDDR内存默认均为16bit位通道。以骁龙7系、6系、4系为代表的中低端移动平台都是2×16bit,即16位双通道(共计32位);而骁龙8系移动平台则是4×16bit,即16位四通道(共计64位)。此外,旗舰级芯片普遍还能搭配更高频率的LPDDR5内存,所以它们才能保持对中端芯片的全面压制。
内存管理机制:iPhone手机的内存远不如同期的Android旗舰,但前者却依旧能保持良好的流畅性,也很少听说因内存不够用而导致系统卡顿,在这背后就是内存的调用和回收等管理机制逻辑有别了。配置一模一样的Android手机,打开相同数量的APP总有一款更流畅,说明其研发团队的“软实力”更强。
基带/射频前端
基带和射频的组合共同负责手机与外界的通讯,基带芯片可以说是手机与外界联系的纽带,射频前端主要负责信号的数字/模拟转换工作,同时还要负责信号的放大。二者共同组合决定了手机的制式,也就是你的手机是4G手机还是5G手机。
调制解调器
被称为手机与无线网络之间的桥梁,当我们使用手机打电话、上网、发短信等等联网行为时,都是由它处理执行的,调制解调器会在手机和无线网络间建立起一条逻辑通道,传送联网数据、调整通讯模式。
数字信号处理器(DSP)
它被称为处理数据的专家,负责处理数字信号,常见如使电话可双方同时讲话、辅助相机运算,甚至还用来做Ai运算。
总体上看,高度集成化是未来芯片行业发展的必然方向。
从手机制造商角度来看,手机在向着越来越轻薄的方向发展,所以手机内部的空间寸土寸金,高集成度的芯片可以有效的提高手机内部空间的利用率,降低手机的设计难度;同时也缩短了手机的开发时间,有利于产品更快上市。
从芯片制造厂商角度来看,提高手机芯片的集成度也有利于产品的成本控制以及提高竞争力。因为如果采用单独芯片设计的话,前期的晶圆开发成本就会非常高。
好了,今天就聊到这里,我们下期见。
我是六六科技人,我们说车谈科技。欢迎大家关注、评论、转发,大家的支持再是我创作的原动力,我们下篇再见。
欢迎有相同兴趣的朋友加入我们,聊汽车、聊科技、聊热点、聊人生。
本文由梁桂钊于2023-09-01发表在梁桂钊的博客,如有疑问,请联系我们。
本文链接:https://720ui.com/10783.html