芯师爷

最及时且有深度的半导体新媒体。每日解读半导体科技最新资讯、发展趋势、技术前沿信息,分享产业研究报告,并打造中国最大的半导体社群与生态圈

IP属地:未知
    • 芯师爷芯师爷
      ·2023-11-19

      算力简史(完整版)

      引言:今天这篇文章,我将给大家详细介绍一下人类算力的演进过程。这是一段波澜壮阔的历史,值得我们驻足与回忆。文|小枣君来源|鲜枣课堂█ 人工算力时代人类对算力的利用,从远古时期就已经开始了。大脑,是我们最原生的算力工具。依靠大脑所提供的算力,我们才得以生存。动物也有大脑,也有算力,但是远远不如人类强劲。在漫长的进化过程中,人类的大脑越来越发达,最终帮助自己从万物生灵中脱颖而出,成为了地球的主宰。在人类早期阶段,主要的计算内容是如何狩猎,如何防范袭击,如何繁衍后代。后来,有了基本的生存保障,人类就开始将更多的算力用于改善生存质量,例如搭建房屋、交易物品、制造工具等。计算是对信息进行处理的过程。所以,如何表达和记录信息,是实施计算的第一步。在原始社会,为了更好地描述自己观察到的信息(所见、所闻、所想),也为了更方便地进行信息沟通,人类开始尝试绘画。在绘画的基础上,又发明了文字。原始人的壁画早期象形文字文字,其实就是用表意符号对信息进行“编码”。它是物理世界和精神世界的一种映射和表达。有了文字,信息的记录和传递效率大幅提升,人类社会有了更强的联结力,也有了历史和文明的传承。文字里面,还有一种很特殊的符号,那就是数字。所有的人类早期先进文明,都有自己的文字,也有自己的数字。基于数字,他们还建立了数字系统,例如巴比伦文明的六十进制,玛雅文明的二十进制或十八进制,中国和古埃及的十进制。数字出现后,人们将计数和算数的过程,称为计算。这是计算一词的来源。古希腊在数字和计算上比较领先,很早就创立了算术、几何、代数等独立学科。著名思想家、哲学家、数学家毕达哥拉斯(Pythagoras)发现并证明了勾股定理,是那一时期人类计算水平的标志。毕达哥拉斯后来,毕达哥拉斯学派主张用数来解释一切,认为不仅万物都包含数,而且“万物皆是数”。事实证明,这种思想极具前瞻性。如今,我们确实实现了“万物皆比
      2,873评论
      举报
      算力简史(完整版)
    • 芯师爷芯师爷
      ·2023-11-19

      微软发布自研芯片,黄仁勋为何站台?

      北京时间11月16日凌晨,“微软造芯”这颗飞了一个月的石头落地了:微软CEO萨提亚·纳德拉在Ignite2023开发者大会上发布两款芯片,一款CPU、一款AI加速器,均用于云服务,分别命名为Azure Cobalt 100和Azure Maia 100。芯片用于云服务,切中了网友的猜测。而此次发布会上还有两点超出了网友原本的预料:第一,没发布NPU,反而推出了一款CPU;第二,英伟达CEO黄仁勋被请到现场,大谈两公司在AI领域的合作成果,坊间猜测的“微软挑战英伟达”说在一定程度上被消解。果然,科技圈没有永远的市场争夺,只有慕强是唯一真理?01微软为何要做CPU?“体量够大。”这是记者提问“为什么微软要做CPU时”,业界专家给出的答案。对于微软来说,云计算是当前最重要的业务板块、也是最大的盈利来源。在算力需求日益旺盛的当下,由购置处理器带来的成本已相当可观。自研处理器,很有可能是基于实现企业利益最大化的考量。芯谋研究企业服务部总监王笑龙表示,靠自研芯片提升企业品牌价值可能是一些小企业的思路,对于微软这样体量的企业来说,自研芯片肯定是为优化企业业务服务。对于云计算厂商来说,传统的服务器通常由CPU和GPU两类处理器组成。其中CPU的主要供应商是英特尔和AMD,GPU的主要供应商是英伟达和AMD。而微软此次推出的两款芯片,恰恰对应这两大类型:Azure Cobalt 100是CPU,Azure Maia 100作为一款AI加速器,主要对应的是当前GPU的功能。萨提亚·纳德拉表示,这两款产品将先自用,再逐步对外供应。萨提亚·纳德拉发布Azure Cobalt 100另一方面,现有处理器不是最适合AI的,几乎已经成为算力芯片供应商的共识。这也是在大模型浪潮的推动下,NPU、APU、TPU等AI专用处理器类型纷繁迭出的底层逻辑。在AMD、英特尔等传统处理器企业之外,芯片设计已经吸引了亚
      1,001评论
      举报
      微软发布自研芯片,黄仁勋为何站台?
    • 芯师爷芯师爷
      ·2023-11-18

      一名芯片工程师的张江观察:城市,如何让更多人体面生活?

      编者按张江科学城,中国之硅谷!几个月前,上海财经大学一名教授在一场讲座中提出,“上海的未来在张江”:这里集聚了代表中国未来发展的三大先导产业——集成电路、人工智能和生物医药。仅就集成电路(即“芯片”)而言,2022年,张江集成电路产业销售收入达2011亿元,占上海比重约66%,占全国比重约1/6。然而,张江今日之业,并非一日之功!且不说本世纪初拓荒开业时的景象,十年之前,张江也是另一番模样。在急剧变化、前行的征途中,张江吸引了全国乃至全球各地的人才,扎根此地、创业发展。本文作者就是一名在张江工作的芯片工程师,他的见闻与感悟,既让我们得以管窥张江发展历程的一页剪影,也引导我们去思考另一个更为深沉的问题:城市,如何包容、接纳更加多元的群体,让更多奉献此地的人们,寻获更多幸福与体面的生活?一、张江初印象:地处偏远,人烟稀少我于2012年进入摄像头芯片行业,当时公司坐落于漕河泾。那时候,做手机方案的公司主要集中在浦西,浦东特别是张江也有一些方案公司,但数量不多。当时我们每天的工作安排,谁要是被叫去张江调试,忙完回到公司,总会向同事“抱怨”一下:“今天跑了一趟张江,好远!”那年冬天的某个上午,我被派到张江去支持客户,走出广兰路地铁站,步行到盛夏路,寒风瑟缩,街道冷清,未见什么行人。直到走进写字楼,才揭晓这座科学城(当时还是叫“科技园区”)隐藏的生机——里面比外面热闹。又一次,应该是一个周五的晚上,季节依然指向冬天。我们在张江忙到八九点钟收工,大家都已饥肠辘辘,准备去吃饭。经理开车带我们来到长泰广场,冬夜的广场上,有圣诞老人坐着驯鹿车的雕像,高高的圣诞树上闪耀着六芒星,这是商场在为圣诞节活动做准备了。偌大的广场,人却出奇得少,但这并未打消我们吃喝的雅兴。让人始料不及的是,我们找了一家又一家餐厅,均被告知:“不好意思,打烊了。”这才几点?九点不到,商场的饭店都打烊了,这在浦西是不可想象的
      863评论
      举报
      一名芯片工程师的张江观察:城市,如何让更多人体面生活?
    • 芯师爷芯师爷
      ·2023-11-18

      赢麻了的英伟达背后,藏着万般无奈

      文| 郝博阳 无忌最强GPU芯片再次升级了,但更像是半代升级。在11月13日的2023年全球超算大会(SC23)上,英伟达发布了新一代AI芯片HGX H200,用于AI大模型的训练,相比于其前一代产品H100,H200的性能提升了约60%到90%。H200是英伟达H100的升级版。与过往GPU升级主要都在架构提升上不同,H200与H100都基于Hopper架构。在同架构之下,H200的浮点运算速率基本上和H100相同。而其主要升级点转向了内存容量和带宽。具体包括141GB的HBM3e内存,比上一代提升80%,显存带宽从H100的3.35TB/s增加到了4.8TB/s,提升40%。H200核心GPU运算数据与H100完全一致然而,在大模型推理表现上,其提升却极其明显。H200在700亿参数的Llama2大模型上的推理速度比H100快了一倍,而且在推理能耗上H200相比H100直接降低了一半。对于显存密集型HPC(高性能计算)应用,H200更高的显存带宽能够确保高效地访问数据,与CPU相比,获得结果的时间最多可提升110倍。因为框架未有改变,H200与H100有着完全的兼容性。这意味着已经使用先前模型进行训练的AI公司将无须更改其服务器系统或软件即可使用新版本。为什么英伟达突然不卷频率,卷起内存了呢?01H200这个半代升级,是不得不发的无奈之举芯片内存,靠着AI才走向了前台。几十年来,出于技术和经济原因,各种处理器在计算上配置过度,但在内存带宽上配置不足。因为内存容量取决于设备和工作负载。比如处理Web基础设施工作、或一些相对简单的分析和数据库工作,一个拥有十几个DDR内存通道的CPU就足够处理了。但对于HPC模拟和建模、人工智能训练和推理来说,这点内存通道就不够用了。为了实际提高矢量和矩阵引擎的利用率,内存容量和内存带宽突然成了高性能GPU的命门。早在今年年初,全球大厂扫货
      1,115评论
      举报
      赢麻了的英伟达背后,藏着万般无奈
    • 芯师爷芯师爷
      ·2023-11-18

      HDD最后的冲刺:大容量硬盘的奋力一搏

      1.引言在上一篇文章(微软Azure云数据中心工作负载分享:SSD与HDD,何去何从?)中,我们提到在应对SSD QLC/PLC大容量的挑战中,HDD也是在不断的努力,推出HAMR,SMR等新介质。HDD如果想要不被SSD抢占市场,必须要提升容量,并且降低成本。成本是HDD最大的优势。本文,我们重点聊聊,如何提升硬盘的容量,以及各家HDD厂商的产品进度。2.如何提升硬盘的容量?如果要增加盘的容量,势必需要增加碟片磁道的密度,随着容量越大,碟片上放置数据的颗粒位之间间距越来越短,相互之间的磁性影响也会越来越大。如何保证保持数据位的稳定性,如何在需要时强迫一个非常稳定的位改变其磁方向?如果颗粒的热稳定性非常高,如何将新数据写入硬盘?这就是HAMR和MAMR要解决的问题。(1)HAMR:全称,Heat Assisted Magnetic Recording,是一种热辅助磁记录技术HAMR 采用了一种新型的介质磁技术,数据颗粒位的占用空间会更小,密度也会相应增加,从而达到提升容量的目的,同时保持磁稳定和热稳定。在需要写入新数据的时候,磁头上激光二极管就会瞬间在颗粒位增加热量,使得单个颗粒位实现磁极性完成反转,从而完成写数据的过程。这个加热/冷却完成数据存储的过程持续的时间非常短,在1ns级别,对硬盘整体的稳定性和可靠性没有影响。不过,这个激光二极管在颗粒位产生的温度达到400-700C,保证基板和其他部件的高温影响,可靠性这部分对于HAMR来说,仍然有很多的难点需要突破,这也是HAMR为何研究了十几年,却一直无法大规模生产的原因。为了克服衍射极限,HDD厂商(比如希捷)利用光子晶体中的等离子体激元来突破衍射极限。这个新组件被称为等离子体近场传感器,简称NFT。等离子体 NFT 由一个圆盘和类似钉子的结构组成。光被圆盘吸收,并变成了表面等离子体。这个表面等离子体沿圆盘和钉子,精确指向
      1,274评论
      举报
      HDD最后的冲刺:大容量硬盘的奋力一搏
    • 芯师爷芯师爷
      ·2023-11-18

      到底什么是算力?

      算力的字面意思,大家都懂,就是计算能力(Computing Power)。所谓“计算”,我们可以有多种定义。狭义的定义,是对数学问题进行运算的过程,例如完成“1+1=?”的过程,或者对“哥德巴赫猜想”进行推理的过程。广义的定义,则更为宏观,凡是对信息进行处理并得到结果的过程,都可以称为“计算”。很显然,狭义和广义定义的区别,主要是计算的内容不同。而完成计算过程的能力,都可以称之为“算力”。事实上,人类的思考,就是一个最常见的计算过程。我们除了睡觉和发呆的时间之外,每时每刻都在进行着思考。我们通过五官对外界信息进行观察、感知和收集。然后,借助大脑,对这些信息进行处理(也就是思考)。最后,得出结论,做出判断,并采取行动。在这个过程中,大脑就是我们的算力工具。而大脑的思考能力,就是算力。大脑的思考速度越快,意味着算力越强。计算是人类解决问题的一种方式。在漫长的历史长河中,人类遇到过很多问题,都需要通过计算来解决。这些计算任务,仅凭大脑这个“原生”算力工具,是无法完成的。于是,人类发明了很多算力工具和方法,满足计算需求。例如算盘、算筹、计算尺等。20世纪40年代,在技术的不断积累下,电子计算机诞生,信息技术革命正式开启。早期的计算机,其实就是一个大型计算器,主要用于军事领域的复杂计算任务(例如弹道计算)。它的性能并不算强,而且体积和功耗巨大。后来,晶体管被发明出来,取代了真空管,才逐渐解决了体积和功耗的问题。1958年,集成电路问世,正式开创了芯片时代。芯片里面拥有大量的电子元件(例如晶体管、电阻、电容等),可以执行运算指令。近几十年以来,在摩尔定律的支配下,芯片上的晶体管数量不断增加,性能也不断提升。在芯片能力的加持下,计算机变得越来越强大,体型也越来越小,最终催生了PC,以及繁荣的IT软硬件生态。计算机开始走入家庭和行业,并最终成为人类最重要的算力工具。我们将计算机应用于各个领
      1,032评论
      举报
      到底什么是算力?
    • 芯师爷芯师爷
      ·2023-11-18

      RISC-V,为何被视为国内芯片崛起的关键?

      提到CPU,大家首先就会想到"卡脖子"事件。X86和ARM的IP授权虽然方便,但是不自主和不可控,一被限制就可能导致国内一夜间"无芯"可用。今天我们就来聊聊一个解决芯片卡脖子的有效方式--开源RISC-V芯片。聊芯片前我们先聊聊什么是指令集?要想了解CPU,那不可避免的要了解指令集。我们平常说的X86、ARM芯片,都是指的芯片的指令集架构。指令集是软件和硬件之间的接口,简单来说指令集就是软件与硬件之间沟通的"翻译官",是芯片产业中不可或缺的基础部分。使用不同的指令集,代表着不同的CPU。目前市面上的CPU分类主要分有两大阵营,一个是Intel、AMD为首的复杂指令集(CISC)CPU,另一个是以IBM、ARM、RISC-V为首的精简指令集(RISC)CPU。不同品牌的CPU,其产品的架构也不相同,例如,Intel、AMD的CPU是X86架构的,而IBM公司的CPU是PowerPC架构,ARM公司是ARM架构。同时,不同的芯片厂商按照指令集的设计情况分为精简指令集和复杂指令集。那么不同的指令集有啥不同的?不同的指令集决定着CPU的处理方式。从指令集角度来看,CPU的效率主要通过两种思路来提升:要不通过降低每个程序所需的指令数来提升效率,要不通过降低每条指令所需的时间周期数来提升效率。CISC更偏重前者,而RISC更侧重后者。目前来看,CISC指令集较为复杂,提供了丰富的指令,能够减少程序员的编程工作量。然而,随着计算机科学的发展,人们发现这种复杂性会导致处理器的性能和能效下降。因此,RISC应运而生,它采用了一种更简单、更高效的设计理念,通过优化指令集,提高处理器的性能和能效,成为21世纪以来所有新兴领域的绝对主流。说了这么多,大家可能云里雾里,下面我们通过让大家了解下举例来说明下不同指令集的工作原理:拿做饭来说,要完成做饭这个动作。精简指令集需要定义做饭中的每个动作,需要包
      1,254评论
      举报
      RISC-V,为何被视为国内芯片崛起的关键?
    • 芯师爷芯师爷
      ·2023-11-18

      国产算力芯片,如何突围?

      本文作者常年从事计算机算力芯片相关工作。本文作者从算力芯片视角出发,谈谈对国内算力芯片如何实现突围的个人的一些看法。01成熟赛道,后进赶超先进,很难1.1 CPU的江湖恩仇上世纪70年代,Intel发明了CPU。通过对CPU的持续投入,Intel逐渐获得了市场的优势,并逐渐构建起了自己的x86生态,这包括外围的硬件合作伙伴、BIOS等固件开发、操作系统软件、工具链以及应用软件生态等等。RISC是一个失败的例子。X86是CISC架构,随着CISC指令的复杂度越来越高,越来越难以控制,RISC架构逐渐兴起。RISC架构处理器提倡简化指令集设计、固定指令长度、统一指令编码格式、加速常用指令。RISC架构成为很多处理器的首选,并且也成为了许多计算机教材的经典CPU设计案例。但即便如此,在市场竞争上,RISC架构仍然输给了CISC。安腾是Intel自己的一个失败的例子。安腾是Intel于2001年推出的64位架构的CPU处理器。虽然是Intel的亲儿子,虽然是功能强大的64位CPU架构,虽然安腾的架构和微架构设计非常优秀,但因为安腾和x86的不兼容,完全一个新的生态,也不可避免的走向了失败。最后成就了AMD64的成功。ARM的成功,更多源于商业模式。最开始,ARM自研的处理器性能都非常差,其自研的处理器性能通常是低于一些巨头客户自研的ARM架构CPU。但因为ARM是一个中立的CPU架构和IP供应商,很多巨头愿意扶持着它向前迈进。最后在智能手机时代,ARM大获成功。有了资金实力之后,ARM后续CPU的性能才逐渐赶上并且部分超越了自己的巨头客户。RISC-v,后起之秀,明日之星,未来可能的成功也是依赖于更优的商业模式。跟ARM当年的处境类似,目前的RISCv性能和生态都要弱于x86和ARM,但因为更优的商业模式(完全开源开放的,并且得到广泛共识的免费的处理器),其发展也是相当迅猛。1.2
      1,907评论
      举报
      国产算力芯片,如何突围?
    • 芯师爷芯师爷
      ·2023-11-18

      英伟达史上最强AI芯片都发布了,你还不知道GPU的原理和前景

      近期,英伟达新发布的H200芯片,堪称“地表最强”AI芯片,性能相较前一代的H100提升约60%到90%。而更早之前,微软、英特尔与AMD都相继发布了自家的新AI芯片。相关信息,芯师爷在最新文章《万亿AI芯片市场,巨头开抢》中均有梳理。遗憾的是,从美国当前的高端芯片出口政策看,以英伟达H200为代表的美国高端AI芯片短时间内暂时无缘国内。但国内AI技术还是得不断迭代发展,国产替代行不行得通?未来GPU国产适配一定是“在路上”。那么问题来了,高性能GPU 被限制,普通GPU不能用吗?CPU和GPU差在哪里?在解答这些问题之前,我们先来了解下目前哪些场景使用了GPU,以及为什么说大多数程序员都应该了解GPU。GPU和CPU全方位协同的时代说起GPU的应用起源,就不得不说打游戏。可以说在GPU发展的前期,游戏发展占半边天。PS5和Xbox游戏机都内置了GPU芯片。如果你是一位游戏爱好者,你大概率会知道购买游戏设备,会更看重其GPU性能。即所谓的“CPU决定下限,GPU决定上限”。GPU大体决定了游戏分辨率、特效能开多高,对于用户的游戏体验起到关键性作用。其次就是前几年还比较流行的加密货币、“挖矿”。比特币等加密货币的火爆带动矿卡GPU需求,Nvidia的股票也是成倍的翻。矿机算力的大小决定挖矿的速度,算力越大,挖矿越快。当时有句话叫,“上班是为了给我的矿机挣电费”。其次是自动驾驶场景,自动驾驶场景一般在处理分析实时数据后,需要在毫秒的时间精度下对行车路径、车速进行规划,保障行车过程安全,对处理器的计算速度要求也较高。而GPU采用流式并行计算模式,可对每个数据行独立的并行计算,擅长大规模并发计算,正是自动驾驶所需要的。再其次就是深度学习,随着Transformer的出世,AI大模型其参数量从亿级飙升到万亿级,训练时间从小时到天级,使得大模型对算力提升提出要求,而这时高性能GPU集群
      2,549评论
      举报
      英伟达史上最强AI芯片都发布了,你还不知道GPU的原理和前景
    • 芯师爷芯师爷
      ·2023-11-16

      自动驾驶量产,三年之后又三年?

      三年又三年,都快十年了。 如今,智能驾驶行业可谓是两极分化—一边是辅助驾驶市场熙熙攘攘,一边是自动驾驶行业凄凄惨惨。 车企和智驾供应链上下都被牢牢禁锢在辅助驾驶科技普惠的铁帽子下,哪怕杀敌一千自损八百,也要自割腿肉,顺带着相互降价、拆台、互怼、阴阳……吵吵闹闹,好坏难辨。 至于自动驾驶(注:本文中“自动驾驶”特指L3以上自动驾驶),谁都没有多余的精力和眼神分给它——它就像一颗掠地流星,虽然出现在公众眼里的时间相较于其他流星而言确实长了不少,但一时还是在视野中愈行愈远。 2015年,前百度副总裁、无人车项目负责人王劲发出豪言壮语,将实现自动驾驶汽车“三年商用,五年量产”。如今三年之后又三年,马上就快十年了,自动驾驶依然奋战在量产的道路上。 但近期,不少媒体和车评人都明示、暗示了自动驾驶似乎有卷土重来,重登巅峰的可能,并且直言,这个猜测绝非空穴来风。 他们的依据在于,工信部在去年11月发布的《关于智能网联汽车准入和上路通行试点工作的通知(征求意见稿)》,按正常审批流程,正式通知大概率将在今年年底前发布,满打满算也就这两个月的事情了。 在征求意见稿中,有两点很是引人注意: 一是允许符合条件的道路机动车辆生产企业和具备量产条件的搭载自动驾驶功能的智能网联汽车产品开展准入试点。 二是对通过准入试点的智能网联汽车产品,在试点城市的限定公开道路区域内开展上路通行试点。 不少媒体对此的理解是,若文件正式签发,意味着具备L3及以上自动驾驶功能的车辆,将走通生产、销售和上路的全流程,得到国家层面的认可和允许,很多曾经横亘于自动驾驶汽车面前的法律问题就会迎刃而解。 并由此断言,L3及以上级别自动驾驶将以此为凭,演绎一段自动驾驶殿堂的“熹贵妃回宫”的高光戏码,卷土重来,重登巅峰。 但这份万众期待的试点通知真的能成为L3及以上级别自动驾驶卷土重来的机会和底气吗?自动驾驶是否就真的离普通用户更近了一步
      718评论
      举报
      自动驾驶量产,三年之后又三年?
       
       
       
       

      热议股票