海容易啊
03-01
这篇文章不错,转发给大家看看
五天五连炸!回顾DeepSeek“开源周”技术全家桶:用软件“重新定义”算力!
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":408822766735824,"tweetId":"408822766735824","gmtCreate":1740827752326,"gmtModify":1740827753964,"author":{"id":4175171705858830,"idStr":"4175171705858830","authorId":4175171705858830,"authorIdStr":"4175171705858830","name":"海容易啊","avatar":"https://community-static.tradeup.com/news/default-avatar.jpg","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":0,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body>这篇文章不错,转发给大家看看</body></html>","htmlText":"<html><head></head><body>这篇文章不错,转发给大家看看</body></html>","text":"这篇文章不错,转发给大家看看","highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/408822766735824","repostId":2514334945,"repostType":4,"repost":{"id":"2514334945","kind":"news","pubTimestamp":1740747782,"share":"https://www.laohu8.com/m/news/2514334945?lang=&edition=full","pubTime":"2025-02-28 21:03","market":"hk","language":"zh","title":"五天五连炸!回顾DeepSeek“开源周”技术全家桶:用软件“重新定义”算力!","url":"https://stock-news.laohu8.com/highlight/detail?id=2514334945","media":"硬AI","summary":"300行代码榨干H800、比英伟达更懂GPU、6.6TiB/s数据高铁……“开源周”活动最深远的意义,或在于其验证了DeepSeek“低成本高性能”的技术路径。","content":"<html><head></head><body><blockquote><p><strong>300行代码榨干H800、比英伟达更懂GPU、6.6TiB/s数据高铁……“开源周”活动最深远的意义,或在于其验证了DeepSeek“低成本高性能”的技术路径。</strong></p></blockquote><p>“OpenAI不Open,DeepSeek真Deep”。</p><p>本周,“开源周”活动如火如荼地展开,DeepSeek每天不定时上新“黑科技”,让全球程序员直呼:这波简直在大气层!</p><p>从计算到通信再到存储,DeepSeek“五连炸”几乎覆盖了AI开发的全链条,在完全没有升级现有硬件的情况下最大程度地“榨干”算力,进而实现训练效率的飞跃,堪称“最强辅助”,十分强大,无比慷慨。</p><p>我们梳理了DeepSeek这些天来释出的技术组件,惊喜地发现,它们似乎恰巧构建成了一套精密协同的系统。</p><p>如果用<strong>“中央厨房”来比喻这套系统,</strong>那么每当大模型这名厨师要开始“做饭”时,每个环节能展开精密协作,<strong>经由“拿菜-订单处理-传菜-烹饪”的流程后“高效出大餐”。</strong></p><h2 id=\"id_588470335\">Day1:FlashMLA——配菜机器人</h2><p>FlashMLA是DeepSeek专门针对<a href=\"https://laohu8.com/S/NVDA\">英伟达</a>H800这一代高端加速卡做的深度优化,旨在优化GPU解码,处理变长序列,提高计算效率。</p><p>简单来说,FlashMLA的最大优势在于,<strong>面对长短不一的文本序列能动态调配算力资源。</strong></p><p>就像厨房里能根据订单动态分配食材的智能机器人,面对不同规格的订单(文本/语音的长短数据),FlashMLA能自动调节切菜速度(GPU资源分配),<strong>“短订单”秒速完成,长订单则启动高压锅模式,</strong>节省处理时间。</p><p>根据基准测试,FlashMLA能在H800显卡上飙出<strong>580万亿次/秒</strong>的算力,相当于1秒写完《三体》全集,还把显存占用砍到了传统方案的<strong>1/5</strong>。</p><h2 id=\"id_3470915041\">Day2:DeepEP——传输调度台</h2><p>DeepEP是全球首个专为混合专家模型(MoE)和专家并行(EP)定制的开源高性能通信库,旨在解决大规模AI模型训练与推理中的通信瓶颈问题。</p><p>在AI中央厨房中,DeepEP如同新型的传输调度台,相较于传统对讲机(旧通信协议)容易导致指令混乱的弊端,在面对复杂任务时,DeepEP能通过FP8压缩技术,<strong>简化传达任务需求,还能实时更新菜单。</strong></p><p>当需要跨厨房(服务器节点)传递食材(参数)时,RDMA技术更像是一条“传送带”,<strong>将食材直送灶台(GPU)。</strong></p><p>性能数据也很给力:基于H800的GPU,DeepEP可以通过NVLink技术实现单节点内GPU间极速通信,带宽高达约150GB/s,<strong>相当于1秒传完30部高清电影。</strong></p><h2 id=\"id_4092146747\">Day3:DeepGEMM——智能灶台</h2><p>DeepGEMM是一款专注于FP8高效通用矩阵乘法(GEMM)的库,主要满足普通矩阵计算以及混合专家(MoE)分组场景下的计算需求。</p><p>还是拿中央厨房举例,DeepGEMM可以看成是一个万能灶台,<strong>一能做到动态火候控制</strong>,煎牛排用猛火(密集计算用FP8精度),煲汤转文火(MoE门控网络用BF16精度);二能通过JIT技术<strong>,让1平米灶台同时处理10道菜。</strong></p><p>不同于CUDA库这个传统灶台,做佛跳墙要3小时,通过精度动态切换等一系列骚操作,<strong>DeepGEMM只需1小时就能搞定,还省一半燃气(显存)。</strong></p><p>值得注意的是,DeepGEMM采用了轻量级即时编译(JIT)模块,支持运行时动态编译内核,无需提前完成编译和安装。</p><p>也就是说,<strong>DeepGEMM仅凭300行CUDA代码,运算速度就能干翻传统千万行工程库。</strong>有观点戏称:这DeepSeek简直比英伟达都懂GPU。</p><h2 id=\"id_1368970456\">Day4:DualPipe & EPLB——后厨流水线指挥官</h2><p>DualPipe和EPLB是面向大规模AI模型训练的两项核心技术,分别聚焦于分布式训练效率优化和专家并行负载均衡,均为V3/R1而设计。</p><p>实际上,训练大模型最怕遇到“流水线摸鱼”,计算单元等数据时的发呆时间一般被称作“气泡”,而DualPipe和EPLB就是专为减少“气泡”而设计的。</p><p>在中央厨房中,DualPipe是一条“双向传送带”,一边让洗碗工“反向传播”,一边让配菜员“前向计算”在两条平行传送带上工作,<strong>相当于“一边做饭一边洗碗”,解决了“等盘子洗好才能上菜”的尴尬。</strong></p><p>EPLB则充当“智能排班表”的角色,可以克隆大厨(冗余专家)到空闲灶台(GPU),<strong>确保法餐主厨不会累晕在情人节套餐高峰期(负载均衡)。</strong></p><h2 id=\"id_1953201579\">Day5:3FS文件系统——中央冷库+闪电配送</h2><p>最后压轴的Fire-Flyer文件系统(3FS),是专为高性能计算打造的高性能分布式文件系统,旨在应对AI训练和推理工作负载中的挑战,解决“高吞吐写入”与“低延迟读取”难兼顾的痛点。</p><p>对中央厨房而言,3FS更多起到后台储藏的作用,主要的技术优势在于两点。</p><p><strong>一是光速存取</strong>:6.6TB/s的吞吐量,相当于<strong>每分钟搬空300个冰柜(传统硬盘)的食材(数据)</strong>。</p><p>二是<strong>保鲜黑科技</strong>:通过SSD+RDMA技术的结合,确保<strong>北京分店和上海分店看到的牛排永远是同一块,</strong>也就是所谓的“数据强一致性”。</p><h2 id=\"id_3769972617\">打响AI“开源盛世”第一枪,继续推翻象牙塔</h2><p>不管是传输调度台,还是配菜机器人,DeepSeek此次开源的技术组件,设计初衷都在于进一步降低算力成本、优化训练效率。</p><p>有分析认为,这波开源最硬核的意义在于:通过软件栈的系统性优化(从文件系统到通信协议),可在现有硬件基础上实现倍数级效率飞跃。</p><p>这意味着,AI性能提升不再单纯依赖芯片制程的突破。<strong>而不堆硬件、优化软件、“猛榨”算力,也正是DeepSeek能实现超低成本“超车”一众海外顶尖大模型的秘诀所在。</strong></p><p>有网友表示,OpenAI应该把它们的域名“献给”DeepSeek,因为后者才真正做到了开源。</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/4551f454c3c86ff15fdae67f28e4e66c\" tg-width=\"524\" tg-height=\"120\"/></p><p>还有网友表示,开源AI不稀奇,稀奇的是DeepSeek这种“车库精神和AGI野心的结合”:</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/350efd382adaa20fda0f3c8dd5edb208\" tg-width=\"526\" tg-height=\"305\"/></p><p>还有人奉上梗图,以表尊重:</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/3a4e61090bc38e576d13743ebb8aee21\" tg-width=\"533\" tg-height=\"562\"/></p><p>针对此次的“开源周”活动,我们也让DeepSeek也评论了一下,这是它的回答:</p><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/261507e62b8e9773e9cad3f20355abcc\" tg-width=\"829\" tg-height=\"138\"/></p><p>正如DeepSeek此前的宣言:</p><blockquote><p>“这个领域没有高高在上的象牙塔,只有纯粹的车库创业精神与社区共筑的创新力量。”</p><p>“毫无保留地分享我们微小但真诚的进展。”</p></blockquote><p>而一个更大胆的猜想也正随之浮现:<strong>随着DeepSeek不断用技术优化突破硬件瓶颈,会不会重新定义算力之于AI的意义?</strong></p><p>这场始于中国车库的技术狂欢,仍在继续改写全球AI规则。</p></body></html>","source":"lsy1690508328926","collect":0,"html":"<!DOCTYPE html>\n<html>\n<head>\n<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\" />\n<meta name=\"viewport\" content=\"width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no\"/>\n<meta name=\"format-detection\" content=\"telephone=no,email=no,address=no\" />\n<title>五天五连炸!回顾DeepSeek“开源周”技术全家桶:用软件“重新定义”算力!</title>\n<style type=\"text/css\">\na,abbr,acronym,address,applet,article,aside,audio,b,big,blockquote,body,canvas,caption,center,cite,code,dd,del,details,dfn,div,dl,dt,\nem,embed,fieldset,figcaption,figure,footer,form,h1,h2,h3,h4,h5,h6,header,hgroup,html,i,iframe,img,ins,kbd,label,legend,li,mark,menu,nav,\nobject,ol,output,p,pre,q,ruby,s,samp,section,small,span,strike,strong,sub,summary,sup,table,tbody,td,tfoot,th,thead,time,tr,tt,u,ul,var,video{ font:inherit;margin:0;padding:0;vertical-align:baseline;border:0 }\nbody{ font-size:16px; line-height:1.5; color:#999; background:transparent; }\n.wrapper{ overflow:hidden;word-break:break-all;padding:10px; }\nh1,h2{ font-weight:normal; line-height:1.35; margin-bottom:.6em; }\nh3,h4,h5,h6{ line-height:1.35; margin-bottom:1em; }\nh1{ font-size:24px; }\nh2{ font-size:20px; }\nh3{ font-size:18px; }\nh4{ font-size:16px; }\nh5{ font-size:14px; }\nh6{ font-size:12px; }\np,ul,ol,blockquote,dl,table{ margin:1.2em 0; }\nul,ol{ margin-left:2em; }\nul{ list-style:disc; }\nol{ list-style:decimal; }\nli,li p{ margin:10px 0;}\nimg{ max-width:100%;display:block;margin:0 auto 1em; }\nblockquote{ color:#B5B2B1; border-left:3px solid #aaa; padding:1em; }\nstrong,b{font-weight:bold;}\nem,i{font-style:italic;}\ntable{ width:100%;border-collapse:collapse;border-spacing:1px;margin:1em 0;font-size:.9em; }\nth,td{ padding:5px;text-align:left;border:1px solid #aaa; }\nth{ font-weight:bold;background:#5d5d5d; }\n.symbol-link{font-weight:bold;}\n/* header{ border-bottom:1px solid #494756; } */\n.title{ margin:0 0 8px;line-height:1.3;color:#ddd; }\n.meta {color:#5e5c6d;font-size:13px;margin:0 0 .5em; }\na{text-decoration:none; color:#2a4b87;}\n.meta .head { display: inline-block; overflow: hidden}\n.head .h-thumb { width: 30px; height: 30px; margin: 0; padding: 0; border-radius: 50%; float: left;}\n.head .h-content { margin: 0; padding: 0 0 0 9px; float: left;}\n.head .h-name {font-size: 13px; color: #eee; margin: 0;}\n.head .h-time {font-size: 11px; color: #7E829C; margin: 0;line-height: 11px;}\n.small {font-size: 12.5px; display: inline-block; transform: scale(0.9); -webkit-transform: scale(0.9); transform-origin: left; -webkit-transform-origin: left;}\n.smaller {font-size: 12.5px; display: inline-block; transform: scale(0.8); -webkit-transform: scale(0.8); transform-origin: left; -webkit-transform-origin: left;}\n.bt-text {font-size: 12px;margin: 1.5em 0 0 0}\n.bt-text p {margin: 0}\n</style>\n</head>\n<body>\n<div class=\"wrapper\">\n<header>\n<h2 class=\"title\">\n五天五连炸!回顾DeepSeek“开源周”技术全家桶:用软件“重新定义”算力!\n</h2>\n\n<h4 class=\"meta\">\n\n\n2025-02-28 21:03 北京时间 <a href=https://wallstreetcn.com/articles/3742093><strong>硬AI</strong></a>\n\n\n</h4>\n\n</header>\n<article>\n<div>\n<p>300行代码榨干H800、比英伟达更懂GPU、6.6TiB/s数据高铁……“开源周”活动最深远的意义,或在于其验证了DeepSeek“低成本高性能”的技术路径。“OpenAI不Open,DeepSeek真Deep”。本周,“开源周”活动如火如荼地展开,DeepSeek每天不定时上新“黑科技”,让全球程序员直呼:这波简直在大气层!从计算到通信再到存储,DeepSeek“五连炸”几乎覆盖了AI开发的全...</p>\n\n<a href=\"https://wallstreetcn.com/articles/3742093\">Web Link</a>\n\n</div>\n\n\n</article>\n</div>\n</body>\n</html>\n","type":0,"thumbnail":"https://static.tigerbbs.com/c1b9e2317218728b51c6a034e661fb65","relate_stocks":{"BK4213":"石油与天然气的勘探与生产"},"source_url":"https://wallstreetcn.com/articles/3742093","is_english":false,"share_image_url":"https://static.laohu8.com/e9f99090a1c2ed51c021029395664489","article_id":"2514334945","content_text":"300行代码榨干H800、比英伟达更懂GPU、6.6TiB/s数据高铁……“开源周”活动最深远的意义,或在于其验证了DeepSeek“低成本高性能”的技术路径。“OpenAI不Open,DeepSeek真Deep”。本周,“开源周”活动如火如荼地展开,DeepSeek每天不定时上新“黑科技”,让全球程序员直呼:这波简直在大气层!从计算到通信再到存储,DeepSeek“五连炸”几乎覆盖了AI开发的全链条,在完全没有升级现有硬件的情况下最大程度地“榨干”算力,进而实现训练效率的飞跃,堪称“最强辅助”,十分强大,无比慷慨。我们梳理了DeepSeek这些天来释出的技术组件,惊喜地发现,它们似乎恰巧构建成了一套精密协同的系统。如果用“中央厨房”来比喻这套系统,那么每当大模型这名厨师要开始“做饭”时,每个环节能展开精密协作,经由“拿菜-订单处理-传菜-烹饪”的流程后“高效出大餐”。Day1:FlashMLA——配菜机器人FlashMLA是DeepSeek专门针对英伟达H800这一代高端加速卡做的深度优化,旨在优化GPU解码,处理变长序列,提高计算效率。简单来说,FlashMLA的最大优势在于,面对长短不一的文本序列能动态调配算力资源。就像厨房里能根据订单动态分配食材的智能机器人,面对不同规格的订单(文本/语音的长短数据),FlashMLA能自动调节切菜速度(GPU资源分配),“短订单”秒速完成,长订单则启动高压锅模式,节省处理时间。根据基准测试,FlashMLA能在H800显卡上飙出580万亿次/秒的算力,相当于1秒写完《三体》全集,还把显存占用砍到了传统方案的1/5。Day2:DeepEP——传输调度台DeepEP是全球首个专为混合专家模型(MoE)和专家并行(EP)定制的开源高性能通信库,旨在解决大规模AI模型训练与推理中的通信瓶颈问题。在AI中央厨房中,DeepEP如同新型的传输调度台,相较于传统对讲机(旧通信协议)容易导致指令混乱的弊端,在面对复杂任务时,DeepEP能通过FP8压缩技术,简化传达任务需求,还能实时更新菜单。当需要跨厨房(服务器节点)传递食材(参数)时,RDMA技术更像是一条“传送带”,将食材直送灶台(GPU)。性能数据也很给力:基于H800的GPU,DeepEP可以通过NVLink技术实现单节点内GPU间极速通信,带宽高达约150GB/s,相当于1秒传完30部高清电影。Day3:DeepGEMM——智能灶台DeepGEMM是一款专注于FP8高效通用矩阵乘法(GEMM)的库,主要满足普通矩阵计算以及混合专家(MoE)分组场景下的计算需求。还是拿中央厨房举例,DeepGEMM可以看成是一个万能灶台,一能做到动态火候控制,煎牛排用猛火(密集计算用FP8精度),煲汤转文火(MoE门控网络用BF16精度);二能通过JIT技术,让1平米灶台同时处理10道菜。不同于CUDA库这个传统灶台,做佛跳墙要3小时,通过精度动态切换等一系列骚操作,DeepGEMM只需1小时就能搞定,还省一半燃气(显存)。值得注意的是,DeepGEMM采用了轻量级即时编译(JIT)模块,支持运行时动态编译内核,无需提前完成编译和安装。也就是说,DeepGEMM仅凭300行CUDA代码,运算速度就能干翻传统千万行工程库。有观点戏称:这DeepSeek简直比英伟达都懂GPU。Day4:DualPipe & EPLB——后厨流水线指挥官DualPipe和EPLB是面向大规模AI模型训练的两项核心技术,分别聚焦于分布式训练效率优化和专家并行负载均衡,均为V3/R1而设计。实际上,训练大模型最怕遇到“流水线摸鱼”,计算单元等数据时的发呆时间一般被称作“气泡”,而DualPipe和EPLB就是专为减少“气泡”而设计的。在中央厨房中,DualPipe是一条“双向传送带”,一边让洗碗工“反向传播”,一边让配菜员“前向计算”在两条平行传送带上工作,相当于“一边做饭一边洗碗”,解决了“等盘子洗好才能上菜”的尴尬。EPLB则充当“智能排班表”的角色,可以克隆大厨(冗余专家)到空闲灶台(GPU),确保法餐主厨不会累晕在情人节套餐高峰期(负载均衡)。Day5:3FS文件系统——中央冷库+闪电配送最后压轴的Fire-Flyer文件系统(3FS),是专为高性能计算打造的高性能分布式文件系统,旨在应对AI训练和推理工作负载中的挑战,解决“高吞吐写入”与“低延迟读取”难兼顾的痛点。对中央厨房而言,3FS更多起到后台储藏的作用,主要的技术优势在于两点。一是光速存取:6.6TB/s的吞吐量,相当于每分钟搬空300个冰柜(传统硬盘)的食材(数据)。二是保鲜黑科技:通过SSD+RDMA技术的结合,确保北京分店和上海分店看到的牛排永远是同一块,也就是所谓的“数据强一致性”。打响AI“开源盛世”第一枪,继续推翻象牙塔不管是传输调度台,还是配菜机器人,DeepSeek此次开源的技术组件,设计初衷都在于进一步降低算力成本、优化训练效率。有分析认为,这波开源最硬核的意义在于:通过软件栈的系统性优化(从文件系统到通信协议),可在现有硬件基础上实现倍数级效率飞跃。这意味着,AI性能提升不再单纯依赖芯片制程的突破。而不堆硬件、优化软件、“猛榨”算力,也正是DeepSeek能实现超低成本“超车”一众海外顶尖大模型的秘诀所在。有网友表示,OpenAI应该把它们的域名“献给”DeepSeek,因为后者才真正做到了开源。还有网友表示,开源AI不稀奇,稀奇的是DeepSeek这种“车库精神和AGI野心的结合”:还有人奉上梗图,以表尊重:针对此次的“开源周”活动,我们也让DeepSeek也评论了一下,这是它的回答:正如DeepSeek此前的宣言:“这个领域没有高高在上的象牙塔,只有纯粹的车库创业精神与社区共筑的创新力量。”“毫无保留地分享我们微小但真诚的进展。”而一个更大胆的猜想也正随之浮现:随着DeepSeek不断用技术优化突破硬件瓶颈,会不会重新定义算力之于AI的意义?这场始于中国车库的技术狂欢,仍在继续改写全球AI规则。","news_type":1},"isVote":1,"tweetType":1,"viewCount":215,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":27,"optionInvolvedFlag":false,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/408822766735824"}
精彩评论