您现在的位置是:主页 > 必赢手机版app下载 >
“源神”DeepSeek!冲破H800机能下限,FlashMLA重磅开
发布时间:2025-02-25 09:03编辑:[db:作者]浏览(124)
-
白交 发自 凹非寺量子位 | 大众号 QbitAIDeepSeek开源周第一天,降本年夜法公然——FlashMLA,直接冲破H800盘算下限。 网友:这怎样可能??它是为Hopper GPU开辟的高效MLA解码内核,专门针对可变长度序列停止了优化,现在曾经投入出产。MLA,恰是DeepSeek提出的翻新留神力架构。从V2开端,MLA使得DeepSeek在系列模子中实现本钱年夜幅下降,然而盘算、推感性能仍能与顶尖模子持平。 依照官方先容来说,FlashMLA应用之后, H800能够到达3000GB/s内存,实现580TFLOPS盘算机能。 网友们纷纭点赞:向工程团队致以高尚的敬意,从Hopper的张量核中挤出了每一个FLOP。这就是咱们将 LLM 效劳推向新前沿的方法!曾经有网友用上了。 开展全文
开源第一天:FlashMLA
现在GitHub页面曾经更新。短短一小时,Star星数曾经超越1.2k。
此次曾经宣布:
支撑BF16;
分页KV缓存,块巨细为 64
支撑BF16;
分页KV缓存,块巨细为 64
疾速启动:
情况请求:
Hopper GPU
CUDA 12.3 及以上版本
PyTorch 2.0 及以上版本
Hopper GPU
CUDA 12.3 及以上版本
PyTorch 2.0 及以上版本
在名目的最后,它还表现,这是遭到了 FlashAttention 2 3跟 英伟达CUTLASS名目的启示。
FlashAttention是能实现疾速且内存高效的准确留神力,主流年夜模子都有在用。,能够 让H100应用率飙升至75%。 练习速率晋升1.5-2倍,FP16下盘算吞吐量高达740TFLOPs/s,达实践最年夜吞吐量 75%,更充足应用盘算资本,此前只能做到35%。
中心作者是Tri Dao,普林斯顿年夜牛,Together AI的首席迷信家。
而英伟达CUTLASS是CUDA C++ 模板形象的聚集,用于在 CUDA 内实现高机能矩阵-矩阵乘法 (GEMM) 跟全部级别跟范围的相干盘算。
MLA,DeepSeek基础架构
最后再来说说,MLA,多头潜伏留神力机制,DeepSeek系列模子的基础架构,旨在优化Transformer模子的推理效力与内存应用,同时坚持模子机能。
它经由过程 低秩结合紧缩技巧,将多头留神力中的键(Key)跟值(Value)矩阵投影到低维潜伏空间,从而明显增加键值缓存(KV Cache)的存储需要。这种方式在长序列处置中尤为主要,由于传统方式须要存储完全的KV矩阵,而MLA经由过程紧缩仅保存要害信息。
V2版本中,这一翻新性架构把显存占用降到了从前最常用的MHA架构的5%-13%,实现了本钱年夜幅下降。它的推理本钱仅为Llama 370B的1/7、GPT-4 Turbo的1/70。
而在V3,这一降本提速就更为显明,直接让DeepSeek吸引寰球眼光。
也就在明天,DeepSeek-R1 在HuggingFace上取得了超越10000个赞,成为该平台近150万个模子之中最受欢送的年夜模子。
HuggingFace CEO发文颁布了这一喜信。
The whale is making waves!鲸鱼正在掀起海浪!
好了等待一下,接上去的四天会发些什么呢?
GitHub链接:
https://github.com/deepseek-ai/FlashMLA
参考链接:
— 完—
评比报名| 2025年值得存眷的AIGC企业 产物
下一个AI“国产之光”将会是谁?
本次评比成果将于4月中国AIGC工业峰会上颁布,欢送参加!前往搜狐,检查更多
下一篇:没有了