如影随形

影子是一个会撒谎的精灵,它在虚空中流浪和等待被发现之间;在存在与不存在之间....

您现在的位置是:主页 > 模板分享 > 国外 >

Deepseek的新论文名为《基于硅的生命进化论》。它

发布时间:2025-10-22 09:34编辑:365bet亚洲体育浏览(88)

    Deepseek的新论文名为《基于硅的生命进化论》。它将海量文本压缩为图像,并模仿人脑重塑视觉AI记忆的边界。它赢得了硅谷老板的支持。 创建者 |搜狐科技作者|郑松谊Deepseek再次以“低调”震惊世界!他们新发布的开源 OCR 模型从根本上改变了 AI 游戏规则。 GitHub 开源项目 Deepseek-OCC 一夜之间获得了超过 4K 颗星。相关论文(“Deepseek OCR:上下文光学压缩”)解释了这项研究的结果。很多人好奇,OCR是什么?传统的OCR就像一个“文本扫描仪”,利用光学技术从图像中提取文本,并将其转换成可以阅读的格式。失去了计算机和人。例如,OCR 在对大量票据、文档、表格和其他数据进行数字化时发挥着关键作用。但 Deepseek 却相反——“绘制”文本信息信息转化为视觉图像,然后通过视觉模型获得更好的理解。这样的创新尝试是为了解决大型模型的主要痛点——处理长文本时面临的计算挑战。影响有多强? 10页密密麻麻的文字报告被压缩成图片,AI一看就懂。这样的信息处理效率意味着计算复杂度大大降低,以最直接的方式节省成本。论文发布后,期待收到mga爱的分析,有网友直接称其为“基于硅的生命进化论”。 OpenAi 创始团队成员、特斯拉前 AI 总监 Karpathy 最近一直在批评 AI 的发展,他表达了对 Deepseek 新成果的喜爱,并指出“让视觉成为 AI 的主要部分,而不是依赖于一段可怕的文本,已经是很久以前的事了”。一些行业领袖感叹,“当文本可以转化为视觉上可理解的结构时,语言和视觉的统一可能不再是一种理论。这可能是下一步的出路。AGI(通用人工智能)的重大一步。” Deepseek新研究:将大量文本压缩成图像,让模型直接理解无云本质上,Deepseek-Ocr深度融合了视觉和语言模态,通过“视觉-文本压缩”建立自然映射关系,为大规模多模态模型提供了全新的技术路径。之前的大模特可以说是一个“带着枷锁的舞者”。尽管其具有较强的语言理解能力,但其却受到低效的信息输入方式的严重制约。以阅读长文本的模型为例。财务报告和论文的每一页都包含数千个代币。传统方法只能逐字识别,导致计算量爆炸系统蒸发散。这种低效的运作使得大规模模型难以在法律和金融等领域应用。 Ang Deepseek此时使用了一个巧妙的想法——既然一张图片可以容纳数千个单词,那么是否可以将大量的文本信息也压缩到一张图片中,让模型可以直接理解图片。为了实现这一愿景,Deepseek 提供了一个由三部分组成的 OCR 模型:图像编码器、映射层和文本解码器。其中,图像编码器DeepenCoder(负责将图像转换为高度压缩的视觉令牌)参数为380m。文本解码器(负责从压缩的视觉标记重建文本)是参数为 3B 的 DeepSeekv2-3b 模型。通用训练数据由4部分组成,包括OCR1.0数据(传统OCR任务,如图像OCR和文档OCR)、OCR2.0数据(复杂图像解析任务,如几何、图表等)、通用视觉数据(用于注入通用图像)理解能力)和纯文本数据(用于保证模型的语言能力)。虽然模型参数不大,但研究结果表明,当文本压缩率小于10倍时,OCR解码模型高达97%。当压缩率高达20倍时,精度仍可保持在60%。在A100-40G显卡环境下,一天可生成超过20万页的模型训练数据。换句话说,如果普通 OCR 需要 10,000 个 token 来读取整个文档,则该模型只需 1,000 个 token 即可完成,并且可以高精度地理解信息。受益于 kakak 各种训练数据,论文指出 Deepseek-OCC 不仅可以识别文本,还可以理解文档布局和图表结构。从某种角度来看,它不再是传统的OCR,而是更接近于“文档理解”。论文中提到的一个基准测试称为 Omnidocbench,专门用来测试理解复杂文档的能力。在此基准测试中,Deepseek-OCC 使用的视觉标记数量少于 GOT-OCR 2.0 和 Mineru 2.0。这两个都是目前领先的开源OCR模型,可以说是有能力的。 Deepseek 在纸上将人工智能的记忆模式与人类相似,还谈到了人工智能的“记忆”和“遗忘”机制,这些机制正在推动该行业的发展。深度学习模型学生的记忆是以分布式参数的形式存储的。这种非结构化存储导致传统神经网络学习新任务时旧知识的参数空间被新知识覆盖,模型无法像人类一样进行联想推理。 Deepseek的想法是通过视觉-文本压缩范式和动态分层遗忘机制,让AI“记住需要记住的东西,忘记需要忘记的东西”。主要思想是对文本信息进行转换转化为视觉令牌,通过光学压缩实现高效的记忆管理,并模拟人类遗忘曲线动态调整信息保留。在这个过程中,主组件DeepenCoder起到了关键的作用。 50-100 个视觉标记可以返回 1,000 个单词的文本,实现近 10 倍的计算节省。这种压缩并不是简单地降低信息的维度,而是通过“注意力机制+结构化训练”,优先保留最关键的信息进行理性推理。类似于“先抓标题,再看细节”的认知模型,在阅读时去除了不重要的信息噪音。关于如何让模型记忆与人相似,研究人员已经能够进行附加解释:对于最近的记忆,可以将其渲染为高分辨率图像,使用许多标记来保持高保真度的信息。至于长期记忆,可以缩放到更小、更模糊的图像,并且可以用少量的token来保留信息,从而实现信息的自然遗忘和压缩。尽管仍处于探索性研究的早期阶段,但 Deepseek 的创新确实让人工智能变得更像人类。三位作者 本文共有三位作者:魏浩然、孙耀峰、李玉坤。论文第一作者魏浩然领导了著名的Got-Ocr2.0项目的开发。这次Deepseek-OCh也可以说延续了之前项目的创新技术路线。据此前报道信息显示,魏浩然也曾在步星公司工作。孙耀峰毕业于北京大学计算机系图灵班。 2023年加入Deepseek,参与Deepseek-R1、Deepseek-V3、Deepseek-V2等模型的研究。李玉坤还参与了包括Deepseek-V2/V3在内的多个模型的研究,该模型在Google的引用量已近万次学术论文。返回搜狐查看更多

上一篇:“川渝面馆老板”其实是预制面

下一篇:没有了