巴别之塔 - Tower of Babel

AI 记忆架构探索(二):MemOS 的系统化设想与治理框架

论文:MemOS: A Memory OS for AI System
链接:https://arxiv.org/abs/2507.03724v2
GitHub: https://github.com/MemTensor/MemOS

1. 引言:从“数据结构”到“管理系统”

上一篇文章中,我们解析了 Memory³ 如何设计出一种高效的“记忆数据结构”。然而,一个孤立的数据结构,无论多么精巧,都无法解决系统层面的复杂性问题。当大量的记忆需要被不同的智能体并发使用、长期持有、更新和授权时,我们就需要一个管理系统

MemOS 论文正是在这一背景下,提出了一个宏大的系统性设想:我们是否需要一个类似操作系统的框架,来统一管理 AI 的记忆和行为?它试图回答的,不是如何让单次记忆的利用更高效,而是如何构建一个能够支撑复杂、多智能体长期演进的治理框架

2. 核心思想:三种记忆形态的统一管理

MemOS 并非凭空出现,它明确地继承并极大地扩展了 Memory³ 的核心思想。它的核心是将所有 AI 相关的知识和状态,归纳为三种可以相互转化的记忆形态:

  1. 明文记忆 (Plaintext Memory):最基础、最稳定、人类可读的记忆。它对应于计算机中的硬盘存储。MemOS 进一步将其细化,支持多种后端存储,例如:

    • 通用文本记忆:存储非结构化的文本块,如对话历史、文档段落。
    • 树状文本记忆:用于存储具有层级关系的数据,如文件系统结构或思维导图。
    • 图数据库记忆:利用 Neo4j 等图数据库,将知识以实体和关系的形式进行结构化存储,便于进行复杂的关联查询和推理。
  2. 激活记忆 (Activation Memory):为了加速访问而存在的“热”记忆,其标准实现即 KV 缓存。这完全采纳了 Memory³ 的“显性记忆”概念,即预先计算好的、稀疏的键值对缓存。它对应于计算机中的内存

  3. 参数记忆 (Parametric Memory):被深度内化到模型权重中的知识。例如,通过 LoRA (Low-Rank Adaptation) 微调生成的适配器权重。它对应于 CPU 缓存,与计算单元结合最紧密。

三种记忆类型间的转化路径,构成统一、可控且可进化的记忆空间

MemOS 的目标,就是设计一套机制,对这三种形态的记忆进行统一的、全生命周期的管理

3. 核心抽象:记忆的“集装箱”—— MemCube

为了实现对不同形态记忆的统一管理,MemOS 提出了其最重要的核心抽象:MemCube (记忆立方)。这是一个标准化的“记忆容器”,其设计思想对理解整个系统至关重要。

每个 MemCube 由两部分构成:

  1. 载荷 (Payload):存储记忆的实际内容。它的形态是多样的,可以是一段明文,一组激活记忆的键值对,或是一个 LoRA 模型的权重文件。
  2. 元数据 (Metadata):这是实现治理的基石。它是一组描述载荷的标签,定义了诸如记忆的 user_idsourcetimestampimportance_scoreaccess_control_listversion 等系统级信息。

通过将所有记忆都封装进这种标准化的、带元数据的容器中,MemOS 才有可能在系统层面实现对它们的追踪、调度、授权和演进管理。MemCube 让记忆从单纯的数据变成了可被管理的系统资产

4. MemOS 系统架构

根据官方文档,MemOS 采用分层架构,主要包括存储层、服务层和应用层。

这种分层架构和灵活的部署模式,使得 MemOS 既能作为强大的中央记忆枢纽,也能作为便捷的嵌入式记忆组件,适应不同的应用场景。

5. 记忆的动态转化:智能的“缓存”与“固化”

MemOS 理论框架的亮点,在于它描绘了一幅记忆在三种形态间动态流转、自我优化的蓝图:

这种动态转化的能力,使得系统在理论上可以根据实际使用情况,智能地调整不同记忆的存储形态,在成本、速度和效果之间取得动态平衡。

MemOS 框架概览。该架构展示了从用户输入开始,经接口层的语义解析与 API 抽象,到操作层的内存调度与生命周期控制,最终与基础设施层交互实现内存注入、检索与治理的完整流程。统一数据结构 MemCube 作为模型执行过程中动态内存流动的基础支撑

6. 详解:利用“前缀缓存”兼容闭源模型

这是一个现实且关键的问题。对于像 GPT-4o 这样的闭源模型,我们无法访问其内部,自然也无法直接向其注意力层注入键值对缓存。MemOS 对此的应对策略是一种功能上的模拟,它巧妙地利用了现代 LLM 推理服务普遍具备的一项优化技术:前缀缓存 (Prefix Caching)

前缀缓存的工作原理

在 LLM 推理时,首先需要对用户输入的提示(Prompt)进行一次完整的计算,这个过程称为预填充 (Prefill)。在预填充阶段,模型会为输入的每一个 token 计算出其对应的“键”和“值”向量,并将它们存储在 GPU 显存中,这就是 KV 缓存。在后续生成每一个新词时,模型都可以直接利用这个缓存,而无需重新计算整个提示,从而大大加快生成速度。

前缀缓存技术,就是将这个 KV 缓存在不同的推理请求之间共享。如果系统检测到多个请求的开头部分(前缀)是完全相同的(例如,多轮对话中的历史记录,或者 RAG 应用中被反复查询的同一篇文档),它就可以直接重用已经计算好的前缀 KV 缓存,只计算新增加的那部分内容。这极大地降低了处理重复信息时的延迟和计算成本。

MemOS 的模拟策略

理解了前缀缓存后,MemOS 的策略就一目了然了:

  1. 检索明文:首先,系统找到“激活记忆”所对应的原始明文记忆
  2. 前置拼接:然后,系统将这段明文内容前置拼接到当前用户的提问之前,形成一个组合式的提示。

当这个组合式的提示被发送给闭源模型时,推理引擎的前缀缓存机制就会自动生效。如果这段明文内容(作为前缀)在近期被频繁使用,它的 KV 缓存很可能已经被保留了下来。因此,模型无需重新计算这个前缀,可以直接利用缓存,从而在功能上达到了“模拟”注入激活记忆的效果,同时享受了性能优化的红利。

7. 优势与代价:兼容性与性能的权衡

现在,我们可以更清晰地对比 MemOS 的兼容策略与 Memory³ 的原生架构在处理记忆时的优劣势:

总而言之,MemOS 用一种聪明的“降级兼容”策略,换取了在异构模型环境下的生存能力,而 Memory³ 则专注于在理想环境下,将单一架构的性能推向极致。

8. 宏大愿景:“LLM 即内核”

MemOS 最具雄心的设想,是提出 “LLM 即内核” 的概念。它认为,未来的操作系统内核,其核心调度器可能就是一个 LLM。这个 LLM 不再仅仅是一个被调用的“程序”,而是成为整个系统的“大脑”,负责:

这是一个极具颠覆性的想法,但也面临着巨大的挑战:

尽管如此,这个设想为我们描绘了一幅足够激动人心的未来图景。

9. 审视与展望

MemOS 提供了一个极其全面和深刻的理论框架,它指出了当前智能体架构在系统性上的普遍缺失。将操作系统和数据库系统的思想引入 AI 领域,无疑是极具启发性的。

然而,我们必须清醒地认识到,这是一个具有挑战性的系统性设想。其复杂的抽象和管理机制,对于大多数应用场景而言,也可能是“过度设计”。

MemOS 最大的价值,或许不在于它给出的答案,而在于它定义了问题。它为我们思考如何构建更健壮、更可演进的 AI 系统,提供了一套宝贵的、尽管存在争议的词汇和蓝图。

#AI #System #Memory #LLM