
先看这一段
多模态记忆真正解决的,不是“系统会不会识别图片”,而是图片向量、OCR 文本、文件快照和后续问题能不能留在同一条可复用链路里。
为什么要同时保留 OCR 和图片向量
只有 OCR,适合文字多的图片;只有图片向量,又不一定能稳住业务词汇。两者一起工作,既能搜视觉相似,又能抓住图中文字和语义描述。
为什么快照机制很关键
如果召回只依赖聊天附件记录,一旦用户删掉聊天或清理附件,历史图片就会变成 404。记忆快照让原文件即使脱离聊天,也还能继续被统一记忆引用。
它适合哪些问法
比如“我之前那张论坛海报”“那张身份证图里的要点”“找一下上次发的暖色宣传图”,都比过去更容易命中。
更适合连续追问
先发图,再问图里的知识点或提取术语。
更适合历史回看
不用担心删除聊天后图片记忆一起失效。
更适合相似检索
既能按文本找图,也能把相关图带回当前对话。
更适合治理
是否有向量、是否有快照、最近是否命中都可观测。
如果你也想这样用,可以从这几步开始
1
先用图片做一次真实对话
验证当前 OCR 和向量召回是不是都正常。
2
再测试历史追问
隔一段时间后重新问图里的内容。
3
最后检查快照健康
确认删除原聊天后记忆仍然可访问。
多模态记忆的价值,不是让系统第一次看懂图片,而是让它在第二次、第三次面对同一张图时,依然记得这张图为什么重要。
