Python+ollama开发长时记忆对话
原创2025/5/11...大约 3 分钟
1. 开发计划
基础的 Python 调用 Ollama 对话代码
拥有基础的短时记忆能力;
对话数据持久化存储「本地化存储 and 云存储」
/data/ session_2025_05_25_14_30.json
Ollama 对用户历史对话数据进行总结记忆;
对话数据过长,可以考虑分块(分批次)总结并存储——实现数据压缩,防止超出 token 长度;
Gemini 在线大模型选用——封装一个函数,在程序运行过程中,让用户选择所需要使用的大模型「Local or Server」;
注意点⚠️:Ollama 与 Gemini 的对话结构不同,需要做出适配;
2. 技术栈建议
模块 | 技术选型 |
---|---|
本地模型 | Ollama |
在线模型 | Gemini Pro / GPT-4 via API |
数据存储 | JSON / SQLite / LeanCloud |
编程语言 | Python 3.10+ |
可选框架 | FastAPI(Web API 接口) |
UI 层(可选) | Textual / Gradio / Streamlit(后期) |
3. 未来可扩展方向(V1.0+)
- 🔐 用户管理与会话隔离(支持多人使用)
- 📚 向量检索接入(RAG)增强知识问答能力
- 📌 标签化与关键词搜索历史对话
- 🔄 对话插件化(命令扩展,如
/search
,/summarize
,/upload
)