loading…
Search for a command to run...
loading…
一个基于FastMCP协议的文件向量化服务,支持自动目录监控、多格式文件处理和高效向量搜索,帮助构建个人或团队知识库。
一个基于FastMCP协议的文件向量化服务,支持自动目录监控、多格式文件处理和高效向量搜索,帮助构建个人或团队知识库。
注:本项目完全由 coze 生成,想法是希望通过小智 AI 等智能体结合 Obsidian 等 Markdown 笔记,实现简单的语音记录和查询,部分功能尚未测试,使用前请务必备份自己的笔记!!!
一个基于FastMCP协议的文件向量化服务,支持自动目录监控、多格式文件处理和高效向量搜索,帮助你构建个人或团队知识库。
┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ 文件监控 │───>│ 内容提取与分块 │───>│ 文本向量化 │───>│ 向量存储与索引│
└─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘
│ │ │
│ │ │
▼ ▼ ▼
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ 检测文件变化 │ │生成嵌入向量 │ │ 高效相似性搜索│
└─────────────┘ └─────────────┘ └─────────────┘
watchdog库监控目录变化,触发文件处理流程pip install files-vector-mcp-server
uvx files-vector-mcp-server
创建.env文件,配置以下环境变量:
# OpenAI配置
OPENAI_API_KEY=your_openai_api_key
OPENAI_API_URL=https://api.openai.com/v1
EMBEDDING_MODEL=text-embedding-ada-002
EMBEDDING_DIM=1024
# 数据库配置
DB_CONNECTION_STRING=postgres://user:password@localhost:5432/vector_db
# 监控目录配置(JSON格式)
WATCH_TOPICS={"docs": ["./docs"], "notes": ["./notes"]}
# 分块配置
CHUNK_SIZE=4000
CHUNK_OVERLAP=200
# 可选:MinerU API配置(高级OCR和文档处理)
MINERU_API_KEY=your_mineru_api_key
MINERU_API_URL=https://mineru.net/api/v4
files-vector-mcp-server
# 基础搜索(返回摘要)
search "Docker安装步骤"
# 搜索并返回完整内容
search "Docker安装步骤" return_content=true top_k=3
返回结果示例:
{
"status": "success",
"data": [
{
"chunk_id": 42,
"file_path": "/docs/install/docker.md",
"chunk_num": 2,
"total_chunks": 5,
"similarity": 0.89,
"content_preview": "## Docker安装步骤\n\n1. 更新apt包索引...",
"content": "文件路径: /docs/install/docker.md\n块 2/5\n\n## Docker安装步骤\n\n1. 更新apt包索引...",
"last_modified": "2025-09-18T10:30:00Z"
}
]
}
read_file "/docs/install/docker.md" max_chars=10000
create_markdown "/notes/new_note.md" "# 新笔记\n\n这是通过API创建的笔记内容,将自动进行向量化处理。"
| 参数名 | 描述 | 默认值 |
|---|---|---|
WATCH_TOPICS |
监控主题与目录映射(JSON) | {"默认": ["./watch_dir"]} |
CHUNK_SIZE |
分块大小(字符) | 4000 |
CHUNK_OVERLAP |
块重叠字符数 | 200 |
EMBEDDING_MODEL |
嵌入模型名称 | text-embedding-ada-002 |
EMBEDDING_DIM |
嵌入向量维度 | 1024 |
BATCH_SIZE |
批处理大小 | 5 |
RETRY_ATTEMPTS |
API调用重试次数 | 3 |
RETRY_DELAY |
重试延迟(秒) | 5 |
create_markdown工具自动化笔记创建A: 系统会自动分块处理,默认每块4000字符,可通过CHUNK_SIZE调整。对于扫描PDF,建议配置MinerU API启用OCR。
A: 需要在PostgreSQL中安装pgvector扩展:
CREATE EXTENSION vector;
A: 可尝试:
CHUNK_SIZE,提高块粒度top_k参数获取更多结果本项目基于Apache License 2.0开源许可证 - 详见LICENSE文件
Run in your terminal:
claude mcp add files-vector-mcp-server -- npx Security
Low riskAutomated heuristic from public metadata — not a security guarantee.