还是基于 LangChain 和 ChatGPT 的知识库的开源解决方案,而且界面可用性和商业化程度越来越高。开源的同时,Databerry 也提供了 SaaS 服务。
Databerry提供了一个用户友好的解决方案,无需任何技术知识即可在您的个人数据上快速设置语义搜索系统。
首先先看预览:
同样是找了几篇国务院新闻报道,作为本地知识库进行提问:
提问效果还是很不错的:
还支持生成机器人代码,嵌入到你的网站里面(我这里用了一个空白页面,代码可以在 Agent 的设置里面找到):
使用
SaaS 服务的版本支持多种数据源:
特性
• 从任何地方加载数据:
• Word
• Excel
• Powerpoint
• PDF
• Markdown
• Plain Text
• 文本
• 网页
• 文件
• 网站(即将推出)
• Notion(即将推出)
• Airtable(即将推出)
• 无代码:用于管理数据存储和与数据聊天的用户友好界面
• 用于查询数据的安全 API
• 自动同步数据源(即将推出)
• 自动为每个数据存储生成一个 ChatGPT 插件
语义搜索规范
• 矢量数据库:
Qdrant• Embedding:Openai 的
text-embedding-ada-002• 块大小:256 个令牌
技术栈
• Next.js
• Joy UI
• LangchainJS
• PostgreSQL
• Prisma
• Qdrant
本地运行
本地运行项目的最小依赖:
• Node.js v18
• Postgres Database
• Redis
• Qdrant
• GitHub App (NextAuth)
• Email Provider (NextAuth)
• OpenAI API Key
• AWS S3 Credentials
可通过下面命令运行:
# Create .env.local
cp .env.example .env.local
# Install dependencies
pnpm install
# Generate DB tables
pnpm prisma:migrate:dev
# Run server
pnpm dev
# Run worker process
pnpm worker:datasource-loader
# or pnpm dev:all
容器运行
如果想快速体验,可以使用容器:
cd .dev/databerry
pnpm docker:compose up
# create .dev/databerry/app.env
cp .dev/databerry/app.env.example .dev/databerry/app.env
# create s3 dev bucker
# go to http://localhost:9090 and create bucket databerry-dev
# set bucket access policy to public
# might need to add 127.0.0.1 minio to /etc/hosts in order to access public s3 files through http://minio...
如何使用
创建数据库
创建 Agent
架构分析
Databerry 同样也是基于 LangChain + LLM + Vector Store 的应用。
项目地址
Github 地址:
• https://github.com/gmpetrov/databerry
官网:
• https://app.databerry.ai/
--- END ---

