掌柜问数系统是一个基于自然语言处理技术的智能数据分析平台,能够理解用户用自然语言提出的数据查询需求,自动转换为SQL查询并返回结果。这个系统结合了现代AI技术和传统数据分析工具,为业务人员提供了更友好的数据交互方式。
在开始开发之前,我们需要搭建完整的开发环境。这个环境包含两个核心部分:Python虚拟环境用于运行业务代码,Docker容器化服务提供基础依赖支持。本文将详细介绍从零开始搭建这个开发环境的完整过程。
Python虚拟环境是开发Python项目的标准实践,它可以隔离不同项目的依赖关系,避免版本冲突。对于掌柜问数系统,我们推荐使用Anaconda来管理虚拟环境,因为它提供了更完善的包管理功能。
首先需要安装Anaconda或Miniconda。安装完成后,使用以下命令创建Python 3.12的虚拟环境:
bash复制conda create -n py312 python=3.12
conda activate py312
选择Python 3.12是因为它提供了最新的语言特性,同时本项目依赖的一些库(如LangChain)对Python版本有较高要求。虚拟环境创建完成后,每次开发时都需要先激活这个环境。
掌柜问数系统依赖多个开源库,涵盖了从Web框架到AI模型集成的各个方面。以下是完整的安装命令:
bash复制pip install asyncmy cryptography "elasticsearch[async]>=8,<9" fastapi[standard] huggingface-hub jieba langchain langchain-deepseek langchain-huggingface langgraph loguru omegaconf pyyaml qdrant-client sqlalchemy
这些依赖可以分为几大类:
注意:安装过程中可能会遇到依赖冲突问题。如果出现这种情况,可以先安装主要依赖,再逐个安装其他依赖,或者使用conda来安装某些特定的包。
了解每个依赖包的作用对于后续开发和问题排查非常重要。以下是主要依赖的详细说明:
| 依赖包 | 版本要求 | 主要功能 | 使用场景 |
|---|---|---|---|
| fastapi[standard] | 最新 | 高性能Web框架 | 构建API接口 |
| sqlalchemy | 2.0+ | ORM框架 | 数据库操作 |
| asyncmy | 最新 | 异步MySQL驱动 | 提高数据库访问效率 |
| qdrant-client | 最新 | 向量数据库客户端 | 存储和检索向量数据 |
| elasticsearch[async] | 8.x | 全文检索引擎客户端 | 维度值检索 |
| langchain | 最新 | LLM应用编排 | 构建智能问答流程 |
| langgraph | 最新 | 图结构Agent | 控制问答流程 |
| loguru | 最新 | 日志记录 | 替代标准logging |
| jieba | 最新 | 中文分词 | 处理中文查询 |
在实际开发中,可能会根据具体需求调整这些依赖的版本。建议使用requirements.txt文件来固定版本,确保开发环境的一致性。
掌柜问数系统依赖多个服务,包括MySQL、Qdrant、Elasticsearch等。使用Docker Compose可以方便地管理这些服务。首先确保系统已经安装了Docker和Docker Compose。
在CentOS上安装Docker的步骤如下:
bash复制sudo yum install -y yum-utils
sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo
sudo yum install docker-ce docker-ce-cli containerd.io
sudo systemctl start docker
sudo systemctl enable docker
安装完成后,可以运行docker version验证安装是否成功。
Docker Compose可以通过以下命令安装:
bash复制sudo curl -L "https://github.com/docker/compose/releases/download/v2.24.5/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
sudo chmod +x /usr/local/bin/docker-compose
掌柜问数系统需要以下服务:
一个典型的docker-compose.yaml配置如下:
yaml复制version: '3.8'
services:
mysql:
image: mysql:8.0
ports:
- "3306:3306"
environment:
MYSQL_ROOT_PASSWORD: 123456
MYSQL_DATABASE: metadata
volumes:
- mysql_data:/var/lib/mysql
qdrant:
image: qdrant/qdrant:v1.7.4
ports:
- "6333:6333"
- "6334:6334"
volumes:
- qdrant_data:/qdrant/storage
elasticsearch:
image: elasticsearch:8.11.1
environment:
- discovery.type=single-node
- xpack.security.enabled=false
ports:
- "9200:9200"
volumes:
- es_data:/usr/share/elasticsearch/data
kibana:
image: kibana:8.11.1
ports:
- "5601:5601"
depends_on:
- elasticsearch
tei:
image: ghcr.io/huggingface/text-embeddings-inference:latest
ports:
- "8080:8080"
environment:
- MODEL_ID=BAAI/bge-small-zh-v1.5
deploy:
resources:
limits:
memory: 2G
volumes:
mysql_data:
qdrant_data:
es_data:
将上述配置保存为docker-compose.yaml后,可以运行以下命令启动服务:
bash复制docker compose up -d
启动后,可以使用以下命令查看服务状态:
bash复制docker compose ps
如果需要停止服务,可以运行:
bash复制docker compose down
提示:第一次启动时,下载镜像可能需要较长时间。可以考虑预先下载镜像或使用本地镜像仓库加速这个过程。
环境搭建完成后,需要验证各个服务是否正常运行。可以编写一个测试脚本来检查所有关键服务的连通性:
python复制# test_services.py
import asyncio
from sqlalchemy import text
from sqlalchemy.ext.asyncio import create_async_engine
from qdrant_client import QdrantClient
from elasticsearch import AsyncElasticsearch
async def test_mysql():
try:
engine = create_async_engine("mysql+asyncmy://root:123456@localhost:3306/metadata")
async with engine.connect() as conn:
result = await conn.execute(text("SELECT 1"))
print("✅ MySQL连接成功")
except Exception as e:
print(f"❌ MySQL连接失败: {str(e)}")
def test_qdrant():
try:
client = QdrantClient("http://localhost:6333")
collections = client.get_collections()
print("✅ Qdrant连接成功")
except Exception as e:
print(f"❌ Qdrant连接失败: {str(e)}")
async def test_es():
try:
es = AsyncElasticsearch("http://localhost:9200")
info = await es.info()
print("✅ Elasticsearch连接成功")
except Exception as e:
print(f"❌ Elasticsearch连接失败: {str(e)}")
async def main():
await test_mysql()
test_qdrant()
await test_es()
if __name__ == "__main__":
asyncio.run(main())
运行这个脚本,应该看到所有服务的连接成功信息。如果有服务连接失败,需要根据错误信息进行排查。
除了连通性测试外,还可以进行简单的性能测试:
这些测试可以帮助确认服务是否配置正确,以及性能是否满足开发需求。
问题1:安装某些依赖时出现版本冲突
解决方案:
问题2:Python版本不兼容
解决方案:
问题1:端口冲突
解决方案:
netstat -tuln问题2:容器启动失败
解决方案:
docker logs <container_name>问题1:MySQL连接被拒绝
解决方案:
问题2:Elasticsearch健康状态为red
解决方案:
在实际开发中,可能会遇到各种环境相关的问题。建议保持开发环境的干净和一致性,定期更新依赖,并做好文档记录。这样可以帮助团队成员快速搭建开发环境,提高开发效率。