基于Azure OpenAI的桌面AI助手开发实践

埃琳娜莱农

1. 项目概述

作为一名长期从事AI应用开发的工程师，我一直在寻找能够真正提升工作效率的工具。今天要分享的这个Azure OpenAI桌面版AI助手，是我在前两个命令行版本基础上的一次重大升级。这个工具彻底摆脱了命令行操作的繁琐，通过Python自带的tkinter库实现了完整的图形化界面，让AI能力真正变得触手可及。

这个工具的核心价值在于：它将Azure OpenAI的强大能力封装成了一个简单易用的桌面应用，支持处理多种格式的文件（TXT/Word/Excel/PDF），内置了多种实用的提示词模板，还能进行多轮对话交互。最重要的是，它保持了单文件运行的轻量化特性，无需复杂安装，复制代码就能使用。

2. 环境准备与配置

2.1 基础环境要求

在开始使用前，我们需要确保开发环境已经准备就绪：

Python环境：需要Python 3.8或更高版本。建议使用最新稳定版，可以通过命令python --version检查当前版本。
依赖库安装：除了Python自带的标准库外，还需要安装几个额外的库：
```
bash复制pip install openai python-docx openpyxl PyPDF2
```
tkinter支持：虽然tkinter是Python标准库的一部分，但在某些精简版Python安装中可能缺失。如果运行时报错提示缺少tkinter：
- Windows用户：重新安装Python时勾选"tcl/tk and IDLE"选项
- Mac用户：可以通过Homebrew安装：brew install python-tk

2.2 Azure OpenAI配置

使用这个工具前，你需要准备好Azure OpenAI服务的访问信息：

获取API密钥：
- 登录Azure门户，进入你的OpenAI资源
- 在"密钥和终结点"部分找到API密钥和终结点URL
部署模型：
- 确保已经创建了一个模型部署
- 记下部署名称（Deployment Name）

这些配置信息只需要在首次使用时输入一次，工具会自动保存到本地配置文件，后续使用无需重复输入。

3. 工具功能详解

3.1 图形化界面设计

工具的界面采用经典的标签页设计，分为四个主要功能区域：

配置页面：用于设置和保存Azure OpenAI的连接信息
文件处理页面：上传和处理各类文档的核心区域
多轮交互页面：进行连贯对话的聊天式界面
结果页面：查看处理结果并执行导出操作

界面布局遵循了常见桌面应用的设计原则，功能分区明确，操作流程直观。即使是完全没有编程经验的用户，也能快速上手使用。

3.2 文件处理功能

这个工具支持处理四种常见文档格式，每种格式都有专门的处理逻辑：

TXT文件处理：
- 自动识别文本编码
- 按行处理内容，保留原始格式
- 支持大文件分块处理
Word文档处理：
- 提取所有段落文本
- 保留基本的格式信息
- 跳过页眉页脚等非正文内容
Excel表格处理：
- 支持指定工作表和列
- 自动跳过空单元格
- 保持数据完整性
PDF文档处理：
- 提取可搜索文本
- 处理多页文档
- 跳过图片型PDF的提示

每种格式的处理过程都有实时日志反馈，用户可以清楚看到处理进度和可能出现的警告信息。

3.3 提示词模板系统

工具内置了五种实用的提示词模板，覆盖常见办公场景：

会议纪要总结：从杂乱记录中提取关键信息
需求信息提取：结构化整理需求文档
面试反馈整理：标准化面试评价
周报生成：将日常工作记录转化为规范周报
自定义模板：完全自由发挥

每个模板都经过精心设计，确保输出结果符合职场文档规范。用户也可以创建自己的模板，满足个性化需求。

4. 核心代码解析

4.1 配置文件管理

工具使用JSON格式存储配置信息，实现配置的持久化：

python复制CONFIG_FILE = "azure_config.json"

def load_config():
    """读取配置文件"""
    if os.path.exists(CONFIG_FILE):
        with open(CONFIG_FILE, "r", encoding="utf-8") as f:
            return json.load(f)
    return {"azure_endpoint": "", "api_key": "", "DEPLOYMENT_NAME": ""}

def save_config(config):
    """保存配置到文件"""
    with open(CONFIG_FILE, "w", encoding="utf-8") as f:
        json.dump(config, f, ensure_ascii=False, indent=4)

这种设计既保证了安全性（API密钥本地存储），又提升了用户体验（无需每次输入）。

4.2 Azure OpenAI客户端初始化

与Azure OpenAI服务的交互通过官方Python SDK实现：

python复制def _init_azure_client(self):
    global client
    if config["azure_endpoint"] and config["api_key"] and config["DEPLOYMENT_NAME"]:
        try:
            client = AzureOpenAI(
                azure_endpoint=config["azure_endpoint"],
                api_key=config["api_key"],
                api_version="2024-08-01-preview"
            )
            self.log_text.insert(tk.END, "✅ Azure OpenAI客户端初始化成功！\n")
        except Exception as e:
            self.log_text.insert(tk.END, f"❌ Azure OpenAI初始化失败：{str(e)}\n")

这里使用了最新的API版本，确保了功能的完整性和稳定性。

4.3 文件处理逻辑

以Word文档处理为例，展示了如何提取内容并发送到AI处理：

python复制def process_word_gui(file_path, prompt_template="会议纪要总结", custom_prompt="", log_text=None):
    """Word处理（适配GUI）"""
    if not os.path.exists(file_path) or not file_path.endswith(".docx"):
        return "文件不存在或非.docx格式", 0
    try:
        log_text.insert(tk.END, f"📂 开始处理Word文件：{file_path}\n")
        doc = Document(file_path)
        full_text = "\n".join([para.text.strip() for para in doc.paragraphs if para.text.strip()])
        if not full_text:
            log_text.insert(tk.END, "❌ Word文档无有效文本内容\n")
            return "Word文档无有效文本内容", 0
        log_text.insert(tk.END, "🔄 正在处理Word文档全文...\n")
        result, cost = process_text(full_text, prompt_template, custom_prompt)
        summary = f"\n===== Word处理完成 =====\n文档路径：{file_path}\n处理结果：\n{result}\n总费用：${cost:.6f}\n"
        log_text.insert(tk.END, f"✅ Word文件处理完成！\n")
        return summary, cost
    except Exception as e:
        log_text.insert(tk.END, f"❌ Word处理失败：{str(e)}\n")
        return f"Word处理失败：{str(e)}", 0