基于Flask与MySQL的天气预报数据可视化系统开发-代码聚汇网

基于Flask与MySQL的天气预报数据可视化系统开发

王怡蕊

1. 项目概述：天气预报数据可视化系统的设计与实现

最近完成了一个基于Flask和MySQL的天气预报数据可视化系统，这个项目让我对Web应用开发、数据采集和可视化有了更深入的理解。作为一个经常需要查看天气数据的开发者，我发现市面上大多数天气应用都缺乏深度的数据分析功能，于是决定自己动手打造一个既能查看实时天气，又能进行历史数据分析和可视化的平台。

这个系统最核心的价值在于它整合了多个数据源（包括API和网页爬虫），通过MySQL进行高效存储，并利用Flask构建了完整的Web应用架构。用户不仅能看到常规的天气预报，还能通过丰富的图表分析天气趋势，甚至查询过去两年的历史天气数据。对于气象爱好者、户外活动组织者或需要天气数据的研究人员来说，这样的工具应该会很有帮助。

系统采用了典型的分层架构设计，从下到上包括：

数据源层：整合和风天气API和网页爬取数据
数据访问层：MySQL数据库存储结构化天气数据
业务逻辑层：Python实现的各种数据处理模块
Web应用层：Flask处理路由和请求
用户界面层：Bootstrap+ECharts构建的响应式前端

2. 技术选型与系统架构

2.1 核心技术栈解析

选择Flask作为后端框架是经过深思熟虑的。相比Django，Flask更加轻量灵活，特别适合这种中等规模的数据可视化项目。我们使用的Flask 8.0.3版本提供了稳定的路由、模板渲染和会话管理功能，而不会引入不必要的复杂性。

数据库方面，MySQL 5.7在性能和功能之间取得了很好的平衡。它的主要优势包括：

成熟的关系型数据管理能力
良好的Python生态支持（通过PyMySQL）
足够的性能处理十万级天气记录
完善的事务和索引机制

前端技术选型考虑了以下因素：

Bootstrap 4：快速构建响应式界面，适配各种设备
ECharts：专业的数据可视化库，特别适合地图和复杂图表
jQuery：简化DOM操作和AJAX请求
DataTables：增强表格的搜索和分页功能

2.2 系统架构详解

系统的分层架构设计确保了各模块的高内聚低耦合：

code复制用户界面层
├─ 首页仪表盘
├─ 天气地图
├─ 天气分析
├─ 历史查询
└─ 用户管理

Flask应用层
├─ 路由控制器(app.py)
├─ 用户认证
├─ 各功能端点
└─ 模板渲染

业务逻辑层
├─ 首页数据处理(home/)
├─ 历史查询逻辑(lishi/)
├─ 地图数据处理(map/)
├─ 天气分析(search/)
└─ 数据爬取(spider/)

数据访问层
├─ MySQL连接管理
├─ 用户表(users)
├─ 实时天气(weatherdata)
├─ 7天预报(weatherdata7)
└─ 历史天气(lishiweathers)

数据源层
├─ 和风天气API
└─ 网页爬虫数据

这种架构的优势在于：

修改前端界面不会影响后端逻辑
更换数据源只需调整爬虫模块
业务逻辑变化不会波及数据库设计
各层可以独立测试和部署

3. 核心功能实现

3.1 用户系统模块

用户认证是系统的基础功能，我们实现了完整的注册/登录流程。密码存储采用了加盐哈希处理，虽然项目中没有使用Flask-Security这样的专业库，但基本的密码安全措施已经到位。

用户表的SQL定义如下：

sql复制CREATE TABLE `users` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `username` varchar(255) DEFAULT NULL,
  `email` varchar(255) DEFAULT NULL UNIQUE,
  `password` varchar(255) DEFAULT NULL,
  `mima` varchar(255) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

Flask中的登录路由实现示例：

python复制@app.route('/login', methods=['POST'])
def login():
    email = request.form.get('email')
    password = request.form.get('password')
    user = query_user_by_email(email)
    if user and check_password(user['password'], password):
        session['user_id'] = user['id']
        return redirect('/home')
    return render_template('login.html', error='邮箱或密码错误')

提示：在实际项目中，建议使用Flask-Login或类似的扩展来管理用户会话，它们提供了更完善的认证机制和安全防护。

3.2 天气数据采集模块

数据采集是系统的核心之一，我们采用了混合数据获取策略：

实时天气数据：通过和风天气API获取

python复制def fetch_realtime_weather(api_key, city_code):
    url = f"https://devapi.qweather.com/v7/weather/now?location={city_code}&key={api_key}"
    response = requests.get(url)
    data = response.json()
    return {
        'city': data['location']['name'],
        'temp': data['now']['temp'],
        'feelsLike': data['now']['feelsLike'],
        'weather': data['now']['text'],
        'wind': data['now']['windScale'],
        'humidity': data['now']['humidity'],
        'visibility': data['now']['vis']
    }

历史天气数据：通过网页爬虫从weather.tianqi.com获取

python复制def crawl_history_weather(city, year, month):
    url = f"http://www.tianqi.com/{city}/{year}{month:02d}/"
    html = requests.get(url).text
    soup = BeautifulSoup(html, 'html.parser')
    
    weather_data = []
    for day in soup.select('.day'):
        date = day.select_one('.date').text
        high_temp = day.select_one('.high').text.replace('°', '')
        low_temp = day.select_one('.low').text.replace('°', '')
        weather = day.select_one('.weather').text
        wind = day.select_one('.wind').text
        
        weather_data.append({
            'city': city,
            'date': f"{year}-{month:02d}-{date}",
            'high_temp': float(high_temp),
            'low_temp': float(low_temp),
            'weather': weather,
            'wind': wind
        })
    
    return weather_data

数据采集的几个关键注意事项：

API调用要遵守频率限制，建议添加适当的延迟
网页爬虫需要模拟常规浏览器请求头
错误处理要完善，网络异常时应有重试机制
爬取的数据需要清洗和验证后再存入数据库

3.3 数据可视化实现

系统的可视化功能主要依赖ECharts和Chart.js实现。以中国地图温度分布为例：

后端提供省份温度数据接口：

python复制@app.route('/map')
def get_map_data():
    provinces = ['北京', '上海', '广东', ...]
    temps = []
    for province in provinces:
        avg_temp = get_avg_temp_by_province(province)
        temps.append(avg_temp)
    return jsonify(dict(zip(provinces, temps)))

前端使用ECharts渲染地图：

javascript复制function initChinaMap() {
    const chart = echarts.init(document.getElementById('map-container'));
    
    fetch('/map').then(response => response.json()).then(data => {
        const option = {
            tooltip: {
                trigger: 'item',
                formatter: '{b}<br/>平均温度: {c}°C'
            },
            visualMap: {
                min: -10,
                max: 40,
                text: ['高温', '低温'],
                realtime: false,
                calculable: true,
                inRange: {
                    color: ['#313695', '#4575b4', '#74add1', '#abd9e9', '#e0f3f8', '#ffffbf', '#fee090', '#fdae61', '#f46d43', '#d73027', '#a50026']
                }
            },
            series: [{
                name: '温度分布',
                type: 'map',
                map: 'china',
                emphasis: {
                    label: {
                        show: true
                    }
                },
                data: Object.entries(data).map(([name, value]) => ({name, value}))
            }]
        };
        
        chart.setOption(option);
    });
}

对于7天天气预报的折线图，我们展示了多个指标在同一时间轴上的变化趋势，方便用户比较温度、湿度、能见度等参数的相关性。

4. 数据库设计与优化

4.1 数据库表结构设计

系统使用了4个主要数据表：

用户表(users)：存储注册用户信息
实时天气表(weatherdata)：记录当前天气状况
7天预报表(weatherdata7)：存储未来一周的天气预报
历史天气表(lishiweathers)：包含2022-2024年的详细历史数据

历史天气表的创建语句：

sql复制CREATE TABLE `lishiweathers` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `城市` varchar(255) DEFAULT NULL,
  `日期` date DEFAULT NULL,
  `最高温度` float DEFAULT NULL,
  `最低温度` float DEFAULT NULL,
  `天气` varchar(255) DEFAULT NULL,
  `风向` varchar(255) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_city` (`城市`),
  KEY `idx_date` (`日期`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

4.2 查询优化实践

随着历史数据量增长到12万条以上，查询性能变得尤为重要。我们采取了以下优化措施：

为常用查询字段添加索引：

sql复制ALTER TABLE lishiweathers ADD INDEX idx_city_date (`城市`, `日期`);

复杂查询使用EXPLAIN分析执行计划：

python复制def explain_query(sql):
    with db.cursor() as cursor:
        cursor.execute(f"EXPLAIN {sql}")
        return cursor.fetchall()

分页查询优化：

python复制def get_history_weather(city=None, date=None, page=1, per_page=20):
    offset = (page - 1) * per_page
    query = "SELECT * FROM lishiweathers"
    conditions = []
    params = []
    
    if city:
        conditions.append("城市 LIKE %s")
        params.append(f"%{city}%")
    if date:
        conditions.append("日期 LIKE %s")
        params.append(f"{date}%")
    
    if conditions:
        query += " WHERE " + " AND ".join(conditions)
    
    query += " LIMIT %s OFFSET %s"
    params.extend([per_page, offset])
    
    with db.cursor(pymysql.cursors.DictCursor) as cursor:
        cursor.execute(query, params)
        return cursor.fetchall()

定期执行ANALYZE TABLE更新统计信息：

python复制def analyze_tables():
    tables = ['lishiweathers', 'weatherdata', 'weatherdata7']
    with db.cursor() as cursor:
        for table in tables:
            cursor.execute(f"ANALYZE TABLE {table}")

5. 部署与运维实践

5.1 系统部署指南

项目部署相对简单，主要步骤如下：

安装Python依赖：

bash复制pip install -r requirements.txt

创建并初始化MySQL数据库：

sql复制CREATE DATABASE tianqi CHARACTER SET utf8;
USE tianqi;
SOURCE /path/to/users.sql;
SOURCE /path/to/lishiweathrs.sql;

配置数据库连接：
修改各个utils.py文件中的连接参数：

python复制db = pymysql.connect(
    host='localhost',
    user='your_username',
    password='your_password',
    database='tianqi',
    charset='utf8mb4',
    cursorclass=pymysql.cursors.DictCursor
)

启动Flask开发服务器：

bash复制python app.py

对于生产环境，建议使用：

Gunicorn或uWSGI作为应用服务器
Nginx作为反向代理
Supervisor管理进程
单独的MySQL服务器

5.2 数据维护策略

天气数据需要定期更新以保持时效性。我们设置了以下维护策略：

实时数据：每小时更新一次（通过定时任务）

bash复制0 * * * * /usr/bin/python3 /path/to/spider/map.py

7天预报：每天更新两次（早晚各一次）

bash复制0 8,20 * * * /usr/bin/python3 /path/to/spider/fenxi.py

历史数据：每月初爬取上个月的完整数据

bash复制0 0 1 * * /usr/bin/python3 /path/to/spider/lishi.py

数据库备份策略：

bash复制# 每天凌晨备份
0 1 * * * mysqldump -u root -p tianqi > /backups/tianqi_$(date +\%Y\%m\%d).sql

6. 开发经验与问题排查

6.1 开发中的经验教训

API调用限制：和风天气的免费API有严格的调用限制，我们不得不：
- 实现请求缓存，避免重复查询相同数据
- 在开发环境使用Mock数据
- 考虑购买商业API或寻找替代数据源
网页爬虫稳定性：目标网站改版导致爬虫失效是常见问题。解决方案包括：
- 定期检查爬虫运行状态
- 实现更健壮的HTML解析逻辑
- 添加监控告警机制
数据一致性：多数据源间的城市名称不一致（如"北京" vs "北京市"）。我们建立了城市编码映射表：

json复制{
    "北京": "101010100",
    "上海": "101020100",
    "广州": "101280101",
    ...
}

前端性能优化：大数据量下图表渲染卡顿。优化措施：
- 实现数据分页加载
- 使用Web Worker处理复杂计算
- 对ECharts实例进行懒加载

6.2 常见问题排查指南

问题1：地图不显示或显示不全

检查china.js是否正确加载
确认ECharts地图组件已注册
查看浏览器控制台是否有跨域错误

问题2：历史查询速度慢

检查是否使用了适当的索引
分析慢查询日志
考虑添加查询缓存

问题3：爬虫获取数据不完整

检查目标网站是否有反爬机制
验证HTML结构是否变化
添加更详细的日志记录

问题4：数据库连接失败

验证连接参数是否正确
检查MySQL服务是否运行
确认用户有足够的权限

7. 系统扩展与改进方向

当前系统已经实现了基本功能，但还有多个可以改进的方向：

数据丰富化
- 增加空气质量指标
- 整合灾害天气预警
- 添加生活指数（穿衣、洗车、运动等）
功能增强
- 实现天气数据对比功能
- 添加自定义报表生成
- 开发移动端应用
技术架构升级
- 引入Redis缓存热门查询
- 使用Celery实现异步任务
- 考虑迁移到PostgreSQL或TimescaleDB
用户体验优化
- 增加个性化设置
- 实现数据导出功能
- 添加交互式数据探索工具
数据分析深化
- 实现天气趋势预测
- 添加异常天气检测
- 开发气候模式分析功能

这个项目从技术选型到功能实现都让我学到了很多，特别是如何处理不同数据源的整合问题，以及如何在大数据量下保持良好的用户体验。Flask的轻量灵活和MySQL的稳定可靠在这个项目中得到了很好的体现，而ECharts强大的可视化能力则让数据变得生动直观。