Python+Django构建旅游景点数据分析可视化系统-代码聚汇网

Python+Django构建旅游景点数据分析可视化系统

话食科普

1. 项目概述与背景

旅游行业作为全球最大的产业之一，每年产生海量的数据信息。如何从这些数据中提取有价值的信息，为游客提供决策参考，为旅游企业提供市场分析依据，成为当前旅游信息化建设的重要课题。本项目正是基于这一需求，开发了一套完整的旅游景点数据分析可视化系统。

系统采用Python语言作为开发基础，结合Django框架构建Web应用，使用Selenium进行数据爬取，MySQL作为数据存储，最终通过ECharts等可视化技术将分析结果直观展示。整个系统实现了从数据采集、清洗、存储到分析、可视化的完整流程，特别适合作为大数据相关专业的毕业设计项目。

提示：在实际开发过程中，旅游数据的时效性非常重要。建议设置定时任务定期更新数据，保持分析的准确性。

2. 系统架构设计

2.1 技术栈选型

本系统采用的技术栈经过精心挑选，各组件相互配合形成完整解决方案：

Python语言：作为核心开发语言，因其丰富的数据处理库和简洁语法
Django框架：成熟的Python Web框架，提供完整的MVC架构
Selenium：用于动态网页数据抓取，能处理JavaScript渲染的页面
MySQL：关系型数据库，存储结构化旅游数据
ECharts：百度开源的数据可视化库，支持丰富的图表类型
HTML/CSS/JavaScript：前端展示层技术

2.2 系统模块划分

系统功能模块设计遵循高内聚低耦合原则，主要分为以下几个部分：

数据采集模块：负责从携程等旅游网站抓取景点数据
数据处理模块：对原始数据进行清洗、转换和存储
用户管理模块：处理用户注册、登录和权限控制
数据分析模块：执行各类统计分析计算
可视化展示模块：将分析结果以图表形式呈现
后台管理模块：提供数据管理和系统配置功能

3. 核心功能实现细节

3.1 数据爬取实现

数据采集是整个系统的基础，我们使用Selenium模拟浏览器行为抓取携程旅游数据。主要抓取字段包括：

景点名称
所在地区
景点等级（5A/4A等）
热度指数
用户评分
评论数量
详细描述

python复制from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

def crawl_ctrip_attractions():
    driver = webdriver.Chrome()
    driver.get("https://you.ctrip.com/sight/")
    
    try:
        # 等待景点列表加载完成
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.CLASS_NAME, "sight_list"))
        )
        
        # 提取景点信息
        attractions = []
        items = driver.find_elements(By.CLASS_NAME, "sight_item")
        for item in items:
            name = item.find_element(By.CLASS_NAME, "sight_item_caption").text
            level = item.find_element(By.CLASS_NAME, "sight_item_info").text
            score = item.find_element(By.CLASS_NAME, "score").text
            # 其他字段提取...
            
            attractions.append({
                'name': name,
                'level': level,
                'score': score
                # 其他字段...
            })
            
    finally:
        driver.quit()
    
    return attractions

注意事项：爬虫开发需遵守robots协议和目标网站的使用条款，建议设置合理的请求间隔，避免对目标网站造成过大压力。

3.2 数据处理与存储

采集到的原始数据需要经过清洗和转换才能用于分析：

数据清洗：
- 处理缺失值
- 统一数据格式（如评分统一转换为浮点数）
- 去除重复数据
- 异常值检测和处理
数据转换：
- 评论数量从"1234条点评"转换为纯数字1234
- 景点等级从文本描述中提取标准化等级标识
- 地理位置信息解析为结构化数据
数据存储：
设计合理的MySQL表结构存储处理后的数据：

sql复制CREATE TABLE `scenic_spot` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(100) NOT NULL COMMENT '景点名称',
  `level` varchar(10) DEFAULT NULL COMMENT '景点等级',
  `address` varchar(100) DEFAULT NULL COMMENT '所在地区',
  `score` float DEFAULT NULL COMMENT '用户评分',
  `hot` float DEFAULT NULL COMMENT '热度指数',
  `comment_count` int(11) DEFAULT NULL COMMENT '评论数量',
  `description` text COMMENT '景点描述',
  `create_time` datetime DEFAULT CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`),
  UNIQUE KEY `idx_name` (`name`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

3.3 用户认证模块

系统采用Django自带的认证系统，并进行了扩展：

python复制# models.py
from django.db import models

class UserList(models.Model):
    user_id = models.CharField(max_length=50, unique=True)
    user_name = models.CharField(max_length=100)
    pass_word = models.CharField(max_length=100)
    create_time = models.DateTimeField(auto_now_add=True)

# views.py
def login(request):
    if request.method == "POST":
        user = request.POST.get('user')
        pass_word = request.POST.get('password')
        users_list = list(models.UserList.objects.all().values("user_id"))
        users_id = [x['user_id'] for x in users_list]
        
        ret = models.UserList.objects.filter(user_id=user, pass_word=pass_word)
        if user not in users_id:
            return JsonResponse({'code': 1, 'msg': '该账号不存在！'})
        elif ret:
            request.session['user_id'] = user
            user_obj = ret.last()
            request.session['user_name'] = user_obj.user_name
            return JsonResponse({'code': 0, 'msg': '登录成功！'})
        else:
            return JsonResponse({'code': 1, 'msg': '密码错误！'})
    else:
        return render(request, "login.html")

安全提示：实际项目中应使用Django内置的密码哈希功能，而不是明文存储密码。示例代码仅为演示逻辑。

4. 数据分析与可视化实现

4.1 数据概况分析

系统首页展示核心数据指标，通过聚合查询实现：

python复制def welcome(request):
    # 景点总数
    all_data = models.Data.objects.all().count()
    
    # 5A级景点数量
    data_5a = models.Data.objects.filter(Q(level__icontains='5A') | Q(name__icontains='5A')).count()
    
    # 4A级景点数量 
    data_4a = models.Data.objects.filter(Q(level__icontains='4A') | Q(name__icontains='4A')).count()
    
    # 最热门景点
    hot_data = [[x[0], float(x[1])] for x in 
               list(models.Data.objects.all().values_list('name', 'hot').distinct())]
    hot_data = sorted(hot_data, key=lambda x: x[1], reverse=True)[0]
    
    return render(request, "welcome.html", {
        'all_data': all_data,
        'data_5a': data_5a,
        'data_4a': data_4a,
        'hot_data_name': hot_data[0],
        'hot_data_hot': hot_data[1]
    })

4.2 可视化大屏实现

可视化大屏整合了多种图表类型，使用ECharts实现：

景区等级分布饼图：

javascript复制// 后端准备数据
level_list = list(set([x[0] for x in list(models.Data.objects.all().values_list('level'))]))
l_1_data = []
for level in level_list:
    l_1_data.append({'name': level, "value": models.Data.objects.filter(level=level).count()})

// 前端渲染
option = {
    title: {text: '景区等级分布'},
    tooltip: {trigger: 'item'},
    series: [{
        type: 'pie',
        data: {{ l_1_data|safe }},
        emphasis: {itemStyle: {shadowBlur: 10, shadowOffsetX: 0}}
    }]
};

景区热度和评分关系散点图：

javascript复制// 后端数据处理
hot_score = list(models.Data.objects.all().values_list('hot', 'score'))
hot_score = [[float(x[0]), float(x[1])] for x in hot_score if x[1] != '0']
hot_score = sorted(hot_score, key=lambda x: x[0])

// 前端配置
option = {
    xAxis: {name: '热度指数'},
    yAxis: {name: '用户评分'},
    series: [{
        symbolSize: 10,
        data: {{ hot_score|safe }},
        type: 'scatter'
    }]
};

景区分布地图：

python复制# 后端处理地理数据
city_list = ['北京市', '天津市', '河北省', '山西省', '内蒙古自治区', '辽宁省', '吉林省', 
             '黑龙江省', '上海市', '江苏省', '浙江省', '安徽省', '福建省', '江西省', 
             '山东省', '河南省', '湖北省', '湖南省', '广东省', '广西壮族自治区',
             '海南省', '重庆市', '四川省', '贵州省', '云南省', '西藏自治区', '陕西省', 
             '甘肃省', '青海省', '宁夏回族自治区', '新疆维吾尔自治区']

map_data = []
for x in city_list:
    map_data.append({'name': x, 
                    'value': models.Data.objects.filter(address__icontains=x[0:2]).count()})

4.3 词云图实现

词云图可以直观展示热门景区的关注度：

python复制# 准备词云数据
r_2_data = list(models.Data.objects.all().values_list('name', 'comment_count').distinct())
r_2_data = [[x[0], int(x[1].replace('条点评', ''))] for x in r_2_data]
r_2_data = [{"name": x[0], "value": x[1]} for x in r_2_data]

# 前端渲染
option = {
    series: [{
        type: 'wordCloud',
        shape: 'circle',
        left: 'center',
        top: 'center',
        width: '100%',
        height: '100%',
        data: {{ r_2_data|safe }}
    }]
};

5. 系统部署与优化

5.1 部署方案

系统可以采用多种部署方式：

传统部署：
- Nginx + uWSGI + Django
- MySQL单独部署
- 定时任务执行数据更新

容器化部署：

dockerfile复制# Dockerfile示例
FROM python:3.8
WORKDIR /app
COPY requirements.txt .
RUN pip install -r requirements.txt
COPY . .
CMD ["gunicorn", "project.wsgi:application", "--bind", "0.0.0.0:8000"]

云服务部署：
- 使用云数据库服务
- 对象存储静态文件
- 容器服务或Serverless部署应用

5.2 性能优化建议

数据库优化：
- 为常用查询字段添加索引
- 合理设计表结构避免冗余
- 使用Django的select_related/prefetch_related优化关联查询
缓存策略：
- 使用Redis缓存热点数据
- 实现页面片段缓存
- 设置适当的缓存过期时间
前端优化：
- 使用CDN加速静态资源
- 实现懒加载图表数据
- 压缩JavaScript和CSS文件

6. 项目扩展方向

本系统作为毕业设计项目已经具备完整功能，还可以从以下几个方向进行扩展：

数据源扩展：
- 整合多个旅游平台数据
- 接入实时天气和交通信息
- 收集社交媒体旅游相关数据
分析维度扩展：
- 游客画像分析
- 旅游路线推荐
- 季节性趋势预测
技术深化：
- 使用机器学习进行游客量预测
- 实现个性化推荐算法
- 构建知识图谱关联景点信息
交互体验提升：
- 增加多维度筛选功能
- 实现图表联动交互
- 支持自定义分析报告生成

在实际开发过程中，我特别推荐使用Django Debug Toolbar来优化查询性能，它会清晰展示每个页面执行的SQL查询及其耗时，帮助发现潜在的性能瓶颈。另外，对于数据可视化部分，建议先在小数据集上调试好图表样式和交互效果，再应用到全量数据上，这样可以大大提高开发效率。