1. 项目背景与核心价值
大众点评作为国内领先的生活服务信息平台,积累了海量用户评价数据。这些非结构化的文本数据蕴含着消费者真实体验、商家服务质量和行业发展趋势的三重价值。我的毕业设计选择这个方向,正是看中了UGC内容挖掘在商业智能领域的巨大潜力。
通过自然语言处理与机器学习技术的结合,本项目实现了:
- 从6个维度构建餐饮行业评价指标体系
- 发现消费者决策的12个关键影响因子
- 建立商家服务质量动态监测模型
- 输出可视化分析报告和运营建议
2. 技术架构设计
2.1 整体技术路线
采用Lambda架构处理数据流:
- 批处理层:HDFS存储原始数据 + Spark进行特征工程
- 速度层:Kafka实时接入新评价 + Flink流处理
- 服务层:Elasticsearch索引 + Django可视化
2.2 关键组件选型
- 数据采集:Scrapy-Redis分布式爬虫集群
- 文本清洗:基于正则表达式的多级过滤管道
- 特征提取:Gensim实现Word2Vec词向量
- 情感分析:基于BERT的fine-tuning模型
- 主题建模:LDA与Top2Vec对比实验
3. 核心算法实现
3.1 情感强度计算模型
构建混合特征输入层:
- 词典特征:HowNet+NTUSD情感词典匹配
- 语法特征:依存句法分析提取评价对象
- 上下文特征:BiLSTM捕捉语义关联
- 最终输出:0-5分的多级情感评分
3.2 主题演化分析
采用Dynamic Topic Model:
- 按季度划分时间窗口
- 计算主题相似度矩阵
- 可视化主题强度变化
- 识别突发主题事件
4. 数据分析与应用
4.1 消费者画像构建
通过K-means聚类发现:
- 价格敏感型(占比32%)
- 环境偏好型(占比25%)
- 服务挑剔型(占比18%)
- 品质追求型(占比25%)
4.2 商家运营建议
输出3类诊断报告:
- 差评根因分析报告
- 竞品对比分析报告
- 口碑趋势预警报告
5. 工程实践要点
5.1 数据采集注意事项
- 设置动态User-Agent池
- 采用IP轮询策略
- 遵守robots.txt规则
- 设计反爬休眠机制
5.2 模型优化经验
- 词向量维度实验:300维最佳
- LDA主题数确定:肘部法则验证
- 批处理大小选择:256效果最优
- 学习率调整策略:余弦退火
6. 创新点总结
- 提出多粒度情感分析方法
- 设计评价质量评估指标
- 开发可视化决策支持系统
- 验证跨城市数据迁移效果
项目完整代码已开源在GitHub,包含详细注释和数据集示例。在实际应用中,建议结合具体业务场景调整分析维度,特别注意数据更新的时效性处理。