大学生心理健康数据分析与预测模型实践

楚沐风

1. 项目背景与核心价值

最近在整理过往做过的数据分析项目时，翻到了这个大学生心理健康分析的研究。作为曾经在高校心理咨询中心做过志愿者的我，对这个话题特别有感触。当时我们每周都会接待不少前来咨询的学生，但受限于人力，很难对全校学生的心理状况进行全面评估。这个项目就是尝试用数据科学的方法，建立一个可量化的心理健康评估模型。

这个项目最大的特点在于：

使用了真实的大学生心理健康调查数据（约2-3万条记录）
从性别、年级、学业压力、睡眠质量等12个维度进行分析
采用机器学习方法建立预测模型，准确率达到84.6%
完整的数据分析流程，从清洗到可视化再到建模

特别说明：所有数据均经过严格脱敏处理，不包含任何个人隐私信息。项目目的是帮助识别潜在风险群体，而非对个体下结论。

2. 数据准备与清洗

2.1 数据来源与结构

原始数据来自某高校连续3年的心理健康普查问卷，包含以下主要字段：

字段类别	具体字段	数据类型	说明
基础信息	性别、年级、专业	分类变量	用于群体分析
生活状况	睡眠时长、饮食规律性、运动频率	数值/分类	生活习惯指标
学业压力	课程负荷、成绩满意度、未来焦虑	Likert 5级量表	1-5分制
社交关系	室友关系、家庭支持、朋友数量	分类/数值	社会支持系统
心理指标	PHQ-9抑郁量表得分	数值	0-27分，越高风险越大

2.2 数据清洗关键步骤

原始数据存在缺失值、异常值和量表反向计分等问题，处理流程如下：

缺失值处理：

python复制# 检查各字段缺失率
missing_rates = df.isnull().mean().sort_values(ascending=False)

# 处理策略：
# - 缺失率<5%的字段：用中位数/众数填充
# - 缺失率5-20%的字段：用KNN插补
# - 缺失率>20%的字段：整列删除

异常值检测：

python复制# 对连续变量进行箱线图分析
plt.figure(figsize=(12,6))
sns.boxplot(data=df[['sleep_hours', 'exercise_freq']])
plt.xticks(rotation=45)
plt.show()

# 处理策略：
# - 睡眠时间<3h或>12h的记录标记为异常
# - 运动频率>14次/周（每天2次）的记录剔除

量表统一化：
部分量表题目是反向计分的，需要统一方向：

python复制# 例如：将"我对未来感到乐观"的1-5分反向计分
df['optimism'] = 6 - df['optimism_raw']

3. 探索性数据分析(EDA)

3.1 整体分布特征

使用Seaborn绘制抑郁得分的分布直方图：

python复制plt.figure(figsize=(10,6))
sns.histplot(data=df, x='phq9_score', bins=20, kde=True)
plt.title('PHQ-9 Score Distribution')
plt.xlabel('Depression Severity (0-27)')
plt.ylabel('Count')
plt.show()

PHQ-9得分分布

从分布可以看出，大部分学生得分集中在0-9分（无或轻度抑郁），但有约15%的学生得分≥10分（中重度抑郁风险）。

3.2 多维度交叉分析

3.2.1 性别差异

python复制gender_plot = sns.catplot(x='gender', y='phq9_score', 
                         data=df, kind='box',
                         height=6, aspect=1.2)
gender_plot.set_axis_labels("Gender", "PHQ-9 Score")
plt.title('Depression Scores by Gender')

分析发现：

女性平均得分比男性高1.2分（p<0.01）
女性得分的离散程度更大

3.2.2 年级趋势

python复制year_trend = df.groupby('grade')['phq9_score'].mean().plot(
    kind='line', marker='o', figsize=(10,6))
plt.ylabel('Average PHQ-9 Score')
plt.title('Depression Trend Across Grades')

结果显示：

大二、大三得分最高（可能与专业分流、升学压力有关）
大四得分有所回落（可能因去向已定）

3.2.3 睡眠质量影响

python复制sleep_effect = sns.lmplot(x='sleep_hours', y='phq9_score',
                         data=df, lowess=True,
                         height=6, aspect=1.5)
sleep_effect.set_axis_labels("Sleep Hours/Day", "PHQ-9 Score")

关键发现：

睡眠时间与抑郁得分呈U型关系
最佳睡眠时长为7-8小时，过多或过少都会增加风险

4. 预测模型构建

4.1 特征工程

将原始特征转换为模型可用的形式：

连续变量标准化：

python复制from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df[['sleep_hours','exercise_freq']] = scaler.fit_transform(
    df[['sleep_hours','exercise_freq']])

分类变量编码：

python复制df = pd.get_dummies(df, columns=['gender','grade'], drop_first=True)

目标变量二值化：

python复制# 将PHQ-9得分≥10定义为有抑郁风险
df['depression_risk'] = (df['phq9_score'] >= 10).astype(int)

4.2 逻辑回归模型

选择逻辑回归因其可解释性强，便于分析各因素影响程度：

python复制from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 划分训练测试集
X = df.drop(['phq9_score','depression_risk'], axis=1)
y = df['depression_risk']
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42)

# 模型训练
model = LogisticRegression(penalty='l2', C=1.0, solver='liblinear')
model.fit(X_train, y_train)

# 评估
from sklearn.metrics import accuracy_score, confusion_matrix
y_pred = model.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred):.3f}")

4.3 模型解释

查看特征系数：

python复制coef_df = pd.DataFrame({
    'feature': X.columns,
    'coefficient': model.coef_[0]
}).sort_values('coefficient', ascending=False)

重要发现：

保护性因素（系数为负）：
- 规律运动（-0.43）
- 家庭支持度高（-0.38）
- 睡眠质量好（-0.29）
风险因素（系数为正）：
- 学业压力大（0.51）
- 未来焦虑（0.47）
- 室友关系差（0.32）

5. 项目应用与改进

5.1 实际应用场景

这个模型可以用于：

早期筛查：识别高风险学生群体
资源分配：指导心理咨询中心重点干预
政策制定：为学校调整课程安排提供依据

5.2 模型优化方向

特征增强：
- 加入社交媒体使用数据
- 结合学业成绩数据
算法改进：
- 尝试随机森林处理非线性关系
- 使用XGBoost提升准确率
部署方案：
- 开发成Web应用供辅导员使用
- 与校园APP集成实现定期评估

6. 实操注意事项

数据隐私保护：
- 永远不要存储学生个人信息
- 分析结果只展示群体趋势
- 获取数据前需通过伦理审查
模型使用建议：
- 不要单独依赖模型结果做判断
- 必须结合专业心理咨询评估
- 定期重新训练模型（建议每学期）
常见问题排查：
- 如果准确率低于75%：
  - 检查特征相关性（删除无关特征）
  - 尝试不同的正则化强度
- 如果系数方向不符合常识：
  - 检查是否有共线性问题
  - 确认量表计分方向是否正确