论坛用户行为分析是互联网公司常见的业务场景。假设我们有一张论坛发帖信息表t1,包含id(发帖人编号)、name(帖子标题)、salary(论坛奖励分数)三个字段。在实际工作中,我们需要频繁地对这类表进行增删改查操作。
更新数据是最基础的操作之一。很多新手容易混淆UPDATE和CREATE语句的区别。UPDATE用于修改已有记录,比如要把id为100的发帖人名字改为'lixiaoming',正确的SQL应该是:
sql复制UPDATE t1 SET name='lixiaoming' WHERE id=100;
这里SET指定要修改的字段和值,WHERE限定修改范围。如果不加WHERE条件,就会修改整张表的所有记录,这是非常危险的操作。
条件查询是数据分析的基石。查看id等于10的记录时,必须使用WHERE子句:
sql复制SELECT id FROM t1 WHERE id=10;
WHERE子句就像筛选器,只返回符合条件的记录。常见的比较运算符包括=(等于)、>(大于)、<(小于)、!=(不等于)等。
分组统计能帮我们发现更有价值的信息。比如要统计每个会员的发帖数量:
sql复制SELECT id, COUNT(name) FROM t1 GROUP BY id;
GROUP BY按id分组,COUNT(name)计算每组的帖子数。如果想筛选发帖数超过5的活跃用户,可以加上HAVING子句:
sql复制SELECT id, COUNT(name) FROM t1
GROUP BY id
HAVING COUNT(name)>5;
HAVING和WHERE的区别在于:WHERE在分组前过滤记录,HAVING在分组后过滤组。
办公时长分析是人力资源管理的常见场景。假设某部门员工的每天办公时长X(小时)服从正态分布,我们采集了6名员工的数据:9、10、6、7、8.3、7.7。
均值计算是最基础的描述统计量。把所有值相加再除以数量:
code复制(9+10+6+7+8.3+7.7)/6 = 8
均值反映了数据的集中趋势,但容易受极端值影响。比如如果有个员工加班到15小时,均值就会被拉高。
标准差衡量数据的离散程度。计算步骤:
样本标准差分母用n-1(这里是5):
code复制方差 = [(9-8)² + (10-8)² + (6-8)² + (7-8)² + (8.3-8)² + (7.7-8)²]/5 ≈ 2.036
标准差 = √2.036 ≈ 1.43
变异系数是标准差与均值的比值,用于比较不同量纲数据的离散程度:
code复制1.43/8 ≈ 0.18
变异系数越小,说明数据越集中。在考勤分析中,变异系数大的团队可能需要调整工作时间安排。
理解表间关系是数据建模的核心能力。典型的销售业务模型包含:
事实表与维度表:
连接模式主要有三种:
筛选关系取决于业务逻辑。通常维度表可以筛选事实表(如按产品类别筛选销售记录),但事实表不能筛选维度表。产品表和区域表之间如果没有直接业务关系,就不应该存在筛选关系。
在考试中常出现的错误连接包括:
电商运营需要关注多个关键指标。假设某平台有5个品类20种商品,每屏展示5个商品,5天销售数据如下:
动销率反映商品销售活跃度,计算公式:
code复制动销率 = 有销售的商品数 / 总商品数 × 100%
品类层级动销率(5个品类中4个有销售):
code复制4/5 × 100% = 80%
商品层级动销率(20个商品中8个有销售):
code复制8/20 × 100% = 40%
动销率低可能说明选品或陈列有问题,需要调整商品结构。
屏效衡量屏幕展示效率,计算公式:
code复制屏效 = 该屏商品销量 / 总销量 × 100%
假设第一屏销量4件,总销量19件:
code复制4/19 × 100% ≈ 21.05%
通过比较各屏屏效,可以发现第二屏(6/19≈31.58%)效果最好,可以分析其商品组合、位置等优势因素,复制到其他屏。
在实际运营中,还需要结合转化率、客单价等指标综合分析。当资金紧张时,优化现有流量的转化效果(提升转化率和客单价)比获取新流量更经济高效。
用户分层是精准营销的基础。常见的客户价值模型将用户分为:
RFM模型是最常用的用户分类方法,通过以下维度:
营销策略应根据用户类型制定:
避免使用不适合的工具,如波士顿矩阵主要用于产品分析,不适用于用户分类。在实际业务中,要定期更新用户分群,因为用户价值会随时间变化。