从AWR报告入手：一次Oracle数据库CPU高负载的实战排查与优化

番言

1. 从CPU报警到AWR报告生成

那天早上刚到公司，运维同事就急匆匆跑过来："老张，快帮忙看看！监控显示Oracle数据库服务器的CPU使用率飙到70%多，业务部门已经反馈系统变慢了。"作为一名和Oracle打了十年交道的DBA，我立刻意识到这可能是典型的数据库性能问题。不过别慌，咱们手里有Oracle自带的"体检报告"——AWR（Automatic Workload Repository）报告，它能帮我们快速定位问题。

首先登录数据库服务器，切换到oracle用户，用sqlplus连接数据库：

bash复制su - oracle
sqlplus / as sysdba

然后执行AWR报告生成脚本。这里有个小技巧：选择快照时间段时，最好包含问题发生前后的时间点。比如这次CPU高负载发生在上午9点到晚上10点，我就选择了这个时间段的两个snapshot ID：

sql复制@?/rdbms/admin/awrrpt.sql

生成的报告默认保存在/home/oracle目录下，是个HTML文件。我把它下载到本地用浏览器打开，一份详尽的数据库"体检报告"就展现在眼前了。这里提醒新手注意：AWR报告默认保留8天数据，遇到性能问题要第一时间生成报告，否则关键数据可能被自动清理掉。

2. 解读AWR报告的关键指标

2.1 数据库整体健康检查

打开报告后，我首先关注"Load Profile"和"Instance Efficiency"这两个板块。这就好比医生先看病人的体温和血压——数据库的"生命体征"。在本次案例中，几个关键指标亮起了红灯：

DB Time：这个值达到了3600分钟，而实际经过时间（Elapsed Time）只有60分钟，服务器有4个CPU核心。简单计算：DB Time（3600）远大于Elapsed Time × CPU数量（60×4=240），说明数据库确实在超负荷运转。
逻辑读/物理读：逻辑读高达5000/秒，但物理读只有50/秒，说明大部分数据都能从buffer cache中获取，问题可能不在I/O层面。
硬解析率：保持在1%以下，说明SQL重用率良好，可以排除SQL解析导致的开销。

2.2 揪出罪魁祸首：等待事件分析

翻到"Top 5 Timed Events"部分，这里列出了数据库最耗时的等待事件。不出所料，DB CPU以85%的占比高居榜首，这意味着CPU资源确实被数据库操作大量占用。其他等待事件如"db file sequential read"只占5%，进一步验证了问题出在CPU计算而非磁盘I/O上。

这里有个经验分享：当DB CPU是主要等待事件时，通常意味着：

有大量CPU密集型操作（如复杂计算、全表扫描）
SQL执行频率过高
存在锁争用导致CPU空转

3. 定位高消耗SQL语句

3.1 找出Top SQL

顺着报告来到"SQL Statistics"部分，这里按资源消耗排序列出了所有SQL语句。我发现两条SQL特别突出：

SQL ID 7mh3v5abjq0qk：每秒执行12次，占总DB Time的45%

sql复制select COUNT(*) from EDU_COURSE_CLASS_STUINFO where CLASS_ID=:1

SQL ID 8kf9d2nsn4jst：每秒执行3次，占总DB Time的35%

sql复制select * from SYNDATA where synflag=:1 order by createtime

3.2 逐个击破问题SQL

3.2.1 高频计数查询优化

第一条SQL看似简单——只是根据CLASS_ID计数。我手动执行测试发现单次执行只需0.1秒，但架不住每秒执行12次的高频率。这种场景下，数据库层面的优化空间确实有限，于是我建议：

引入缓存：使用Redis缓存计数结果，设置合理的过期时间
异步更新：改同步查询为异步，定期批量更新计数
物化视图：考虑创建物化视图定期刷新

最终开发团队采用了Redis方案，将数据库查询频率从12次/秒降到了1次/分钟。

3.2.2 全表扫描的智慧优化

第二条SQL的分析更有意思。SYNDATA表有300万条数据，当synflag=1时查询需要16秒，=2时只需1秒。检查字段特征：

synflag只有3个枚举值，区分度低不适合建索引
createtime有索引但查询条件没利用到

与开发沟通后了解到，这是数据同步程序在轮询检查新数据。于是我们做了个巧妙调整：

sql复制select * from SYNDATA 
where synflag=:1 
and createtime >= trunc(sysdate)
order by createtime

优化点在于：

增加时间条件，只查询当天数据
利用createtime索引加速查询
夜间低峰期执行全量同步补全数据

改造后查询时间从1秒降到0.1秒，CPU使用率直接下降了30%。

4. 系统级优化建议

除了具体SQL优化，AWR报告还揭示了几个系统级问题：

内存配置：buffer cache命中率98%很好，但shared pool利用率持续在90%以上，建议增加shared_pool_size
并发控制：发现少量"enq: TX - row lock contention"等待事件，提示需要优化事务提交频率
统计信息：部分表统计信息过旧，建议设置自动收集任务

实施这些优化后，数据库CPU使用率从70%降至20%左右，业务响应时间提升60%。这次经历再次证明：AWR报告就像数据库的X光片，能帮我们精准定位性能病灶。关键是要掌握正确的分析方法，把抽象的数据转化为具体的优化动作。

已经到底了哦

精选内容

1 NAND Flash固件工程师避坑指南：Edge WL和相邻WL的Read Disturb陷阱怎么防？2 别再手动盖油了！用AD20规则管理器一劳永逸搞定过孔盖油（附详细Query语句）3 【PCL实战】三维点云空洞修复：从原理到几何方法实践 4 别再手动录入了！用LabVIEW的IMAQ Read Barcode 2函数，5分钟搞定一维码批量识别（附避坑指南）5 GRACE数据处理避坑指南：手把手教你用MATLAB转换ICGEM的gfc文件（附完整代码）6 ArcMap水文分析实战：用30米DEM数据从零生成流域水系图（附避坑指南）7 STM32CubeIDE实战：红外避障传感器如何驱动LED灯（附完整代码）8 告别‘缺少dll’！用Qt Creator和windeployqt打包exe的保姆级避坑指南（含SQLite数据库问题解决）9 别再傻傻分不清了！一张图看懂IDS、IPS、WAF、上网行为管理到底该放哪 10 机器学习中的数学——距离度量（二十二）：海林格距离（Hellinger Distance）在概率分布比较与模型评估中的应用