KISS复盘法：从围棋到敏捷开发的持续改进闭环

niudrw

1. KISS复盘法的围棋起源与敏捷基因

我第一次接触KISS复盘法是在一场围棋比赛中。职业棋手在赛后总会做一件事：把对局从头到尾重演一遍，标记关键决策点——这被称为"复盘"。这种传统后来被日本围棋大师吴清源系统化为"保持优势手（Keep）、改进失误手（Improve）、尝试新战术（Start）、淘汰旧套路（Stop）"的四步法。

有趣的是，敏捷开发中的Sprint回顾会议与围棋复盘有着惊人的相似性。都强调三点核心：

即时性：必须在记忆鲜活时进行（围棋在赛后24小时内，敏捷在迭代结束时）
可视化：围棋用棋盘重现落子顺序，敏捷用看板展示任务流
行动导向：不只为分析，更要产出具体改进项

我在带领团队实践Scrum时发现，直接套用围棋复盘模板会让工程师们更易理解。比如用"死活题"类比阻塞问题，用"官子阶段"比喻迭代尾声的资源分配。这种跨界类比消除了方法论的距离感。

2. 四步拆解：KISS在敏捷场景的实战变形

2.1 Keep（保持）：识别团队的优势基因

某次为电商客户实施持续交付时，我们发现在压力环境下，团队自发形成了"晨会+午间同步"的双频沟通机制。这属于典型的意外优势——那些未被计划但效果显著的做法。

在复盘会上，我们通过以下方式固化优势：

用代码提交热力图验证沟通频次与交付质量的正相关
将临时机制写入团队章程："当迭代周期≤2周时，启动双频沟通协议"
在Jenkins流水线中添加"午间同步"的自动提醒

关键要区分真正的优势与幸存者偏差。我们曾误将某次成功的紧急修复归因为英雄主义，后来用故障树分析发现实际是监控体系起了作用。

2.2 Improve（改进）：把痛点转化为改进实验

某金融项目遇到需求变更率高达70%的困境。传统做法是抱怨客户善变，但用KISS模型我们这样做：

量化问题：统计变更请求的触发点，发现68%集中在接口规范阶段
根因分析：用5Why法定位到OpenAPI文档与代码不同步
设计实验：在下一个Sprint试点"契约测试+Swagger自动化"方案
度量指标：定义"需求冻结率"作为改进效果的验证标准

这比单纯说"要加强需求管理"更可操作。我们后来把这个模式总结为"痛点→数据→实验→度量"的改进闭环。

2.3 Start（开始）：可控范围内的创新尝试

技术债管理是个典型场景。传统做法是专门安排重构迭代，但往往被业务需求挤占。我们尝试：

在每次代码评审时，允许开发者用技术债支票标注潜在问题
每个Sprint预留15%容量处理高优先级债务
用SonarQube的"坏味道消除率"可视化进展

这种渐进式创新比"重构月"更可持续。关键在于控制试错成本——我们规定任何新实践必须满足：

影响范围不超过2人日
有明确的终止条件
不破坏持续交付流水线

2.4 Stop（停止）：勇敢砍掉"僵尸实践"

最难的是识别那些食之无味弃之可惜的"僵尸实践"。我们建立了一套淘汰机制：

成本审计：统计每日站会的平均耗时/收益比
替代验证：尝试用异步视频日志替代部分同步会议
仪式感处理：为被淘汰的实践举行"退役仪式"（比如给过时的监控工具写讣告）

有个反直觉的发现：那些"大家都觉得没用却还在做"的事情，往往承载着隐性功能（比如冗长的周报其实是跨部门博弈工具）。所以Stop环节必须配套分析替代方案。

3. 从会议室到代码库：KISS的技术落地路径

3.1 代码评审中的微型复盘

在GitLab MR模板中，我们设计了KISS检查项：

markdown复制## KISS 复盘  
- [ ] Keep：本次提交值得推广的模式（如防御性编程技巧）  
- [ ] Improve：需要优化的代码段（用#L行号标注）  
- [ ] Start：建议尝试的新工具/模式（如静态分析规则）  
- [ ] Stop：应当避免的写法（如魔数使用）

配合Git钩子实现：当MR包含"Improve"项时，自动创建技术债工单；"Start"项触发对应工具的POC分支。这让复盘从会议延伸到日常编码。

3.2 故障复盘的可观测性改造

传统故障复盘会陷入"谁该负责"的争论。我们将KISS与可观测性工具结合：

用Grafana重现故障时间线的指标三件套：
- 黄金指标（吞吐/错误/饱和度）
- RED方法（请求率/错误率/持续时间）
- USE方法（利用率/饱和度/错误）
在复盘会议中：
- Keep：哪些监控指标最先报警
- Improve：哪些关键指标缺失
- Start：需要新增的检测维度
- Stop：产生噪音的无效告警

某次数据库故障中，这套方法帮我们发现：虽然有多层监控，但缺少连接池排队时间的观测点。后来新增的p99排队时长指标，在三个月后成功预警了类似问题。

3.3 技术雷达的KISS驱动更新

我们每季度用KISS模型更新技术雷达：

象限	Keep	Improve	Start	Stop
语言与框架	Spring Boot的稳定表现	优化K8s Operator使用	评估Rust	淘汰jQuery
工具	GitLab CI流水线	SonarQube规则集	试点Argo CD	停用Jenkins X
平台	AWS EKS生产就绪	完善Istio监控体系	测试Wasm边缘	下架Hadoop