DEA数据包络分析：MATLAB实现与效率评估-代码聚汇网

DEA数据包络分析：MATLAB实现与效率评估

第三世界的妖孽

1. 从田野到数据：理解DEA的本质

在农业社会中，农夫们早已掌握了一套朴素的效率评估方法。想象一下，三位农夫在相同的自然条件下耕作：

农夫甲：3名劳动力、20亩土地、5吨化肥，收获15吨小麦
农夫乙：5名劳动力、30亩土地、8吨化肥，收获22吨小麦
农夫丙：4名劳动力、25亩土地、6吨化肥，收获19吨小麦

传统评估方法往往陷入单一指标的陷阱。如果只看总产量，农夫乙最优；如果看单位面积产量，农夫甲领先；如果计算人均产出，又是另一番景象。这种评估困境在企业管理、项目评估等领域同样存在。

数据包络分析（DEA）正是为解决这类多投入多产出的效率评估问题而生。它的核心思想是：为每个评估对象（称为决策单元DMU）建立一个"效率天花板"（生产前沿面），通过比较实际表现与这个理想边界的距离来评估效率。

关键理解：DEA不依赖主观权重分配，而是让数据自己"说话"。它通过数学方法找出那些"用最少投入获得最多产出"的标杆单位，其他单位都以这些标杆为参照进行效率评估。

2. DEA的核心构件与CCR模型

2.1 基本概念解析

在深入数学模型前，我们需要明确几个关键术语：

决策单元(DMU)：被评估的基本单位，要求具有同质性（如相同年级的学生、同行业的企业等）
投入指标：消耗的资源，特点是"越少越好"（如人力、资金、时间等）
产出指标：获得的成果，特点是"越多越好"（如产量、利润、专利等）
生产前沿面：由最优DMU构成的效率边界，代表在当前技术条件下能达到的最佳投入产出组合

2.2 CCR模型详解

CCR模型是DEA中最基础的模型，由Charnes、Cooper和Rhodes于1978年提出。它假设规模报酬不变，即投入增加n倍，产出也相应增加n倍。

模型的核心是求解以下线性规划问题：

对于每个DMU₀，求解：

code复制max θ
约束条件：
Σ(λⱼ×xⱼᵢ) ≤ θ×x₀ᵢ （对所有投入指标i）
Σ(λⱼ×yⱼᵣ) ≥ y₀ᵣ （对所有产出指标r）
λⱼ ≥ 0 （对所有DMU j）

其中：

θ：效率值（0≤θ≤1）
λⱼ：各DMU的权重
xⱼᵢ：第j个DMU的第i项投入
yⱼᵣ：第j个DMU的第r项产出

当θ=1时，表示该DMU位于生产前沿面上，DEA有效；θ<1则表示存在改进空间。

3. MATLAB实现详解

3.1 数据准备与预处理

首先需要定义评估对象和指标。以下代码定义了3个创业项目的投入产出数据：

matlab复制% 决策单元名称
DMU_names = {'项目A', '项目B', '项目C'};

% 投入指标（人力、资金）
Input_names = {'人力（人）', '资金（万元）'};
Input_matrix = [
    5, 20;   % 项目A
    8, 30;   % 项目B
    6, 25    % 项目C
];

% 产出指标（收益、专利）
Output_names = {'收益（万元）', '专利（项）'};
Output_matrix = [
    15, 3;   % 项目A
    20, 4;   % 项目B
    18, 3    % 项目C
];

3.2 核心计算过程

DEA的核心是通过线性规划求解效率值。MATLAB提供了linprog函数来求解线性规划问题：

matlab复制for k = 1:n_DMU
    % 构建目标函数：min θ
    f = [1; zeros(n_DMU, 1)];
    
    % 构建约束条件
    % 投入约束：Σ(λⱼ×xⱼᵢ) ≤ θ×x₀ᵢ
    A_input = zeros(n_Input, n_DMU+1);
    for i = 1:n_Input
        A_input(i, 1) = -Input_matrix(k, i);
        A_input(i, 2:end) = Input_matrix(:, i)';
    end
    
    % 产出约束：Σ(λⱼ×yⱼᵣ) ≥ y₀ᵣ
    A_output = zeros(n_Output, n_DMU+1);
    for r = 1:n_Output
        A_output(r, 2:end) = -Output_matrix(:, r)';
    end
    
    % 合并约束
    A = [A_input; A_output];
    b = [zeros(n_Input,1); -Output_matrix(k,:)'];
    
    % 求解线性规划
    [X, ~] = linprog(f, A, b, [], [], zeros(n_DMU+1,1));
    
    % 存储结果
    Efficiency(k) = X(1);
    Lambda(:,k) = X(2:end);
end

3.3 结果可视化

良好的可视化能更直观地展示评估结果。我们创建三个图形窗口：

数据概览：并列显示各DMU的投入产出对比

matlab复制figure(1);
subplot(1,2,1);
bar(Input_matrix, 'grouped');
legend(Input_names);
title('投入指标对比');

subplot(1,2,2);
bar(Output_matrix, 'grouped');
legend(Output_names);
title('产出指标对比');

效率值对比：柱状图显示各DMU效率值

matlab复制figure(2);
bar(Efficiency);
hold on;
plot(xlim,[1 1],'r--');
title('DEA效率值对比');

生产前沿面：二维散点图展示效率边界

matlab复制figure(3);
scatter(Input_matrix(:,1),Output_matrix(:,1),'filled');
hold on;
[K,av] = convhull(Input_matrix(:,1),Output_matrix(:,1));
plot(Input_matrix(K,1),Output_matrix(K,1),'r-');
title('生产前沿面（人力-收益维度）');

4. 结果解读与优化建议

运行上述代码后，我们得到以下关键结果：

效率值评估：
- 项目A：1.0000（DEA有效）
- 项目B：0.8889（DEA非有效）
- 项目C：1.0000（DEA有效）
优化方向（以项目B为例）：
- 投入冗余：
  - 人力：可减少0.89人（从8人降至7.11人）
  - 资金：可减少3.33万元（从30万元降至26.67万元）
- 产出不足：
  - 收益：可提升0万元（已达理想水平）
  - 专利：可提升0项（已达理想水平）

实践建议：对于DEA非有效的单元，可以参考效率标杆（λ值不为零的DMU）的运营模式进行调整。例如项目B可以借鉴项目A和C的资源配置方式。

5. 应用扩展与注意事项

5.1 模型选择指南

除了基本的CCR模型，DEA还有多种变体：

模型类型	适用场景	特点
BCC模型	规模报酬可变	考虑规模效率
SBM模型	非径向效率测量	更精确但计算复杂
超效率模型	有效单元排序	允许效率值>1

5.2 常见问题排查

效率值异常：
- 检查数据单位是否一致
- 确认投入产出指标方向正确（投入越小越好，产出越大越好）
无可行解：
- 检查是否有DMU的某项产出为0
- 尝试调整求解算法（如使用'interior-point'）
结果不稳定：
- 增加DMU数量（一般不少于投入产出指标数量的3倍）
- 检查指标间是否存在高度相关性

5.3 实际应用技巧

指标选择：
- 投入产出指标数量不宜过多（通常各3-5个）
- 避免高度相关的指标同时入选
数据预处理：
- 对极端值进行Winsorize处理
- 不同量纲的指标需要进行标准化
结果验证：
- 尝试删除一个DMU看结果是否稳定
- 用不同模型交叉验证

6. 进阶应用与思考

DEA的应用远不止于效率评估。结合其他方法，它可以发挥更大价值：

Malmquist指数：测量效率随时间的变化
窗口分析：处理面板数据
网络DEA：分析系统内部子过程效率

在实际项目中，我经常将DEA与以下方法结合使用：

与AHP结合处理定性指标
与回归分析结合探究效率影响因素
与聚类分析结合进行DMU分类

经验之谈：DEA结果需要结合领域知识解读。数学上的有效未必等于实践中的最优，决策时还需考虑其他现实约束条件。

通过这个完整的MATLAB实现，我们不仅掌握了DEA的技术细节，更重要的是理解了它背后的管理哲学：在多元化的世界中，寻找资源最优配置的平衡点。这种思想无论对组织管理还是个人发展，都有着深远的启示意义。