金敏超：评估在项目设计和执行层面的应用——真实世界中的评估可以怎么做？

中国基金会发展论坛2022年会（以下简称「2022年会」）于江苏常熟举办，主题为「韧性发展勇毅前行」。点击阅读原文，回看平行论坛的精彩内容。

本文为上海纽约大学副教授金敏超在2022年会平行论坛「多维评估指导下的项目迭代与创新」上的演讲整理。

■ 图：金敏超在「多维评估指导下的项目迭代与创新」平行论坛上演讲

我先来破一个题，评估是有不同的目的的。一、总结，也就是成效验证和价值验证；二、监督，也可以理解为「问责」，是第三方或资方、公众对于项目或机构的监督；三、发展，也就是项目优化。

■ 图：金敏超在「多维评估指导下的项目迭代与创新」平行论坛上演讲

当然这些目的不是割裂的，彼此之间是有联系的。很多时候你从某个目的切入，就会慢慢延展到另一个目的。比如资方想了解项目做得怎么样，这是从问责的角度进入，但是就到了成效验证或价值验证的过程，也就是「总结」，之后发现项目的成效好或是不好，就会思考项目接下来该怎么做，这就是发展的目的。

不管是以什么角度切入的评估，最重要的是一定要清楚你想要什么，换句话说就是项目最紧要的需求是什么？以终为始，才能让评估发挥最大的效用。这就像是量体裁衣，做一件衣服，你要先了解自己的需求，然后告诉裁缝（也就是专家），由裁缝（专家）来做衣服，最后的成品才更可能是自己想要的。从裁缝（专家）角度呢，TA也是先要了解你（项目），也就要求你要先了解自己，项目对于这次评估的需求到底是什么？

不过，当下的评估，往往都是由项目成效的需求开始的。从成效开始，只是总结（验证成效），怎样到发展（优化项目）的层面呢？

首先，我们来看下面这个图。项目还是有共性的，这是一个项目因果链，我在很多场合都分享过。好的项目一定是从目标人群的需求出发，做针对性的设计，然后遵照设计去执行，最后的效果，就能发聩到目标人群的需求的。

所以，项目的设计、执行和成效是有因果联系的。评估从成效验证开始，根据成效就可以反映到前面的执行情况，再反映到项目设计，最后反馈到需求判断。如果评估发现成效有问题，甚至最好在评估方案阶段，根据项目的需求，针对性的设计，让评估能更好地检验项目执行和项目设计，就可以根据评估的结果和建议，来调整项目执行和设计，甚至重新检视目标人群的需求。我认为这就是一个评估帮助项目优化的过程。

真实世界中的项目是多种多样的，因而评估也不能一成不变。接下来，我分享三个案例，希望能说明不同维度、不同状态、不同需求的项目，是怎样从成效评估走到项目优化的。

这三个案例分别是联劝公益基金会的一个鸡蛋项目、佰特公益的儿童财商教育项目以及乐施会与联劝公益基金会联合推出的纵横计划。

案例一：联劝「一个鸡蛋」项目

「一个鸡蛋」项目的评估始于2017年，那时项目已经实施7年了，没有做过严谨的成效评估。在「一个鸡蛋」项目的发展过程中，已经衍生出其他一些项目，比如「一个鸡蛋的暴走」，公众对于项目的关注度也越来越高，所以项目到底做得怎么样？确实到了该被回答的时候了。

「一个鸡蛋」项目的因果链非常直观：项目需求是欠发达地区儿童的营养状况相对差，用什么方式来补充营养呢？项目方根据以往经验找到了一个最能落地的方法——用鸡蛋，大家也都认可。

后续的设计和执行就是联劝拨款，找到合作的在地机构，让他们采购鸡蛋，然后把鸡蛋运到学校，学校蒸煮后分发给学生，那最后学生营养状况有没有得到改善呢？

在评估过程中，联劝提出一个进一步的需求：提供多少学期的鸡蛋，孩子们能获得营养的改善呢？所以我们就又加了一年的追踪。

项目方一开始不完全清楚自己的需求，这样的情况是经常发生的，这要求裁缝（专家）在评估时保持一定灵活度，能根据项目方需求做实时调整。我们来具体看一下跟项目方共创的评估过程：

首先，这个评估的研究基础是比较充分的，国际上有很多关于儿童营养的研究，也有现成的指标。大体是两类一是测量孩子的身高体重，结合年龄和性别就能得到综合的营养指标；另外一种是抽血样，通过血样中营养成分的分析，也能得出孩子的营养状态。虽然抽血样方法更为精确，但是和联劝沟通后，因为大部分学校没有相应的医疗条件，所以抽血样不可行，因而只能选择相对不精确但是更安全的测量身高体重的方法。

第二，我们在做项目成效和项目的因果关系验证时，随机对照试验（RCT）肯定是最好的方法。我们问联劝能不能做RCT，联劝说不能，没有实施的条件，在这个阶段没法要求项目学校根据随机分配来决定是进入实验组（给鸡蛋）或者控制组（不给鸡蛋）。后来，两方决定用准实验设计，在项目学校周边找一些没有参与项目的学校进入控制组。

但是因为控制组没有直接到资助和帮助，他们参与评估的积极性肯定是比实验组低的，所以控制组样本的流失率会比实验组要高。不过，现实中项目的处境大多是这样，RCT因为各种各样的原因做不了，准实验也存在找控制组难或者控制组流失的问题，但这就是「体」，量体裁衣就要有一定的妥协。

第三，如果评估结果要更好地帮助项目优化，那么在看成效的同时，至少需要看项目执行。「一个鸡蛋」的执行怎么看？也是根据条件，主要通过走访和问卷。

第四，联劝还提出另一个问题，吃鸡蛋除了改善营养，对儿童的其他方面会不会也有所改善？这个问题比较广，要做评估，是比较困难的。所以，我们两方讨论，一方面把成效点分主次，测量「营养」是重点，其他是探索；另一方面，我们找到了「准影像发声」的方法，通过小朋友自己拍和「一个鸡蛋」项目有关的照片，最后的结果也比较惊喜。

接下来我们来看结果，统计分析告诉我们，营养成效效果是显著的。吃了两个学期鸡蛋以后，实验组的孩子们相较对照组的孩子们，身高平均多增加0.6厘米，体重平均多增加1.6公斤。这里，因为项目方的需求明确，评估的结果就可以直接给出设计层面的优化，即「一个鸡蛋」项目至少要为参与的学生提供两个学期的鸡蛋。

我们做归因时，成效验证不仅要说明效果好，还要解释为什么好。通过走访和孩子们影像发声的数据，我们发现孩子们的日常饮食结构中非常缺乏蛋白质、脂肪和一些微量元素，也恰恰是鸡蛋能够补充的营养。比如，当时我们在贵州和青海走访，他们的主要日常饮食就是白菜、土豆、粉条这类食物，条件好些的或刚过完往年，一些地方（比如彝族地区）会腌腊肉，那么接下来可能肉类的摄入会增加，但也只能支撑半年，不过这是四五年前的情况，现在应该会好很多。

这其实是评估结果反馈到了需求层面，也给了项目方继续这个项目更多底气，因为从理论和数据上来讲，项目是真的瞄准了孩子们的需求，是有成效的。

成效是好的，执行做得怎样呢？理论上应该是好的，我们发现确实也是好的。孩子们拍了蒸煮鸡蛋和分发的照片，厨房干净、鸡蛋完好、孩子们也都拿到鸡蛋。我们同时也发了问卷，问孩子们有没有吃鸡蛋，大概有10%的孩子说没有吃鸡蛋，也就是说，90%多一点的孩子吃上了鸡蛋。

问老师和孩子不吃鸡蛋的原因，这些孩子是把鸡蛋带回家，给弟弟妹妹或老人家吃。我们跟项目团队讨论后决定，这事不用管。为什么？首先，不吃鸡蛋的孩子比较少，如果做干预，也许花费很多精力，但是改进空间毕竟不大。而且那些「弟弟妹妹」和「老人」都是联劝所关注的群体，带给他们吃也没什么问题。所以在执行上，没有做过多调整。这是成效评估反馈到执行的点。

另外，评估在走访过程中发现了新的需求。联劝由这些需求，衍生出两个新项目。第一，当时我们走访发现，很多孩子在吃鸡蛋之前不洗手，因为学校通常没有足够的水龙头和肥皂，同时我们发现卫生间条件也不好，而儿童福利是联劝所关注的，所以他们之后就发起了「清洁小手」项目，现在也是联劝一个很重要的项目了；第二，我们在给孩子量身高体重时，发现孩子们大冷天也不穿袜子，后来联劝就做了「保护农村孩子的『小脚丫』」项目。这个也算是成效评估反馈到「需求」的非典型的「点」吧。

案例二：佰特公益儿童财商教育项目

这个评估的起因同样是「了解项目成效」的需求。

这个项目的因果链是这样的：欠发达地区儿童的财经素养比较低，当然这背后佰特关注的是，他们长大后，因为财商素养低而导致的经济困境问题。毕竟现在随着金融市场的发展，各种经济行为（比如消费中的各种复杂优惠、保险、理财产品、股票等）对于财经素养的要求越来越高，农村的孩子因为受家庭、周边金融环境、学校教育的限制，往往无法获得该有的金融知识和意识，当他们长大后，在复杂的金融环境中，就很难做出合理的经济决定，也容易变成金融诈骗的受害者，最终陷入生活困境。

根据这一需求当时佰特针对儿童设计了两种干预，一是基于小鸡农场桌游的体验式课程，二是网课为载体的更为系统的金融教育课。两种干预都在学校和社区进行了投放。我们在与佰特伙伴厘清了项目逻辑后，在验证成效的基础上，进一步确定了评估需求：项目在学校场景和社区场景下，哪个效果更好？桌游和网课哪个效果更好？

在资源允许的条件下，我们根据这个需求，在准实验设计的框架下（如前所述的现实，RCT又做不了），但是可以做准实验，设置了不同干预条件的实验组。

在指标层面，关于财商的研究是有一些，但是儿童财商的研究相对不太充分，没有很好的理论框架或者比较合适的已经得到学界认可的指标/问卷。

于是我们就更得「量体裁衣」。我们把成人的金融素养指标拿来，选取了适用于儿童的部分，并将问题场景「儿童化」。此外，我们针对佰特干预的内容，补充了一些问题，同时对于国际上公认的成人金融素养的必要指标，评估也做了保留。

同样为了达到从评估到项目优化，我们也同样看执行，一是走访观察，二是使用机构日常监测的数据，因地制宜嘛。

首先是结果。评估发现总体上桌游和网课都能提升儿童的财经素养，下面我们来细说。第一，干预了的金融素养点确实有效果，反之效果就不显著。举个例子，对保险的理解，这个不是成人金融素养中的知识点，但是佰特的干预有。小鸡农场游戏的桌游里你可以选择买保险，当玩家抽到「小鸡被偷」或「小鸡生病了」这样的机会卡时，如果之前已经购买了「保险」，就可以获得赔偿。孩子们玩了这个游戏，就对保险的作用有了一定的认识。而成人金融素养指标中，有「钱的时间价值」，也就是通货膨胀，这个点因为不是小鸡农场游戏强调的，孩子的理解就比较弱。针对性的指标设计可以帮助到归因，也是成效评估反馈到设计的点，即有干预的维度确实有效，而没干预的维度确实没效。

第二，财经素养的框架可以涵盖金融知识、金融态度和金融行为三个部分。我们发现网课对于知识和态度的干预效果比桌游好，桌游在行为上的干预效果比网课好。这里的行为还有超出狭义财经素养的社会商部分（比如合作、沟通、包容等）。这也符合项目自身的特点，因为桌游相对网课更注重行为上的体验，网课相对桌游对于财经素养的知识和态度培养会更为系统和深入。在改变路径上，因为这次评估做了一年的追踪，也得以发现儿童财经素养的变化大概遵循这样的规律：先从知识层面做改变，然后是态度的改变，最后是行为的改变，这也符合我们的一般认知。

第三，结合对于项目执行的走访和机构数据，评估发现，桌游这种形式的干预对老师（即干预执行人）的要求非常高。因为桌游相对网课更为灵活，要求老师非常有经验，对财商比较了解，可以及时发现孩子们在桌游过程的「教育点」并且予以适时的「点拨」，但也因其灵活，优秀的老师就有更大的发挥空间，项目成效的上限也比较高；而网课是佰特自己设计主讲并且辅以自主设计的教材，老师的负担较轻，不同项目点之间的成效差别不会很大。由此，评估建议，从成效的角度，网课会比较适合「拓新」，桌游更适合「进阶」。这可以认为是从成效评估反馈到项目设计和执行优化的点。

刚才日慈的伙伴在介绍日慈的评估时也有类似的发现，即在日慈的心灵魔法学院项目中，老师的经验会影响到项目效果。我想这样的结论是不是推广开来，给其他类似模式的项目做参考，也是对行业的一个贡献。

第四，我们发现社区的小鸡游戏效果相对学校会更好，通过社区和学校的对比，两者的主要差别在于师生比。社区里，每次课程一般是7、8个孩子参与，一个或者两个老师。在学校里，每次课程是一个班级参与，三四十个孩子，也是一个或者两个老师。孩子们一般拿到小鸡桌游都特别兴奋，游戏进行时更是热情高涨，老师们面对这样热烈的场面，就无法及时顾及到每一个孩子。这个点，评估也反馈给了佰特伙伴，看看能不能在设计或者执行上做些优化。

第五，因为佰特存留了网课打卡数据（即项目执行监测的数据），评估把这个数据放到了分析模型中，发现如果网课打卡了总课程数量的80%，其成效就和完成全部打卡没有显著差别；如果不到80%，那么成效就会随着打卡数的减少而降低。评估建议，一是有必要继续坚持监测打卡，二是可以将80%作为一个打卡及格线，来要求合作的学校。这也是评估给项目设计和执行的另一个优化建议。

最后，评估的基线调查发现，儿童在金融素养上的城乡差别是显著。这也为佰特关注乡村的儿童素养提供了实证，可以说是成效评估到项目需求的优化。

案例三：乐施会X联劝：纵横计划

「纵横计划」评估的出发点同样是成效，纵横计划的因果链是三个项目中最复杂的。「纵横计划」关注的是长三角的流动儿童教育、安全和融入问题（需求和成效点），但它的干预针对的是长三角地区的流动儿童服务机构，通过给予他们能力建设（比如财务培训、项目管理培训等）和资助，同时这些机构联结到一起，让他们彼此相互学习合作，最终通过这些机构的提升，来达到项目目标的实现。

所以，项目的终极成效是「长三角的流动儿童教育、安全和融入」。那评估在梳理出来上面的项目逻辑之后发现，要评估项终极成效是很困难的。首先，从因果链的角度讲，这个成效在远端，实现的时间点也相应比较远，在纵横计划三年的时间点，是不是实现了，不确定度很大（也就是说如果这个成效目前没有达到，并不能说明纵横机构有问题，这样对于项目优化的贡献其实是有限的）。其次，这个成效点的数据收集涉及到数十家机构的收益群体，数量大而且在不同的城市，成本太高。

因为乐施会和联劝更看重评估对于项目优化的贡献，所以量体裁衣，三方决定以短期（机构能力提升）和中期成效（机构可持续发展）为成效评估点，以更好地反馈项目设计和执行。

目标确定，我们就对项目逻辑进一步做了因果链分析，重点关注短期和中期成效发生的因果机制。在三方对于因果机制的梳理认同的基础上，评估团队再来制定方案。

这里又是一个量体裁衣的过程，因为评估的时间点（项目已经启动）和纵横计划参与机构的体量，评估没办法做准实验设计（更不用说RCT）。此外，学界对于机构能力的提升，尤其是纵横计划关注的机构能力，没有成型的指标体系。于是我们决定做回溯性评估，并主要采用定性方法（访谈）。

在这里，也多说一句，大家不要认为成效评估只能用定量的方式（数字、统计），定性的方法也是有其理论基础和合理性的。对于机构的能力提升，机构的自我判断和归因是重要的依据。为了提高严谨度，我们也补充了资方评价的视角。

评估的结果是起初梳理的因果链至少一半的路径得到了验证，同时我们也发现了一些新的东西，比如纵横计划会让一些参与机构联合承办一些活动。这个在访谈中，被机构提到是个干预点，因为机构可以把被赋能的一些能力「学以致用」，同时还能和其他机构建立紧密的联系，互相学习。这条路径就没有在起初梳理时被提到。

又比如，有机构提到：「联劝和乐施会的伙伴在微信群里，营造的是很轻松和互助的氛围，不是让大家内卷起来，这样的氛围对机构的联结和互相学习会有帮助。」这同样是新的因果路径。最后评估根据数据，总结了新的项目因果链，对照起初的梳理版本，结合项目成效，供联劝和乐施会参考下一期的纵横计划如何优化。

总结

最后小结下，在资源有限、有专家的情况下，专家和项目机构如何互动，帮助机构优化项目呢？

首先，帮助项目方明确需求，厘清项目逻辑是关键步骤，在这一过程中，双方明确项目的成效是什么、哪些执行或者设计点要纳入到评估中。

量体之后才是裁衣做评估设计。同样，评估方和项目方要了解机构的评估资源（比如有哪些已有数据，项目条件时做准实验、RCT、还是其他的设计）。我们要根据需求来制定评估方案，而且一定要纳入项目执行的评估，尤其是项目执行的关键点，才能更好地从成效验证转化到项目优化。

在评估执行中，专家依然得保持和项目方的良好沟通。如果是机构自评估，尤其是机构如果有评估部门（评估专员）和执行部门的划分，同样的，执行伙伴和评估伙伴也得有良好的沟通。这样当评估过程中，项目有新的需求（比如吃几个学期的鸡蛋有效）或者评估执行有变动时（比如控制组流失过多），评估还可以适时调整，保证评估结果对于项目优化的价值。

最后，评估数据分析出来后，在结果上，评估方和项目方（甚至资方）要共同解读。首先，评估方毕竟无法全面了解项目的细节，分析结果的解释项目方一般会有更好的洞察。其次，项目优化，最终还是项目方去做的。只有项目方理解和认同评估结果和建议，评估才能真正落实到项目优化，否则，评估就只能像日慈伙伴之前所说，只是一个报告。

感谢日慈公益基金会提供交流平台，可以和那么多公益伙伴一起探讨评估！

感谢联劝公益基金会、乐施会、佰特教育中心提供评估机会，并且愿意公开案例！

感谢南都基金会对于「项目因果链」研发及其评估应用的支持！

扫描二维码，参与月捐

联系我们

公众号

微博