第I、II: 算法的阴影 / 相信数据 - 算法公司

第I

算法的阴影

算法公司的晨会总是以同样的方式开始：陈博士展示最新的效率指标，初级分析师们努力装作专注。Mike来这里六个月了，他仍然无法摆脱一种感觉——他们的工作根本上有什么不对。

"今天的亮点，"陈博士宣布，他的声音像他设计的算法一样平滑，"借贷算法处理了47,000份贷款申请，准确率99.7%。人类贷款专员的平均准确率是87%。"

Mike举起手。"陈博士，那0.3%被算法判错的案例会怎样？"

房间安静下来。陈博士的微笑没有动摇。"这些案例由我们的合规团队审查。对于获得的效率来说，这是一个可接受的误差范围。"

会后，Lisa在走廊拦住Mike。"你需要停止问这样的问题。"

"我只是想了解它是怎么工作的。"

"这就是问题所在。"Lisa环顾四周。"理解不是你的工作。信任算法才是。"

那天晚上，Mike睡不着。他一直在想那141个人——被算法拒绝后不得不争取人工审查的0.3%。如果算法错了怎么办？如果它系统性地错了怎么办？

他从家里登录系统，这是他不该做的事。数据是匿名的，但他能看到模式。被拒绝的申请集中在某些邮编区域。某些名字更频繁地出现在拒绝名单中。

第二天早上，他请求与陈博士会面。

"我发现了什么，"Mike说，他的手微微颤抖，把分析放在桌上。"算法似乎存在...偏见。"

陈博士看了看数字，然后看着Mike。"偏见意味着意图。你看到的是统计相关性。"

"但相关性不意味着因果。这些人被拒绝贷款是因为他们住在哪里，而不是因为他们的信用worthiness。"

"他们被拒绝是因为数据预测这些区域风险更高。算法看不到种族或社区——它看到的是数字。"

"但这些数字反映了历史上的歧视。如果我们使用它们，我们就在延续歧视。"

陈博士靠回椅背。"Mike，你知道我们为什么建立这个系统吗？因为人类贷款专员偏见更严重。至少算法是一致的。"

"持续的错误仍然是错误。"

很长时间，陈博士什么都没说。然后："我会审查你的发现。但我建议你专注于分配给你的任务。我们在这里都有自己的角色。"

走回工位时，Mike意识到他面临一个选择。他可以像Lisa说的那样——信任算法，做好工作，领薪水。或者他可以继续挖掘，继续提问，继续推进。

算法永远不会理解为什么那个选择很重要。但Mike理解。

第II

相信数据

两周过去了，Mike没有听到任何关于他报告的消息。他试着专注于日常工作——优化广告投放算法、微调推荐引擎——但他的思绪总是飘回那些贷款申请。

Lisa在休息室找到他，他正盯着咖啡机，仿佛它握着宇宙的答案。

"你还在想那件事，对吧？"

"我怎么能不想？陈博士说他会审查我的发现，但什么都没变。算法还在运行。"

Lisa叹了口气。"Mike，让我告诉你一些关于这家公司的事。我们不修复没有坏的东西。"

"但它是坏的。人们因为居住地被剥夺了机会。"

"在算法之前，人们也被剥夺机会。至少现在是一致的。"

"一致的歧视并不更好。"

Lisa放下杯子。"我在这里五年了。我见过十几个像你这样的人。理想主义。想要改变事物。你知道他们怎么样了吗？"

"他们离开了？"

"有些人离开了。有些人学会了在系统内工作。有些人..."她犹豫了一下。"有些人找到了从内部慢慢、小心地做出改变的方法。"

那天晚上，Mike做出了决定。他不会成为耗尽热情的理想主义者，也不会成为放弃的实用主义者。他会找到方法证明算法是错的——不是用论据，而是用更好的数据。

接下来的一个月，他双倍工作。白天做日常工作，晚上进行调查。他将拒绝的申请与公共记录、信用历史、就业数据交叉比对。他建立了一个新模型，一个考虑了原始算法忽略的历史偏见的模型。

完成后，他有了证据。算法不仅在延续偏见——它在放大偏见。本该被人类贷款专员批准的人正在被系统性地拒绝。

他请求再次与陈博士会面。

"我建立了一个替代模型，"Mike说，展示他的发现。"它保持99.2%的准确率，同时减少40%的偏见。"

陈博士研究数据。他的表情难以捉摸。"这是令人印象深刻的工作，Mike。但你错过了一个基本的东西。"

"什么？"

"算法不是设计成公平的。它是设计成盈利的。"

Mike感觉脚下的地板在移动。"但我们可以两者兼顾。公平和盈利。"

"可以吗？你的模型减少40%的偏见，但也降低0.5%的效率。在我们的世界，那是数百万美元。"

"那也是成千上万的人得到公平对待。"

陈博士合上文件夹。"我会把这个提交给董事会。但我想让你明白一件事。这家公司建立在一个信念上：算法比人类更好。如果我们承认这个有缺陷，我们就破坏了我们代表的一切。"

走出去时，Mike意识到问题不在算法。问题在于构建它的人，信任它的人，拒绝质疑它的人。

算法只是在做它被告知的事。失败的是人类。