9

第九章

当 AI
犯错时

区分新手和高手的
验证习惯。

刚帮你写了一篇完美论文的那个 AI,同样可以用完全一样的自信语气告诉你拿破仑赢得了滑铁卢之战。它不会犹豫。不会结巴。它会用跟其他一切内容同样权威的语气,说出一个完全编造的"事实"。这就是使用 AI 的核心悖论:让它有用的那种流畅度,也让它变得危险。

合理不等于真实

AI 模型不是从数据库里检索事实。它们预测下一个最可能出现的词。当你问一些真实存在的东西时,训练数据会引导它们给出正确的信息。当你问不存在的东西时,模型不会说"我不知道"。它会生成一个正确答案应该长什么样的内容——包括名字、日期和引用。全是编造的。

AI 听起来有多自信和它实际有多准确之间没有任何关联。错误的答案和正确的答案从外表上看完全一样。你不能根据语气、细节程度、或者 AI 列出了多少具体数字来判断准确性。"听起来对"这个测试毫无价值。你唯一的防线是验证。

关键洞察

AI 没有真相的概念。它有的是合理性的概念。它生成符合模式的文本——不管那些文本是否对应现实。

测试你的探测器。你能分辨哪些 AI 的说法是真的、哪些是编造的吗?

Debug Detective

How would you report this bug?

0 pts
Scenario 1 of 5

The Button That Does Nothing

Create Account
Submitno response

You asked the agent to build a sign-up form. The form looks great, but the "Submit" button doesn't do anything when you click it.

Submit button is unresponsive
Choose your approach
Share this course
从 AI 身上获得最大价值的人,是那些学会了什么时候信任它、什么时候验证它的人。

知道 AI 什么时候会错,引出了一个更大的问题:它永远做不到什么?接下来,我们探索那些顽固地、美丽地属于人类的技能——以及为什么它们比以往任何时候都重要。

Eval Framework

New tool unlocked!