波蘭腸鏡研究顯示,醫師在引入 AI 輔助後、停用 AI 的場次,腺瘤偵測率從 28.4% 跌至 22.4%;Anthropic 針對 52 名初級工程師的隨機對照試驗顯示,AI 組事後測驗平均 50 分,手動組 67 分,差距相當於兩個字母等級。
(前情提要:Anthropic 研究:領域專業比寫程式能力,更能決定 Claude Code 生成效果)
(背景補充:Claude有80%程式碼是自己寫的,Anthropic呼籲「全球設計煞車機制」玩真的?)
本文目錄
- 醫師停用 AI 後,偵測率掉了 6 個百分點
- Anthropic 自己做的試驗,結果也不好看
- 技能退化不是科幻警告,而是現在進行式
醫師用了 AI 後,在沒有 AI 協助的時候看漏更多腫瘤。工程師用了 AI,事後考試少了 17 分。這兩組數字,來自兩份 2026 年發表的同儕審查研究,被 Nature 在 6 月 21 日彙整報導。
結論顯示,AI 工具在提高短期效率的同時,正在系統性地侵蝕人類執行者的核心能力。奧斯陸大學醫師研究員 Yuichi Mori 直接說:「目前沒有任何已確立的解方可對抗技能退化,這應該是未來十年最熱的研究課題。」
醫師停用 AI 後,偵測率掉了 6 個百分點
波蘭 ACCEPT 試驗選擇了一個相當嚴格的研究物件:所有參與醫師均已完成至少 2,000 次大腸鏡檢查,屬於有完整臨床經驗的專科醫師,而非實習生。研究設計讓醫師在某些診療日可使用 AI 輔助工具,系統即時分析腸道影像、自動標記疑似腺瘤,另一些日子則完全不能使用。結果刊登於《刺胳針腸胃肝膽科學》。
引入 AI 之前,這批醫師的腺瘤偵測率是 28.4%。引入 AI 之後,他們在沒有 AI 協助的場次,偵測率掉到了 22.4%,足足少了 6 個百分點。
研究指出,持續使用 AI 工具可使臨床醫師「在沒有 AI 輔助時進行認知決策時,變得更不積極、更不專注、對結果也更不負責任」。加州大學舊金山分校醫師 Robert Wachter 的評語更直接:即使是高技能的專業人士,也可能隨著對 AI 工具的依賴,在本業上逐漸退步。
這個機制並不難理解。當 AI 長期承攬「找異常」這件事,醫師的注意力分配模式就會被重新訓練;一旦鷹架撤走,習慣了「等 AI 告訴我」的大腦,就很難自動切回高度警覺狀態。
Anthropic 自己做的試驗,結果也不好看
Anthropic 研究員 Judy Hanwen Shen 和 Alex Tamkin 在 2026 年 1 月 29 日發布的隨機對照試驗。研究對象是 52 名初級軟體工程師,全部被要求學習同一個新的 Python 套件 Trio。所有人都可以上網搜尋、查閱官方說明檔案;其中一半人額外配備了 AI 助理。
AI 組平均得分 50%,手動編碼組 67%,差距 17 個百分點,大約相當於學業評等上的兩個字母等級。時間效益呢?AI 組完成任務平均只快了約 2 分鐘,未達統計顯著。也就是說,工程師換來的是:犧牲 17 分的理解深度,換取 2 分鐘的表面速度。
退化最嚴重的是除錯能力。Shen 和 Tamkin 特別點出這一點的危險性,捕捉 AI 生成的錯誤,至今仍是最關鍵的人類監督職能之一。如果工程師的除錯眼力因長期外包給 AI 而萎縮,那麼 AI 的錯誤就更難被察覺,形成一個閉環惡化迴路。
試驗同時揭示了一個細節:使用 AI 做「概念探索」的工程師,最終得分達 65% 以上;把「程式碼生成」完全委外給 AI 的工程師,得分則低於 40%。AI 是探索工具還是生產替代品,結果差了 25 個百分點。
技能退化不是科幻警告,而是現在進行式
這兩份研究問的不是「AI 有沒有用」,而是「長期用 AI 的人,在沒有 AI 的時候還剩下多少能力」。這個問題的答案,開始出現在可量化的資料裡。
目前學界對「AI 輔助最佳頻率」幾乎沒有共識,對「如何在 AI 環境中維持核心技能」也沒有已驗證的幹預手段。Mori 說這會是未來十年最熱的研究課題,現在看來並不誇張,因為技能退化的速度,很可能比研究跟上的速度更快。
📍相關報導📍
Anthropic 研究:領域專業比寫程式能力,更能決定 Claude Code 生成效果
Claude有80%程式碼是自己寫的,Anthropic呼籲「全球設計煞車機制」玩真的?
Anthropic 工程師萬字解析:我們如何用「Skills」把 Claude Code 逼出極限?9 大應用情境送給你








