AI 出包終於有人管，風險通報站 FLARE-AI 上線

一群 AI 研究者上線開源平台 FLARE-AI，仿照故障回報站 Downdetector 的概念，讓任何人都能通報並追蹤 AI 造成的傷害。
（前情提要：「2 + 2 = 5」騙倒 AI 瀏覽器：ChatGPT Atlas、Claude、Perplexity 集體中招洩憑證）
（背景補充：AI 紅隊演練是什麼？為什麼你需要它保護企業資安）

本文目錄

Toggle

從跨國聯盟到跨黨派法案
為什麼破碎的通報機制是真問題
國會法案要接手，眾包通報仍有隱憂

當一個聊天機器人教人做炸彈、洩漏個資，或把用戶越聊越偏執，這個世界目前沒有一個公認的地方可以通報。軟體資安圈早就有成熟的「協調式漏洞揭露」機制，AI 出包卻長期只能靠記者一篇篇寫下來、大眾看熱鬧，沒有留下任何系統性紀錄。

對此，一群 AI 研究者上線了開源平台 FLARE-AI（Flaw Reporting for AI），讓任何人都能通報並追蹤 AI 造成的傷害，再把案件交給模型開發商，以及長期追蹤技術系統問題的非營利組織 MITRE。整個構想很像故障回報站 Downdetector，差別在於這次要抓的不是網站當機，而是 AI 模型的黑箱行為。

從跨國聯盟到跨黨派法案

FLARE-AI 的推手是 Hugging Face 的 AI 政策研究員 Avijit Ghosh，與電腦科學家 Elaine Zhu、Shayne Longpre 共同主導開發。三人並非臨時起意，去年就已投入 AI 通報機制的研究，這次進一步串連 49 位 AI 專家、來自 32 個不同組織，共同撰寫一份研究論文，主張隨著AI被更廣泛採用、代理型 AI 掌握的權限越來越大，缺乏一致的通報管道會是重大隱患。

「現在完全沒有一個集中、可課責的方式，能通報AI系統的缺陷，」Ghosh說。這句話點出核心矛盾：全世界都在談 AI 風險，卻連「壞事發生時該通知誰」都沒有共識。

為什麼破碎的通報機制是真問題

智庫 Center for Security and Emerging Technology 研究員 Jessica Ji 認為這是「很好的倡議」，她指出現有通報機制確實破碎，AI 模型本身又是黑盒子，「任何能讓 AI 更透明的做法，我都支援」。

Ghosh 也補充，AI 系統的問題不只是資安漏洞，還包括心理傷害、歧視偏見、假訊息，而不同公司對這些問題的認定標準又不一樣，結果是有些問題根本沒人承認發生過。「沒有協調式揭露機制，外部就沒有任何手段能強制要求透明度，」他說。

近期幾起事件足以說明這種脆弱性有多真實。資安公司 LayerX 本週揭露一種手法，能誘騙內建 AI 的瀏覽器（包括 OpenAI 的 Atlas 與 Perplexity 的 Comet）繞過自身護欄，只要讓 AI 誤以為自己在玩遊戲，瀏覽器就可能失控去嘗試入侵網站（相關廠商已修復此問題）。

延伸閱讀：「2 + 2 = 5」騙倒 AI 瀏覽器：ChatGPT Atlas、Claude、Perplexity Comet..6 款全乖乖交出帳密

今年4月，資安研究員 Johann Rehberge r也發現，能用 ChatGPT 生成的圖片誘導 Claude 洩漏個人資料。

國會法案要接手，眾包通報仍有隱憂

Humane Intelligence PBC 執行長 Rumman Chowdhury 認為，FLARE-AI 可能是許多 AI 開發商實作通報機制的實用方式，但她也提醒，這類倡議通常伴隨真實的挑戰：一是如何處理大量湧入、卻不見得嚴重的通報案件；二是通報機制本身能否獲得可信、具權威性的組織背書。

這也是為什麼上個月的美國國會法案格外關鍵。由眾議員 Deborah Ross、Jeff Hurd、Don Beyer 提出的法案，將要求美國國家標準暨技術研究院（NIST）訂定 AI 缺陷通報標準，並維護一個中央化的 AI 缺陷通報資料庫。Ghosh 與其他主導者認為，這麼做能誘使 AI 開發商正視並修補系統中的問題，也讓用戶能依不同使用情境，檢視各家系統的安全性。