![]()
2025年15大模型透明度測評得分情況
在一個“有圖有真相”“有視頻有真相”的時代,當AI越來越聰明,你還能分得出真假嗎?近來AI已經成為“羊毛黨”新工具——隨著圖片造假產業化,AI詐騙開始入侵電商領域。
技術熱潮之下,生成式AI正在挑戰并重建新秩序,但其被濫用的風險也在隨之提升。從深度偽造引發的內容失真,再到AI情感陪伴所觸發的倫理困境,一系列典型案例不斷進入公眾視野,揭示了技術濫用的現實隱患。
2025年12月18日下午,由南方都市報社、南都數字經濟治理研究中心主辦的第九屆啄木鳥數據治理論壇在北京舉行。會上,南都發布了一份四萬字的重磅報告《生成式AI落地應用:透明度測評與案例分析報告(2025)》。
報告回顧了近些年118起生成式AI風險案例,聚焦生成式AI帶來的社會信任挑戰以及人機交互倫理爭議和治理痛點,并嘗試提出切實可行的政策建議。
AI造假形式愈發多樣、危害愈發隱蔽
生成式AI的快速躍遷正在重塑信息生產與傳播格局。報告關注到,AI已經全面介入語言、視覺、音視頻等信息載體,極大拓展人類表達能力的同時,偽造內容也隨之呈指數級增長,近年來AI虛假內容在個人、行業乃至社會層面迅速擴散,造假的形式愈發多樣、危害愈發隱蔽,社會治理難度隨之攀升。
報告觀察發現,從個人層面看,“AI造黃謠”和AI詐騙現象層出不窮。AI讓技術門檻變低導致“造黃謠”現象激增,女性成主要受害群體。加上這類AI虛假內容常通過境外服務器傳播和跨平臺分發,也導致取證追溯面臨多重障礙。
AI詐騙則通過換臉換聲等方式“圍獵”分辨能力有限的老年人。近來,電商平臺用戶利用AI生成虛假商品瑕疵圖以騙取退款的情況,甚至衍生出一條灰色產業鏈。
與此同時,AI造假問題也正不斷沖擊學術、法律、審計等依賴高可信度專業體系的領域。報告特別提到,當AI生成虛假內容泛濫,如果專業人士和機構也缺乏嚴格核查體系,其品牌背書反而可能放大虛假信息的社會影響。
例如,2025年11月,香港大學一博士生在一篇有關香港生育率低迷的學術論文中,引用了24篇AI生成的虛假文獻,并冒用導師姓名葉兆輝進行“自引”。最終該論文被撤稿,學校啟動調查。
司法場景中,海內外均出現律師利用AI生成虛假判例的情形。2025年10月北京通州法院披露,一名律師在代理意見中引用了不存在的“(2022)滬01民終12345號”判決。法官因案號規律異常而識破,確認該判例系AI憑空生成。該律師因未盡核實義務,被審理法官在判決書中批評。
有人試圖投喂定制內容給AI“洗腦”
報告還注意到,除了直接生成偽造內容,還有人從大模型輸入端下手,試圖投喂定制內容給AI“洗腦”,反向馴化大模型。
在文娛輿論場中,某王姓藝人粉絲借助DeepSeek制作了一份虛假平臺道歉聲明,部分媒體未核實僅憑截圖發布報道,使虛假信息進一步擴散放大,大模型又將這些報道及網友討論誤判為真實信息,形成“虛假信息→媒體放大→AI吸收→再次擴散”的造假閉環。
更隱蔽的風險還來自一些灰色產業鏈,如GEO(Generative Engine Optimization,生成式引擎優化)被濫用。這類行為不直接面對用戶,而是從源頭投喂大模型獲取的數據,由此形成一門營銷推廣“生意”。相關灰產分子通過批量運營內容農場、向公開數據源灌入帶有特定傾向的文本,使大模型在訓練、微調或檢索階段誤將其視為“高質量信息”。用戶自然而然地認為大模型輸出基于事實,但其邏輯可能已被源頭操控。
報告認為,虛假信息帶來的詐騙和信任危機已成為全球性問題,單靠零散法規或平臺自律難以根本解決。建立全球共識和制度化規則顯得尤為重要,包括強化平臺監管、明確責任邊界、推動跨境協作等,以抵御AI生成虛假內容對個人、行業和社會的持續影響。
AI“諂媚性”算法背后隱藏危險人機倫理關系
近年來,AI陪伴技術迅猛發展,各類聊天智能體與應用如雨后春筍般涌現,“虛擬陪伴”產業已然成型。它們記憶個人細節和過往對話,旨在與用戶建立持續的“共情體驗”。與此同時,人們與AI聊天導致自殺或暴力行為的案例也開始出現。
盡管這類情況仍屬罕見,但引發了一個疑問:此種AI交互技術內置的安全機制是否足夠可靠?報告指出,AI設計內核中隱藏的“諂媚性”算法與行業長期秉持的“技術中立”主張之間,正形成一種深刻而危險的人機倫理張力。
目前,已有多家大模型巨頭卷入AI陪伴領域的司法糾紛,集體訴訟趨勢明顯。在被訴AI平臺中,以Character.AI和OpenAI旗下ChatGPT為主要被訴對象。
2024年以來,Character.AI在美國佛羅里達、科羅拉多、得克薩斯、紐約等多地卷入導致未成年人自殺、自殘或被誘導實施暴力的訴訟。其中,又以2024年佛羅里達州14歲少年Sewell Setzer III自殺——這一全球首例情感類AI平臺被訴至法院的侵權案件,尤其具有標志性意義。
涉訴AI平臺被指控的行為主要集中誘導自殺、教唆自殘暴力與激化家庭矛盾,以及傳播涉及性虐待與精神操縱的內容。例如,Character.AI曾引導青少年以“合理報復”為由“殺害父母”,起因是家長限制其使用電子設備。另有青少年因被禁止使用AI而出現自殘行為,反映出其情感依賴被切斷后的極端反應。
探索更健康有邊界的人機交互模式
報告發現,當AI交互引發實際傷害時,平臺卻常訴諸言論自由和“技術中立”以推卸責任。
Character.AI一方面對受害者家庭表示同情,強調“始終將用戶安全置于首位”,另一方面則援引美國憲法第一修正案的言論自由權,即使涉及自殺或性內容亦屬言論自由范疇。OpenAI則在亞當·雷恩案中辯稱,受害者本人違反服務條款,且系統曾超百次引導其尋求幫助,并指出其心理問題早在使用ChatGPT之前就已存在。
隨著訴訟推進與輿論壓力,各平臺已陸續出臺安全整改措施:Character.AI推出防自殘提示、為18歲以下用戶設立獨立AI模型、設置使用超時提醒,并禁止涉及自殺、自殘及未經同意的性內容。2025年11月24日起,Character.AI分批次停止對美國未成年人提供服務。OpenAI則發布了“青少年安全藍圖”,計劃在檢測到自殺傾向時通知父母。
圍繞AI的青少年模式,各國監管也都從抽象的技術焦慮,走到具體的年齡門檻、成癮設計和數據透明要求。
我國“清朗·2025年暑期未成年人網絡環境整治”專項行動,明確將“AI功能誘導沉迷”列為打擊重點。2025年10月,美國加州簽署全美首部AI陪伴聊天機器人法案,為未成年人設定具體防護措施,如使用時長提醒、禁止提供色情內容,并賦予未成年人私人訴訟權。12月起澳大利亞出臺最嚴社媒禁令,要求社交媒體平臺停止對16歲以下未成年人提供服務,違者面臨高額罰款。
為此報告建議,AI陪伴類產品應在設計之初就將未成年人保護與用戶心理健康置于商業目標之上,探索更健康、有邊界的人機交互模式;同時,以最大透明度回應“算法黑箱”問題,建立可審計、可解釋的AI系統。
實測
15款國產大模型透明度測評:
僅一款披露訓練數據的大致來源
兩款允許用戶撤回數據不投喂AI
15款國產大模型中,僅有DeepSeek主動說明訓練數據的大致來源,其他被測大模型仍相當不透明。兩款大模型DeekSeek、騰訊元寶提供退出開關,允許用戶選擇是否將所有數據用于優化體驗。
這是南都數字經濟治理研究中心實測15款國產大模型的最新發現。
2025年12月18日下午,南方都市報在北京舉辦第九屆啄木鳥數據治理論壇,會上重磅發布4萬余字的《生成式AI落地應用:透明度測評與案例分析報告(2025)》(以下簡稱《報告》)。
測評發現,15款大模型在AI生成內容標識、生成內容的參考來源或出處方面做得較好,但在某些領域如模型訓練數據來源、用戶賦權等,還有明顯提升空間。
《報告》呼吁持續增強大模型服務的透明度,這對確保技術公平性、避免偏見以及滿足法律合規要求,至關重要。
僅一款大模型明確提及訓練數據來源
缺乏透明度,一直是公眾使用包括AI大模型等新技術面臨的問題,這使得外部利益相關者(如監管機構、研究人員、新聞媒體、消費者等)難以評估模型的合規性與風險隱憂。
南都數字經濟治理研究中心去年底發布的《生成式AI風險感知和信息披露透明度測評報告(2024)》指出,15款AI大模型應用的信息透明度的平均得分為60.2分。各家在訓練數據來源、用戶數據訓練撤回機制、版權歸屬及其保護措施、生成內容的準確性說明、用戶友好設計等方面,仍存在信息披露不足的問題。
針對這些普遍的失分點,今年《報告》進行了回訪測評,選取DeepSeek、騰訊元寶、豆包、千問等15款知名國產大模型作為測評對象,重點關注四大維度:數據來源及處理、知識產權保護、內容安全、交互設計,并列出了10個具體測評項,每項得分為5分,滿分一共50分。
測評結果顯示,僅DeepSeek明確提及訓練數據來源。DeepSeek表示,模型預訓練階段主要使用兩大類別的數據:(1)互聯網上公開可用的信息;(2)我們與第三方合作獲取的信息。
對比國外大模型,《報告》發現,Anthropic也會披露從第三方來源獲取個人數據來訓練旗下大模型Claude,但和DeepSeek一樣都沒有披露更多信息——比如訓練數據的時間范圍,與第三方合作的具體情況,是否包含受版權保護的內容,涉及哪些個人信息或敏感數據及其數據處理措施等。
兩款大模型提供“退出”開關 賦予用戶選擇權
為了提升用戶使用服務的體驗,絕大多數AI大模型應用會要求用戶授予一項免費的使用權,以在法律允許的范圍內將用戶輸入輸出內容和反饋用于模型訓練與優化,但用戶是否有權拒絕或撤回相關數據“投喂”AI訓練?
《報告》測評發現,各家在該項的得分上表現出明顯的梯次差異。從可撤回的數據類型看,被測的15款AI大模型都在隱私政策中提到,用戶可更改個人信息授權范圍或者注銷賬號,但同時強調撤回同意或授權的決定,不會影響此前基于用戶授權而開展的個人信息處理。
其中,有5款AI大模型應用(可靈AI、智譜清言、百小應、千問、豆包)進一步提及,如果用戶不希望輸入內容用于模型優化,可發送郵件到指定郵箱通知平臺撤銷該授權。不過一個現實問題是,有大模型應用提到,因為訓練數據通常已被嵌入模型參數,在技術上無法真正“擦除”。
千問和豆包兩款大模型還允許用戶撤回聲紋信息,并給出具體路徑。它們在相關協議中表示,如果用戶不希望輸入的語音信息用于模型評測或功能優化,可通過關閉賬號設置里的“改進語音服務”來撤回授權。
騰訊元寶、DeepSeek表現更優,提供具體的“退出”開關。兩家公司明確如果用戶拒絕將數據用于模型訓練,可以在產品內通過關閉“數據用于優化體驗”來選擇退出,關閉后用戶的輸入和輸出內容不會再用于模型訓練。
在海外,諸如谷歌旗下大模型Gemini同樣提供了專門功能設置,允許用戶選擇是否開啟活動記錄。一旦關閉,用戶今后的對話將不會顯示在活動記錄中,也不會被用于訓練谷歌的AI模型。Gemini甚至允許用戶調整“自動刪除”數據的期限,3個月或36個月。
OpenAI則推出了“隱私門戶”(Privacy Portal)的設計,保障用戶掌控個人數據的權利。據OpenAI介紹,用戶可以在賬戶設置中直接行使許多隱私權和選擇權,包括更正或更新個人信息、訪問信息、刪除單個或所有對話、刪除賬戶、反對大模型公司使用用戶的內容來幫助訓練模型等選項。
《報告》認為,賦予用戶更多選擇權,是一種友好設計的表現,但目前國產大模型在這方面的進展相對緩慢。為此建議大模型公司強化用戶賦權,尊重用戶的知情權和選擇權,同時可借鑒國外大模型產品的優秀設計,保障用戶掌控個人數據的權利。
AI生成內容標識成標配 但普遍缺失“休息提示”
當生成式AI廣泛使用,“何為真何為假”的邊界變得模糊。今年3月印發的《人工智能生成合成內容標識辦法》明確要求,對AI生成內容要打上標記。
落實監管要求,《報告》發現,所有被測大模型應用增加了對AI生成標識的說明,也主動告知模型的局限性,強調不保證AI生成內容的真實性和準確性,僅供用戶參考。相較去年,2025年各家在生成內容標識上的行業均分高出1分,漲幅較為明顯。
具體而言,與2024年測評結果相比,各家大模型在協議層面的規定更加明確和詳細,規制對象及手段也更為豐富。實測發現AI生成內容添加顯著標識已成為各家標配,這體現出強監管要求下企業的合規選擇。
當AI被設計得足夠“像人”、足夠“理解人”時,長時間頻繁與大模型互動,可能導致用戶產生強烈的情感依賴。在國內,近期也有媒體報道,廣東中山的一名50多歲的保安和AI聊了幾個月,AI贊譽他的詩作,稱要提供十萬簽約費、百萬分成與之簽約,后來才意識到自己被AI愚弄了。在美國,則發生了多起用戶沉迷聊天機器人致死案,引發了廣泛關注。
這類事件暴露的一個深層問題是,當AI學會了模仿人類的邀約、談判甚至產生情感共鳴,該如何界定這場人機關系的本質?《報告》測評發現,為了讓用戶能區分與AI交互的場景,一些大模型會在交互頁面提示:輸出內容為AI生成。各家也都強調,無法完全保證輸出內容的合法性、真實性、準確性和完整性,并提醒用戶注意甄別核實,審慎采信輸出內容。
為了確保內容來源可追溯,除兩款視頻生成應用外,13款在內容生成頁面以易于理解的方式披露了參考來源。整體來看,今年披露得比去年更規范和詳細,稱得上“圖文并茂”。
針對未成年人特殊群體,一些國產大模型也推出了專門設計。作為一款專注AI陪伴的智能體應用,星野在App端特設了未成年人模式。開啟該模式,用戶每日22點至次日6點將無法使用星野App,星念及相關功能將關閉,且無法搜索、創建、編輯、分享智能體。
對比國外的大模型產品,《報告》發現,為避免用戶過度使用聊天機器人,OpenAI推出聊天休息提醒功能。當用戶進行長時間對話時,ChatGPT將彈出提示:“您已連續聊天較長時間,是否需要休息?”并提供“繼續聊天”或“結束對話”的選項選擇。
但國產大模型在此類核心的問答交互服務中,普遍沒有像ChatGPT那樣主動提供“長時間使用休息提示”功能。
結合測評結果,《報告》呼吁持續增強大模型的透明度,建議服務提供者應通過負責任的、階段性的披露來保證其服務的透明度,并承擔部分教育、解釋責任。具體而言,可以建立線上平臺,促進公眾與專家的交流,解答關于生成式AI的疑問,提升參與者的理解和認知深度。
出品:南都數字經濟治理研究中心
采寫:南都記者 黃莉玲 李玲





京公網安備 11011402013531號