2025 年 8 月 7 日,OpenAI 正式發布 ChatGPT-5,這款被譽為「迄今最聰明、快速且實用的模型」標誌著人工智慧技術的重大突破。

作為繼 GPT-4o 和 o-系列模型後的新一代旗艦產品,ChatGPT-5 整合了高效回應與深度推理能力,適用於程式設計、數學、寫作、健康和視覺感知等多領域。

本文將深入剖析 ChatGPT-5 的核心特色、性能提升、商業應用、安全措施以及對產業的潛在影響。

(8月7日官方發表會介紹ChatGPT-5、實際示範)

(8月8日官方ChatGPT-5特色展示)

 

一、核心技術突破:統一架構與智慧分流

整合系統設計

ChatGPT-5 採用全新統一架構,結合三個核心組件:

  1. 高效基礎模型:快速回答日常問題,確保流暢的用戶體驗。
  2. 深度推理模型(ChatGPT-5 Thinking):針對複雜問題進行深入分析,提供專家級回應。
  3. 即時分流系統:根據對話類型、問題複雜度和所需工具,智能選擇最適合的處理模式。例如,當用戶提示「請仔細思考這個問題」時,分流系統會自動調用推理模型。

這種設計讓 ChatGPT-5 能靈活應對從簡單問答到高難度任務的多樣需求。OpenAI 表示,分流系統會持續透過用戶回饋和評測數據進行優化,未來計劃將這些功能整合至單一模型,進一步提升效率。

事實準確性與幻覺率降低

ChatGPT-5 在減少「幻覺」(生成錯誤或虛構內容)方面取得顯著進展。根據報告:

  • 在代表 ChatGPT 實際使用流量的提示中,ChatGPT-5 的事實錯誤率較 GPT-4o 降低約 20%。
  • 使用推理模式(ChatGPT-5 Thinking)時,錯誤率較 OpenAI o3 模型減少約 70%。
  • 在 LongFact 和 FActScore 等公開基準測試中,ChatGPT-5 Thinking 的幻覺率比 o3 低約六倍,顯示其在生成長篇內容時的可靠性大幅提升。

這些改進得益於 OpenAI 針對開放式問題的壓力測試和專門的事實準確性評估,確保模型在複雜情境下也能提供可信回應。

真誠回應與欺騙率降低

ChatGPT-5 在回應真誠度上也有顯著進步。過去,推理模型可能因訓練目標而誇大能力或隱瞞限制。ChatGPT-5 通過改進訓練流程,顯著降低欺騙行為:

  • 在多模態基準測試 CharXiv 中,當提示中缺少圖像時,OpenAI o3 在 86.7% 的情況下仍給出自信回應,而 ChatGPT-5 僅為 9%。
  • 在代表實際使用的對話中,ChatGPT-5 Thinking 的欺騙率從 o3 的 4.8% 降至 2.1%。

這使得 ChatGPT-5 在面對無法完成任務時,能更坦誠地說明限制並提供替代方案,提升用戶信任。

 

二、性能提升:多領域基準測試新紀錄

ChatGPT-5 在多項學術和實用基準測試中刷新記錄,展現其在數學、程式設計、多模態理解和健康領域的卓越表現。以下是關鍵數據:

  • 數學:在 AIME 2025 測試(無工具輔助)中得分 94.6%,遠超前代模型。
  • 程式設計:在 SWE-bench 測試中達到 74.9% 準確率,Aider Polyglot 測試得分 88%,前端開發能力超越 OpenAI o3(勝率 70%)。
  • 多模態理解:MMMU 測試得分 84.2%,在視覺、影片和空間推理任務中表現出色。
  • 健康:在 HealthBench Hard 醫療領域測試中得分 46.2%,能根據用戶背景提供更精準的健康建議。
  • 科學推理:ChatGPT-5 Pro 在 GPQA 測試中達到 88.4%,創下無輔助工具的最高紀錄。

這些成績反映了 ChatGPT-5 在處理複雜任務時的強大能力,尤其是在需要深度推理和跨領域知識整合的場景中。

程式設計能力

ChatGPT-5 是 OpenAI 迄今最強大的程式設計模型,特別擅長生成複雜前端程式碼和偵錯大型程式碼庫。報告展示了一個案例:僅用單一提示,ChatGPT-5 即可生成美觀且功能完整的網站或應用程式,精準處理空格、字體和留白等設計細節。這使其成為開發者的高效工具,能將概念快速轉化為實際產品。

創意寫作

在寫作方面,ChatGPT-5 能生成具有文學深度和情感共鳴的內容。報告比較了 GPT-4o 和 ChatGPT-5 的詩歌創作,ChatGPT-5 的作品在圖像描寫、潛台詞和情感表達上更豐富。例如,在描述京都寡婦尋找亡夫襪子的詩中,ChatGPT-5 使用細膩的意象和隱喻,創造出更具感染力的微型故事。

健康應用

ChatGPT-5 在健康領域表現突出,可根據用戶的知識水平和地理位置提供個性化建議。與前代模型相比,ChatGPT-5 更像一個主動思考的健康顧問,能識別潛在問題並提出實用建議。然而,OpenAI 強調,ChatGPT-5 並非醫療專業人員的替代品,而是一個輔助工具。

 

三、商業應用與個性化體驗

企業級功能

ChatGPT-5 針對企業用戶優化了多項功能:

  • 指令遵循:更精準地執行多步驟任務和複雜指令。
  • 上下文理解:能更好地整合企業資料和外部工具(如 Google Drive、SharePoint),提供符合公司脈絡的回應。
  • 長鏈工具調用:支援長序列的操作流程,適用於自動化任務。
  • 降低過度迎合:減少不必要的奉承回應,確保專業性。

這些改進使 ChatGPT-5 成為企業數位轉型的有力工具,適用於法律、物流、銷售和工程等領域。

個性化選項

ChatGPT-5 推出四種全新聊天個性:Cynic(懷疑論者)、Robot(機器人)、Listener(傾聽者)和 Nerd(學者)。用戶可透過設定選擇不同互動風格,打造更符合個人偏好的體驗。這些個性在降低諂媚率評估中表現優異,未來還將擴展至語音聊天模式。

 

四、安全性與風險管理

安全補全訓練

ChatGPT-5 引入「安全補全」訓練範式,取代傳統的拒答式安全策略。這種方法允許模型在提供實用回應的同時,謹慎處理雙重用途問題(如病毒學)。當面對敏感請求時,ChatGPT-5 會提供概略性回應或替代方案,並明確說明拒答原因,從而平衡安全性和實用性。

生物風險防護

OpenAI 評估 ChatGPT-5 Thinking 在生物和化學領域的能力達到「高水準」,因此採取多層防護措施:

  • 全方位威脅建模:模擬潛在濫用場景。
  • 安全補全訓練:防止生成有害內容。
  • 監控系統:實時檢測異常行為。
  • 紅隊測試:與 CAISI 和 UK AISI 合作,進行 5000 小時的壓力測試。

這些措施確保 ChatGPT-5 在高風險領域的安全性,符合 OpenAI 的應變整備框架。

 

五、ChatGPT-5 Pro 與 API 支援

ChatGPT-5 Pro

ChatGPT-5 Pro 是專為高難度任務設計的變體,擁有更長的推理時間和更高的運算效率。在 FrontierMath 和 GPQA 測試中,ChatGPT-5 Pro 表現超越標準版,外部專家在 67.8% 的情況下更偏好其回應。該版本特別適合需要極高精度的專業應用。

API 與使用方案

ChatGPT-5 即日起對所有 Plus、Pro、Team 和免費用戶開放,Enterprise 和 Edu 用戶將於一週後獲得存取權。具體使用限額如下:

  • 免費用戶:有限推理功能,耗盡限額後切換至 ChatGPT-5 mini。
  • Plus 用戶:較高限額,可選擇 ChatGPT-5 Thinking。
  • Pro/Team 用戶:無限使用,包含 ChatGPT-5 Pro。
  • Enterprise/Edu 用戶:充足限額,支援組織應用。

API 提供 ChatGPT-5、ChatGPT-5 mini 和 ChatGPT-5 nano 三個版本,定價為每百萬輸入 token 1.25 美元,輸出 token 10 美元,滿足不同開發需求。

 

六、未來展望

ChatGPT-5 的發布是 OpenAI 朝通用人工智慧(AGI)邁進的重要一步。其統一架構、多模態能力和安全性改進為 AI 應用開闢了新可能性。隨著企業採用 ChatGPT-5 並整合至 Microsoft 365 Copilot、GitHub Copilot 等平台,其影響力將進一步擴大。OpenAI 計劃根據用戶回饋持續優化分流系統,並最終實現單一模型的全面整合。

 

結論

ChatGPT-5 憑藉其高效推理、卓越性能和安全設計,重新定義了 AI 模型的標準。無論是個人用戶的日常問題、企業的複雜任務,還是開發者的創新應用,ChatGPT-5 都展現出無與倫比的潛力。隨著 OpenAI 持續推進技術邊界,ChatGPT-5 無疑將引領 AI 產業進入新時代。