一、突破與業界定位
2026 年 6 月,智譜(Z.ai)正式發布並開源新一代旗艦模型 GLM-5.2,成為首個在 Terminal-Bench 2.1 評測突破 80% 的開源模型(拿下 81.0 分,較前一代 GLM-5.1 的 63.5 分大幅躍升 17.5 分),並在多項排行榜中衝入第一梯隊。在 Design Arena 程式碼類別中,GLM-5.2 更直接拿下第一名,領先 Claude Fable 5 約 10 個 Elo 分數,象徵閉源旗艦長期主導頂級能力的局面正在鬆動。
更具指標性的是,其程式碼生成能力已能與最新頂級閉源模型並駕齊驅,在 SWE-bench Pro 拿到 62.1 分,超越 GPT-5.5 的 58.6 分;在專為長週期任務設計的 FrontierSWE 評測中拿到 74.4%,與 Claude Opus 4.8(75.1%)幾乎打平。開源陣營首次在 Agent 與 Coding 兩個最關鍵戰場同時站穩腳步。
二、兩大核心賣點
第一是原生且穩定的 100 萬 Token 上下文。市面上不少模型雖宣稱支援大上下文,實際輸入幾十萬字後就會開始「遺忘前段內容」;GLM-5.2 此次特別強調「穩定運行」,能在百萬 Token 規模下維持資訊召回與推理連貫性。
第二是旗艦級長週期任務能力。模型可一次處理整部小說、大型專案的完整程式碼庫,或多個文件資料庫,並能連續運作數小時甚至數天。AI 競爭的核心已不再是「誰更會回答單一問題」,而是「誰更會處理任務」,這也是 GLM-5.2 想搶下的關鍵位置。
三、六項實測表現
針對 Agent 與程式碼生成能力,社群實測中 GLM-5.2 交出以下成績(以下為第三方實測整理,非官方測試):
- Minecraft 風格 3D 遊戲:成功生成互動方塊世界,跳躍、攀爬、切換方塊皆正常。
- 清明上河圖 3D 場景:以 JavaScript 重建汴河兩岸風貌,含紅橋、城門、攤位、柳樹,並支援視角切換、漫遊與晝夜起霧效果;但物理判定有明顯錯誤(船隻駛上岸、人物穿牆懸浮),整體風格較為簡陋。
- 機場飛機模擬器:跑道、機艙視角、油門、起飛、轉向、翻轉全部正常運作。
- 地鐵 FPS 射擊遊戲:2049 年廢棄隧道場景、迷宮地圖、射擊音效俱全,但未成功生成怪物。
- GTA 風格俯視角賽車:含警車與撞車判定,功能正常但操作手感較難掌握。
- 專業射箭俱樂部網站:表現最為亮眼,具質感的排版、高水準文案(如「瞄準靶心,箭無虛發」),甚至自動規劃會員方案(月卡 480 / 季卡 1288 / 年卡 4200)與聯絡表單。
整體可見 GLM-5.2 在結構化任務(網站、模擬器、文案)上已相當成熟,但在嚴格物理模擬與動態世界建構上仍有缺陷。
四、本地部署門檻與務實建議
值得提醒的是消費級硬體幾乎無法運行 GLM-5.2。
部署框架方面,官方推薦 SGLang(推論速度最佳),亦支援 vLLM、llama.cpp、Ollama。但真正的門檻在硬體:
- 滿血版(FP8):檔案近 1TB(約 740GB+),需 8 張 H200,或雲端 8 張 H100 才能順利執行。
- Q4 量化版:縮減至約 470–500GB,仍需約 480GB 顯示記憶體(如 6 張 80GB 顯示卡)。
- 最低量化版:仍需 180–280GB 顯示記憶體,必須仰賴頂規 Mac(M 系列統一記憶體)或多張 RTX 4090 搭配 256GB 記憶體才能勉強運作。
換算下來,滿血版的建置成本動輒百萬台幣級別。除非企業極度重視本地資料安全,否則一般使用者不需強求本地部署。考量開源模型迭代速度極快,直接購買 API 反而是更具性價比的選擇。
開源旗艦能力首次與閉源頂尖並駕齊驅,AI 產業的競爭規則正在被重寫。對企業與開發者而言,問題已從「能不能用」轉變為「該怎麼用」,而這正是 AI 工程化下一階段的真正起點。