自動 AI 新聞摘要:OpenAI 推論晶片、Gemini 電腦操作與 Agent 工具更新
6 月 25 日 AI 新聞摘要:OpenAI 與 Broadcom 推出 LLM 推論晶片,Google 將 computer use 帶進 Gemini 3.5 Flash,Qualcomm 收購 Modular,GitHub 調整 Copilot 模型選擇,開源社群也出現 Krea 2、OpenMontage 與 codebase-memory-mcp 等工具更新。
前言
今天這篇由 Horizon 抓取最近 48 小時的 AI、LLM、agent、開發工具與開源社群資料,再由 Codex 依照 SHUO Blog 新聞格式整理。Horizon 本次抓到的主要來源包含 OpenAI News、GitHub Changelog、Hugging Face Blog、Latent Space、Simon Willison、Hacker News、Reddit LocalLLaMA、GitHub Releases 與 OSSInsight。
這篇不是單一新聞,而是 6 月 25 日早上的 AI 摘要。每則都附上原始來源,方便回頭看全文。
1. OpenAI 與 Broadcom 推出 LLM 優化推論晶片 Jalapeño
OpenAI 發布消息,宣布與 Broadcom 推出 LLM-optimized inference chip,代號 Jalapeño。官方摘要把重點放在 performance、efficiency 和 scale,目標是讓 LLM 推論在效能與每瓦性能上更適合大規模部署。
這件事的重點不是「OpenAI 也做晶片」這麼簡單,而是 AI 公司正在把模型、推論服務、硬體供應鏈拉得更緊。訓練端已經長期被 GPU 供給限制,推論端接下來也會變成成本與擴張速度的關鍵。如果 OpenAI 能掌握更貼近自家工作負載的推論晶片,會影響模型服務的成本結構。
English brief: OpenAI and Broadcom introduced Jalapeño, an LLM-optimized inference chip designed to improve performance, efficiency, and scale for AI systems.
資料來源:OpenAI: OpenAI and Broadcom unveil LLM-optimized inference chip
2. Google 將 computer use 帶進 Gemini 3.5 Flash
Hacker News 今天熱度很高的一則是 Google 發布 Computer use in Gemini 3.5 Flash。這類能力的方向很明確:讓模型不只回答文字,而是能理解螢幕、操作介面、執行多步驟工作。
這和 browser agent、desktop agent 的趨勢是同一條線。模型如果要真正完成工作,就必須能處理 UI 狀態、點擊、表單、錯誤訊息與多輪修正。Gemini 3.5 Flash 走 computer use,代表 Google 也在把輕量或低延遲模型推進代理操作場景,而不只是把最強模型拿來跑 demo。
English brief: Google introduced computer use capabilities for Gemini 3.5 Flash, pointing toward models that can interact with interfaces and perform multi-step tasks.
資料來源:Google Blog: Introducing computer use in Gemini 3.5 Flash;Hacker News discussion
3. Qualcomm 宣布收購 Modular,AI 編譯器與硬體平台開始靠攏
Qualcomm 宣布收購 AI startup Modular。Modular 過去最受開發者注意的是 Mojo、MAX,以及面向 AI workload 的編譯器與 runtime 技術。這次被 Qualcomm 收購,代表 AI 軟體堆疊和晶片平台的整合會更直接。
這件事值得跟 OpenAI / Broadcom 晶片消息一起看。AI 競爭不只在模型本身,也在「模型如何跑得快、跑得便宜、跑在什麼硬體上」。Modular 的價值就在於把高階模型工作負載和底層硬體之間的距離縮短。Qualcomm 如果想在端側 AI、PC AI、資料中心推論裡提高掌控力,這類軟體層會很關鍵。
English brief: Qualcomm is acquiring Modular, bringing AI compiler, runtime, and hardware-adjacent tooling closer to Qualcomm's AI platform strategy.
資料來源:Qualcomm press release: Qualcomm to Acquire Modular;Modular: Qualcomm to acquire Modular
4. GitHub Copilot Free / Student 改用自動模型選擇
GitHub Changelog 宣布 Copilot Free 和 Student plans 將使用 Copilot auto model selection 作為預設且唯一的模型選擇體驗。Auto 會根據任務動態選擇模型,使用者不再手動挑模型。
這個改動看起來像產品簡化,但背後是模型路由策略。對免費和學生方案來說,讓系統自動決定模型,可以控制成本,也可以讓新使用者不用理解每個模型差異。對 power user 來說,手動選模型會少一點控制感,但對大多數一般使用者,auto routing 可能會變成 AI 工具的預設設計。
English brief: GitHub Copilot Free and Student plans are moving to auto model selection as the default and only model selection experience.
資料來源:GitHub Changelog: Changes to model selection for Free and Student plans
5. GitHub Enterprise 新增 incident response 憑證撤銷能力
GitHub Enterprise owners 現在可以使用新的 self-service credential revocation 功能,在帳號被入侵或憑證外洩時,快速撤銷指定使用者的 credentials。這包含一種比較接近 break-glass 的處置能力,目標是縮短資安事件的反應時間。
這不是純 AI 新聞,但跟 AI coding / agent workflow 有直接關係。當 AI agent 開始拿到 repo、package registry、CI/CD、cloud token 權限時,憑證外洩與權限回收會變得更重要。開發平台如果沒有快速 revoke 機制,agent 帶來的效率會同時放大資安半徑。
English brief: GitHub Enterprise owners can now revoke credentials for incident response, improving response time for compromised accounts or leaked credentials.
資料來源:GitHub Changelog: Self-service credential revocation for incident response
6. Hugging Face 與 NVIDIA NeMo AutoModel 加速 Transformers fine-tuning
Hugging Face Blog 發布 NVIDIA NeMo AutoModel 相關文章,主題是加速 Transformers fine-tuning。這類更新主要面向想要在既有 Transformers 生態裡做微調、但又希望利用 NVIDIA 訓練最佳化工具的使用者。
現在很多團隊不一定需要從零訓練模型,但會需要針對特定任務、領域資料或企業內部格式微調模型。fine-tuning 的成本、速度和工程門檻如果降低,會讓更多中小團隊能做自己的模型適配,而不是只能用通用模型加 prompt 撐住。
English brief: Hugging Face published guidance on accelerating Transformers fine-tuning with NVIDIA NeMo AutoModel, targeting teams that need more efficient model adaptation.
資料來源:Hugging Face Blog: Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel
7. Krea 2 開源 12B image model 權重與訓練報告
Hacker News 熱門討論裡出現 Krea 2。Krea 發布了 SOTA open-weights 12B image model,並提供技術報告,內容包含訓練與資料基礎設施。這類開源權重對影像模型生態很重要,因為高品質 image model 長期被少數封閉產品主導。
如果 Krea 2 的開源權重和訓練細節足夠完整,會讓更多工具可以在本機、私有部署或客製工作流裡使用高品質圖像生成能力。對設計工具、影片工具、agentic creative workflow 都有影響。
English brief: Krea released Krea 2, an open-weights 12B image model, along with a technical report covering training and data infrastructure.
資料來源:Krea 2 technical report;Hacker News discussion
8. LocalLLaMA 關注 Qwen-AgentWorld 與本地 agent 環境模擬
LocalLLaMA 今天有一則 Qwen-AgentWorld-35B-A3B 的討論。這個模型被描述成 35B MoE、每 token 約 3B active parameters,重點不是一般聊天,而是模擬 MCP、terminal、SWE、Android、web、OS 等 agent interaction environment。
這個方向很值得注意。Agent 訓練不只需要「知道答案」,也需要理解採取動作後環境會怎麼回應。如果模型可以學會預測 terminal、browser、OS 或 MCP tool 的回傳,未來可能讓 agent 在真實執行前先做更好的 planning、simulation 或自我修正。
English brief: Qwen-AgentWorld-35B-A3B drew attention as a language world model trained to simulate agent environments such as MCP, terminal, SWE, Android, web, and OS interactions.
資料來源:Reddit: Qwen-AgentWorld-35B-A3B discussion
9. OSSInsight:OpenMontage 與 codebase-memory-mcp 進入開源趨勢
OSSInsight 今天抓到兩個跟 agent workflow 相關的開源專案。
第一個是 OpenMontage,描述為 open-source agentic video production system,包含 12 pipelines、52 tools、500+ agent skills,目標是把 AI coding assistant 變成影片製作工作室。第二個是 codebase-memory-mcp,主打高效 code intelligence MCP server,把 codebase index 成持久化 knowledge graph,並宣稱能大幅減少 token 使用。
這兩個專案代表 agent 工具正在分化成垂直能力:一個往影片製作流程走,一個往 codebase memory / MCP infrastructure 走。接下來開源 agent 生態不會只有「通用聊天 agent」,而是會出現越來越多專門處理某個工作流的工具。
English brief: OSSInsight highlighted OpenMontage, an agentic video production system, and codebase-memory-mcp, a code intelligence MCP server for persistent codebase memory.
資料來源:OpenMontage GitHub;codebase-memory-mcp GitHub
今日觀察
今天的新聞集中在三條線。
第一條是基礎設施:OpenAI / Broadcom 的推論晶片、Qualcomm 收購 Modular,都在說明 AI 競爭越來越靠近硬體、編譯器、runtime 和推論成本。
第二條是 agent 能力:Gemini computer use、Qwen-AgentWorld、OpenMontage、codebase-memory-mcp 都在把 agent 從聊天往真實操作環境推。能不能看懂 UI、操作工具、理解 repo、建立記憶,會比單次回答更重要。
第三條是平台治理:GitHub 的模型自動選擇和憑證撤銷,都反映 AI 開發工具正在進入大規模使用後的治理階段。模型怎麼選、成本怎麼控、憑證怎麼收回,會變成工程平台必備能力。
這篇的資料入口是 Horizon,本篇由 Codex 依照 SHUO Blog 新聞格式整理、改寫與補上來源。
資訊來源
- OpenAI: OpenAI and Broadcom unveil LLM-optimized inference chip
- Google Blog: Introducing computer use in Gemini 3.5 Flash
- Qualcomm press release: Qualcomm to Acquire Modular
- Modular: Qualcomm to acquire Modular
- GitHub Changelog: Changes to model selection for Free and Student plans
- GitHub Changelog: Self-service credential revocation for incident response
- Hugging Face Blog: Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel
- Krea 2 technical report
- Reddit: Qwen-AgentWorld-35B-A3B discussion
- OpenMontage GitHub
- codebase-memory-mcp GitHub

