自動 AI 新聞摘要：Agent Session、MCP Cloud 與本地模型長上下文

前言

今天這篇由 Horizon 抓取最近 48 小時的 AI、LLM、agent、開發工具與開源社群資料，再由 Codex 依照 SHUO Blog 新聞格式整理。Horizon 本次抓到的主要來源包含 GitHub Releases、Hacker News、GitHub Changelog、Google AI Blog、Simon Willison、Latent Space、OSS Insight 與 Reddit LocalLLaMA。Reddit MachineLearning RSS 仍遇到 429 限流，因此社群項目主要來自 LocalLLaMA。

這篇不是單一新聞，而是 7 月 3 日早上的 AI 摘要。每則都附上原始來源，方便回頭看全文。

1. Anthropic Python SDK 加入 agent memory beta header

Anthropic Python SDK 發布 v0.116.0，新增 agent-memory-2026-07-22 beta header。從 release note 來看，這不是大型產品公告，但它很像是 Managed Agents 產品線往「記憶」與長期狀態管理前進的接口鋪路。

Agent memory 是接下來很重要的能力。短期工具調用只能完成單次任務；真正有用的工作代理需要知道專案脈絡、使用者偏好、過去決策、常用工具與禁忌。問題是 memory 也會帶來權限、隱私、可刪除性與錯誤記憶風險。因此 SDK 層先出現 beta header，代表供應商正在把這個能力做成可控的 API surface，而不是只藏在聊天產品裡。

資料來源：Anthropic SDK Python v0.116.0

2. GitHub Copilot 強化 agent session streaming、成本池與 Actions 權限

GitHub Changelog 今天有多個 Copilot 更新。Copilot agent session streaming 進入 public preview，企業可以跨 Copilot clients 取得 agent session data；cost centers 現在支援 AI credit pools，可以限制每個成本中心使用多少企業每月 included AI credits；Copilot CLI 在 GitHub Actions 裡可以直接使用內建 GITHUB_TOKEN，不再需要額外建立 PAT；Copilot usage metrics API 也提升準確度與覆蓋範圍。

這幾則其實是同一個方向：agent 進入企業後，重點會變成觀測、權限與花費控制。以前大家只問「模型會不會寫 code」，現在更實際的問題是：agent session 做了什麼、花了多少 credit、在哪個 cost center、誰能查、CI 裡要不要放長期 token。GitHub 正在把 Copilot 從個人助手慢慢整理成工程平台元件。

資料來源：Copilot agent session streaming is now in public preview；Cost centers now support AI credit pools；Copilot CLI no longer needs a personal access token in GitHub Actions；Improved accuracy and coverage in Copilot usage metrics reports

3. GitHub Copilot 將淘汰 Gemini 2.5 Pro 與 Gemini 3 Flash

GitHub 宣布將在 2026 年 7 月 31 日於所有 GitHub Copilot experiences 中 deprecate Gemini 2.5 Pro 與 Gemini 3 Flash，包含 Copilot Chat、inline edits、ask / agent modes 與 code completions。

這是模型供給快速輪替的另一個例子。對使用者來說，多模型平台的好處是可以快速接入新模型；代價是某些模型也會很快退出。企業如果把工作流綁定特定模型，就需要留意退場日期、替代模型、成本差異與品質變化。模型選單看起來像 UI 細節，但對大團隊來說其實是變更管理問題。

資料來源：Upcoming deprecation of Gemini 2.5 Pro and Gemini 3 Flash

4. Manufact 登上 Launch HN：MCP Cloud 開始產品化

Hacker News 今天出現 Launch HN: Manufact (YC S25) – MCP Cloud。Manufact 表示自己是 MCP apps and servers 的 cloud，團隊過去叫 mcp-use，也持續維護 MCP 相關 open source SDK。

MCP 今年的變化很快。早期大家把它看成「讓模型接工具」的協議；現在開始出現雲端部署、server 管理、app 平台、SDK 與企業化需求。這代表 MCP 正從開發者實驗變成基礎設施市場。真正的挑戰會是安全、授權、observability、secret 管理與跨工具相容性，因為一旦 agent 可以接很多外部能力，MCP server 就會變成權限邊界的一部分。

資料來源：Manufact；Launch HN discussion；mcp-use GitHub

5. Simon Willison：llm-coding-agent、DSPy 與「理解才能參與」

Simon Willison 發布 llm-coding-agent 0.1a0，把自己的 LLM library 當成 agent framework，實驗一個簡單 coding agent。同一天他也寫了用 DSPy evaluate / improve Datasette Agent SQL system prompts 的研究筆記，並提到 Geoffrey Litt 在 AIE 的一句話：Understand to participate。

這三則放在一起很有意思。Coding agent 不只是把模型接上 shell；prompt、eval、工具介面與人類理解都要一起設計。DSPy 用來改進 SQL system prompt，代表 prompt engineering 正在更像工程實驗，而不是直覺調參。「理解才能參與」則提醒我們，當 agent 產出越來越大的變更，人類如果看不懂中間過程，就很難真的審查和共同設計。

資料來源：llm-coding-agent 0.1a0；Using DSPy to evaluate and improve Datasette Agent's SQL system prompts；Understand to participate

6. Agentic web 與 software factory：技能、沙盒與人類控制仍是核心

Latent Space 今天多篇文章都圍繞 AI Engineer World’s Fair 的 agent 討論。Vercel 的 Andrew Qu 談 agents as a new kind of software，提到 skills、sandboxes 和 agent-readable websites 的重要性；Adobe 相關訪談談到「未來網站可能為每個訪客組裝自己」；另一篇則討論 skill engineering 和反對 one-shot AI design 的觀點。

這代表 agent 產品正在從「幫我做一件事」走向「網站、工具、沙盒、技能都為 agent 重構」。但同時，這些文章也反覆提到人類判斷和控制。越是把 agent 放進設計、開發和網站生成，越不能只追求一次生成完成；更重要的是 loop、review、可理解的中間狀態，以及能讓人介入的產品結構。

資料來源：Vercel's Andrew Qu on why agents are a new kind of software；The website of the future may assemble itself for every visitor；Skill engineering and the case against one-shot AI design

7. 本地模型社群：DeepSeek V4 Flash 1M context、Gemma 4 語音與 WebGPU 加速

LocalLLaMA 今天的本地模型討論很熱。有人分享 llama.cpp patch，讓 DeepSeek V4 Flash 在 RTX 5090 上以完整 1M token context 本地運行；Hugging Face 成員分享 Gemma 4 31B 語音 demo，串起 Parakeet、Gemma 4 31B、Qwen3TTS 與 web search；社群也討論 Gemma 4 WebGPU kernels 達到 255 tok/s，以及 local benchmarks with RTX 3090 比較 Qwen3.6 27B 和 Ornith。

這些訊號都指向同一件事：本地 AI 的瓶頸不只是模型，而是 runtime、kernel、context memory、語音 pipeline、benchmark 與硬體適配。當工具鏈變好，本地模型會更像一個可以長時間工作的私有助手，而不是只能拿來玩單次 prompt 的玩具。

資料來源：Reddit: DeepSeek V4 Flash running with full 1M token context locally；Reddit: Talking with Gemma 4 31B；Reddit: Gemma 4 WebGPU Kernels 255 tok/s；Reddit: Local benchmarks with a RTX 3090

8. OSS Insight：AI agent 工具從安全、影片到多 agent 桌面都在冒出來

OSS Insight 今天抓到多個 AI / agent 相關 trending repos。usestrix/strix 主打 open-source AI hackers to find and fix app vulnerabilities；calesthio/OpenMontage 是 agentic video production system；diegosouzapw/OmniRoute 是支援多 provider、壓縮與 fallback 的 AI gateway；stablyai/orca 定位是可以管理一群 parallel agents 的 ADE；DeusData/codebase-memory-mcp 則是高效能 code intelligence MCP server。

這些專案不一定都會長成大產品，但方向很清楚：agent 生態正在分化出很多基礎能力。安全測試、影片生產、模型路由、多 agent 管理、codebase memory，都是「把 AI 助理變成可用系統」需要的周邊零件。

資料來源：usestrix/strix；calesthio/OpenMontage；diegosouzapw/OmniRoute；stablyai/orca；DeusData/codebase-memory-mcp

今日觀察

今天的 AI 新聞可以整理成三條線。

第一，agent 開始補齊平台化能力：memory、session streaming、usage metrics、cost pools、CI token 管理，都是 agent 從 demo 走向團隊工具時必須面對的東西。

第二，MCP 與 coding agent 正在變成基礎設施市場：Manufact、llm-coding-agent、Datasette Agent prompt eval、codebase-memory MCP，都在把「模型接工具」往更可部署、可評估、可管理的方向推。

第三，本地模型的突破越來越偏工程化：1M context、WebGPU kernels、語音 pipeline、RTX 3090 benchmarks，比起單純模型名稱，更接近日常可用性的核心。

這篇的資料入口是 Horizon；本文由 Codex 依照 SHUO Blog 新聞格式整理、改寫並補上來源。