自動 AI 新聞摘要:Agent Session、MCP Cloud 與本地模型長上下文
7 月 3 日 AI 新聞摘要:Anthropic Python SDK 加入 agent memory beta header,GitHub Copilot 推出 agent session streaming、AI credit pools、GitHub Actions 免 PAT 與 usage metrics 改進,Manufact 登上 Launch HN 主打 MCP Cloud,Simon Willison 發布 llm-coding-agent 並用 DSPy 改進 Datasette Agent prompt,本地模型社群也在討論 DeepSeek V4 Flash 1M context、Gemma 4 語音與 WebGPU 加速。
前言
今天這篇由 Horizon 抓取最近 48 小時的 AI、LLM、agent、開發工具與開源社群資料,再由 Codex 依照 SHUO Blog 新聞格式整理。Horizon 本次抓到的主要來源包含 GitHub Releases、Hacker News、GitHub Changelog、Google AI Blog、Simon Willison、Latent Space、OSS Insight 與 Reddit LocalLLaMA。Reddit MachineLearning RSS 仍遇到 429 限流,因此社群項目主要來自 LocalLLaMA。
這篇不是單一新聞,而是 7 月 3 日早上的 AI 摘要。每則都附上原始來源,方便回頭看全文。
1. Anthropic Python SDK 加入 agent memory beta header
Anthropic Python SDK 發布 v0.116.0,新增 agent-memory-2026-07-22 beta header。從 release note 來看,這不是大型產品公告,但它很像是 Managed Agents 產品線往「記憶」與長期狀態管理前進的接口鋪路。
Agent memory 是接下來很重要的能力。短期工具調用只能完成單次任務;真正有用的工作代理需要知道專案脈絡、使用者偏好、過去決策、常用工具與禁忌。問題是 memory 也會帶來權限、隱私、可刪除性與錯誤記憶風險。因此 SDK 層先出現 beta header,代表供應商正在把這個能力做成可控的 API surface,而不是只藏在聊天產品裡。
資料來源:Anthropic SDK Python v0.116.0
2. GitHub Copilot 強化 agent session streaming、成本池與 Actions 權限
GitHub Changelog 今天有多個 Copilot 更新。Copilot agent session streaming 進入 public preview,企業可以跨 Copilot clients 取得 agent session data;cost centers 現在支援 AI credit pools,可以限制每個成本中心使用多少企業每月 included AI credits;Copilot CLI 在 GitHub Actions 裡可以直接使用內建 GITHUB_TOKEN,不再需要額外建立 PAT;Copilot usage metrics API 也提升準確度與覆蓋範圍。
這幾則其實是同一個方向:agent 進入企業後,重點會變成觀測、權限與花費控制。以前大家只問「模型會不會寫 code」,現在更實際的問題是:agent session 做了什麼、花了多少 credit、在哪個 cost center、誰能查、CI 裡要不要放長期 token。GitHub 正在把 Copilot 從個人助手慢慢整理成工程平台元件。
資料來源:Copilot agent session streaming is now in public preview;Cost centers now support AI credit pools;Copilot CLI no longer needs a personal access token in GitHub Actions;Improved accuracy and coverage in Copilot usage metrics reports
3. GitHub Copilot 將淘汰 Gemini 2.5 Pro 與 Gemini 3 Flash
GitHub 宣布將在 2026 年 7 月 31 日於所有 GitHub Copilot experiences 中 deprecate Gemini 2.5 Pro 與 Gemini 3 Flash,包含 Copilot Chat、inline edits、ask / agent modes 與 code completions。
這是模型供給快速輪替的另一個例子。對使用者來說,多模型平台的好處是可以快速接入新模型;代價是某些模型也會很快退出。企業如果把工作流綁定特定模型,就需要留意退場日期、替代模型、成本差異與品質變化。模型選單看起來像 UI 細節,但對大團隊來說其實是變更管理問題。
資料來源:Upcoming deprecation of Gemini 2.5 Pro and Gemini 3 Flash
4. Manufact 登上 Launch HN:MCP Cloud 開始產品化
Hacker News 今天出現 Launch HN: Manufact (YC S25) – MCP Cloud。Manufact 表示自己是 MCP apps and servers 的 cloud,團隊過去叫 mcp-use,也持續維護 MCP 相關 open source SDK。
MCP 今年的變化很快。早期大家把它看成「讓模型接工具」的協議;現在開始出現雲端部署、server 管理、app 平台、SDK 與企業化需求。這代表 MCP 正從開發者實驗變成基礎設施市場。真正的挑戰會是安全、授權、observability、secret 管理與跨工具相容性,因為一旦 agent 可以接很多外部能力,MCP server 就會變成權限邊界的一部分。
資料來源:Manufact;Launch HN discussion;mcp-use GitHub
5. Simon Willison:llm-coding-agent、DSPy 與「理解才能參與」
Simon Willison 發布 llm-coding-agent 0.1a0,把自己的 LLM library 當成 agent framework,實驗一個簡單 coding agent。同一天他也寫了用 DSPy evaluate / improve Datasette Agent SQL system prompts 的研究筆記,並提到 Geoffrey Litt 在 AIE 的一句話:Understand to participate。
這三則放在一起很有意思。Coding agent 不只是把模型接上 shell;prompt、eval、工具介面與人類理解都要一起設計。DSPy 用來改進 SQL system prompt,代表 prompt engineering 正在更像工程實驗,而不是直覺調參。「理解才能參與」則提醒我們,當 agent 產出越來越大的變更,人類如果看不懂中間過程,就很難真的審查和共同設計。
資料來源:llm-coding-agent 0.1a0;Using DSPy to evaluate and improve Datasette Agent's SQL system prompts;Understand to participate
6. Agentic web 與 software factory:技能、沙盒與人類控制仍是核心
Latent Space 今天多篇文章都圍繞 AI Engineer World’s Fair 的 agent 討論。Vercel 的 Andrew Qu 談 agents as a new kind of software,提到 skills、sandboxes 和 agent-readable websites 的重要性;Adobe 相關訪談談到「未來網站可能為每個訪客組裝自己」;另一篇則討論 skill engineering 和反對 one-shot AI design 的觀點。
這代表 agent 產品正在從「幫我做一件事」走向「網站、工具、沙盒、技能都為 agent 重構」。但同時,這些文章也反覆提到人類判斷和控制。越是把 agent 放進設計、開發和網站生成,越不能只追求一次生成完成;更重要的是 loop、review、可理解的中間狀態,以及能讓人介入的產品結構。
資料來源:Vercel's Andrew Qu on why agents are a new kind of software;The website of the future may assemble itself for every visitor;Skill engineering and the case against one-shot AI design
7. 本地模型社群:DeepSeek V4 Flash 1M context、Gemma 4 語音與 WebGPU 加速
LocalLLaMA 今天的本地模型討論很熱。有人分享 llama.cpp patch,讓 DeepSeek V4 Flash 在 RTX 5090 上以完整 1M token context 本地運行;Hugging Face 成員分享 Gemma 4 31B 語音 demo,串起 Parakeet、Gemma 4 31B、Qwen3TTS 與 web search;社群也討論 Gemma 4 WebGPU kernels 達到 255 tok/s,以及 local benchmarks with RTX 3090 比較 Qwen3.6 27B 和 Ornith。
這些訊號都指向同一件事:本地 AI 的瓶頸不只是模型,而是 runtime、kernel、context memory、語音 pipeline、benchmark 與硬體適配。當工具鏈變好,本地模型會更像一個可以長時間工作的私有助手,而不是只能拿來玩單次 prompt 的玩具。
資料來源:Reddit: DeepSeek V4 Flash running with full 1M token context locally;Reddit: Talking with Gemma 4 31B;Reddit: Gemma 4 WebGPU Kernels 255 tok/s;Reddit: Local benchmarks with a RTX 3090
8. OSS Insight:AI agent 工具從安全、影片到多 agent 桌面都在冒出來
OSS Insight 今天抓到多個 AI / agent 相關 trending repos。usestrix/strix 主打 open-source AI hackers to find and fix app vulnerabilities;calesthio/OpenMontage 是 agentic video production system;diegosouzapw/OmniRoute 是支援多 provider、壓縮與 fallback 的 AI gateway;stablyai/orca 定位是可以管理一群 parallel agents 的 ADE;DeusData/codebase-memory-mcp 則是高效能 code intelligence MCP server。
這些專案不一定都會長成大產品,但方向很清楚:agent 生態正在分化出很多基礎能力。安全測試、影片生產、模型路由、多 agent 管理、codebase memory,都是「把 AI 助理變成可用系統」需要的周邊零件。
資料來源:usestrix/strix;calesthio/OpenMontage;diegosouzapw/OmniRoute;stablyai/orca;DeusData/codebase-memory-mcp
今日觀察
今天的 AI 新聞可以整理成三條線。
第一,agent 開始補齊平台化能力:memory、session streaming、usage metrics、cost pools、CI token 管理,都是 agent 從 demo 走向團隊工具時必須面對的東西。
第二,MCP 與 coding agent 正在變成基礎設施市場:Manufact、llm-coding-agent、Datasette Agent prompt eval、codebase-memory MCP,都在把「模型接工具」往更可部署、可評估、可管理的方向推。
第三,本地模型的突破越來越偏工程化:1M context、WebGPU kernels、語音 pipeline、RTX 3090 benchmarks,比起單純模型名稱,更接近日常可用性的核心。
這篇的資料入口是 Horizon;本文由 Codex 依照 SHUO Blog 新聞格式整理、改寫並補上來源。
資料來源
- Anthropic SDK Python v0.116.0
- GitHub Changelog: Copilot agent session streaming is now in public preview
- GitHub Changelog: Cost centers now support AI credit pools
- GitHub Changelog: Copilot CLI no longer needs a personal access token in GitHub Actions
- GitHub Changelog: Upcoming deprecation of Gemini 2.5 Pro and Gemini 3 Flash
- Manufact
- Launch HN discussion: Manufact
- Simon Willison: llm-coding-agent 0.1a0
- Simon Willison: Using DSPy to evaluate and improve Datasette Agent's SQL system prompts
- Latent Space: Vercel's Andrew Qu on why agents are a new kind of software
- Latent Space: Skill engineering and the case against one-shot AI design
- Reddit: DeepSeek V4 Flash running with full 1M token context locally
- Reddit: Talking with Gemma 4 31B
- Reddit: Gemma 4 WebGPU Kernels 255 tok/s
- usestrix/strix
- DeusData/codebase-memory-mcp

