NEWS 每日早報

今日 AI 早報:Google 展示本地 Gemma 4 驅動 Reachy Mini!299 美元開源機器人開啟具身智慧新時代

Google 與 Hugging Face 聯合展示桌面機器人 Reachy Mini 搭載本地執行的 Gemma 4 模型,進行即時語音與視覺互動。299 美元起,開源、本地隱私與實體 AI 助手正式走入現實。

前言

如果有人問:

「未來的實體 AI 助理會長什麼樣子?」

Google 與 Hugging Face 最近給出了一個相當令人興奮的答案。

在最新的 Gemma 展示中,一台名為 Reachy Mini 的桌面機器人透過鏡頭觀察棋盤、流暢地與使用者進行語音互動,甚至能理解周遭環境並給出即時回應。

更有趣的是,這一切並非依賴雲端大型模型。

影片中明確標示:

Reachy Mini connected to Gemma 4 on a laptop locally

這代表著,Gemma 4 正在本地筆電上以極低延遲運行,完美展現了本地端多模態具身智慧(Embodied AI)的潛力。

Reachy Mini 搭配本地運行之 Gemma 4 模型進行語音與視覺即時互動展示影片


Reachy Mini 是什麼?

Reachy Mini 是由 Hugging Face 與 Pollen Robotics 聯合推出的開源桌面機器人,並由 Seeed Studio 進行硬體優化與量產製造。

與動輒數萬美元的工業級或人形機器人落差巨大,Reachy Mini 的定位非常親民,是專為開發者、研究人員設計的 AI 實驗與實體互動平台。

主要特色包括:

  • 硬體架構:配備雙目相機、麥克風、喇叭,以及具備 6 軸運動能力的頭部與天線,能展現豐富的擬人化動作。
  • 開源與靈活性:提供完整的 Python SDK 與模擬環境,開發者可以完全掌握硬體控制並自訂動作。
  • 兩種版本選擇
    • Reachy Mini Lite (299 美元):需透過有線方式連接至外部電腦(如 Mac、PC 或 Linux),非常適合預算有限且著重於本地模型開發的玩家。
    • Reachy Mini Full / Wireless (449 美元):內建 Raspberry Pi 4、電池與 Wi-Fi 模組,可獨立無線運作。

本地運行的 Gemma 4:告別雲端延遲與隱私疑慮

這次展示中最核心的突破,在於將整個語音與視覺互動流程完全「本地化」。

過去這類智慧機器人大多需要將視訊串流與語音上傳至雲端 API,不僅面臨高昂的訂閱與流量成本,還伴隨著網路延遲與隱私外洩風險。而 Reachy Mini 與 Gemma 4 的結合,成功在本地端筆電上實現了完整的離線工作流:

  1. 語音偵測 (VAD):使用 Silero VAD 技術,即時偵測使用者何時開始與結束說話。
  2. 語音轉文字 (STT):透過 faster-whisper 在本地快速將語音訊號轉為文字。
  3. 理解與推理 (LLM):搭載 Google 最新針對消費級設備優化的開源模型 Gemma 4 12B,直接在筆電上處理文字與影像輸入。
  4. 文字轉語音 (TTS):利用本地 TTS 引擎即時合成語音並透過 Reachy Mini 的喇叭播放。

這樣的一體化架構,不僅帶來了極佳的即時回應速度,也確保了所有家居與辦公室的影像與聲音數據絕不上傳雲端,保障了隱私安全。


實體 AI (Physical AI) 正在走入日常

近一年來,AI 的發展重心正從純網頁的聊天機器人(ChatBot)逐步轉向主動代理人(Agent)。而下一個重要浪潮,就是讓 AI 擁有物理身體的「實體 AI」(Physical AI)或「具身智慧」(Embodied AI)。

過去我們認為具身智慧是極其遙遠且昂貴的科技,但 Reachy Mini 的出現證明:

text
雙目相機 + 麥克風 + 本地端開源 LLM + 299 美元開源硬體

這個黃金組合已經將實體 AI 的門檻降低到一般開發者與愛好者都能觸手可及的範圍。這也意味著,在不久的將來,擁有一個放在書桌上、完全守護隱私且能用眼神與動作與你互動的桌面 AI 夥伴,將不再是科幻小說的情節。


相關連結