AI & Tools #AI Tools #Open Source #Video Processing #Local AI

SmartSub 妙幕實測:我目前用過最省事的本機影片字幕翻譯工具

SmartSub 妙幕是一款本地優先的桌面字幕工具,可以完成影片轉字幕、字幕翻譯、雙語字幕與字幕燒錄。這篇記錄我實測 DeepSeek 翻譯、faster-whisper、CUDA 加速,以及它和 VideoLingo 的差異。

7 min read/ Easy

前言

我今天測的是 SmartSub 妙幕。這類影片字幕工具我前陣子已經玩過不少,包含之前寫過的 VideoLingo。VideoLingo 功能很完整,甚至可以一路做到 TTS 配音,但它的環境配置也真的比較麻煩。

SmartSub 給我的第一印象剛好相反。它比較像一個已經包好的桌面 App,打開之後從任務開始選,一步一步把影片轉錄、翻譯、校對、合成跑完。尤其是 ASR 模型和 GPU 加速這段,SmartSub 真的省掉很多手動配置時間。

我這次拿幾支英文演講影片測,總長大約 10 分鐘,翻譯模型用的是 deepseek v4 flash。我翻了 4 部影片,加起來花費不到 0.01 美元,速度和成本都很誇張。


它適合什麼情境

我會把 SmartSub 放在「我想快速做字幕,不想折騰環境」的位置。

比較適合的情境:

  • 外語影片要快速產出中文字幕或雙語字幕。
  • 已經有字幕檔,只想翻譯成另一種語言。
  • 想把字幕直接燒進影片,輸出成可以分享的版本。
  • 想用本機 ASR,不想把原始音影片丟到雲端服務。
  • 想用 GPU 加速,但不想自己處理 CUDA、模型和 Python 環境。

比較不適合的情境:

  • 你一定要做中文配音或多語配音。
  • 你想把整套流程接成自己的自動化 pipeline。
  • 你想手動控制每一個中間步驟和提示詞細節。

如果你需要 TTS 配音,VideoLingo 還是比較完整。但如果你只是要字幕生成、翻譯、校對、燒錄,我自己會優先打開 SmartSub。


下載與安裝

SmartSub 可以到 GitHub Releases 下載 Windows、macOS、Linux 對應版本。官方文件也有整理下載表,macOS 使用者比較推薦直接用 Homebrew。

SmartSub 下載頁面與 Homebrew 安裝方式

macOS 可以用 Homebrew 安裝,也可以到 GitHub Releases 下載對應版本

macOS 可以這樣裝:

bash
brew tap buxuku/tap
brew install --cask smartsub

如果是手動下載,Windows 選 windows-x64,Apple Silicon Mac 選 mac-arm64,Intel Mac 選 mac-x64,Linux 則看你要 deb 還是 AppImage。

macOS 如果跳出應用程式已損壞,官方文件也有提供解除 quarantine 的方式:

bash
sudo xattr -dr com.apple.quarantine /Applications/SmartSub.app

這種指令我會建議只在你確定來源是官方 GitHub 或官方網站時才跑。


首頁是任務式流程

SmartSub 的首頁不是丟一堆參數給你,而是先問你要做什麼。這點我滿喜歡,因為字幕工具最容易讓人卡在「我到底要先轉錄、先翻譯、還是先合成」。

SmartSub 首頁任務選擇介面

首頁直接用任務引導,可以選影片轉雙語字幕、原文字幕、字幕翻譯、校對和合成

首頁常用的任務大概是這幾種:

  • 影片轉雙語字幕
  • 影片轉原文字幕
  • 翻譯已有字幕
  • 校對字幕
  • 合成到影片

我這次主要用的是「影片轉雙語字幕」和「合成到影片」。前者會把影片先轉錄,再翻譯成目標語言,最後產出字幕。後者則是把字幕放進影片裡,變成可以直接播放的成品。


ASR 模型配置比想像中輕

我覺得 SmartSub 最強的地方在這裡。

以前這類工具常見問題是:功能看起來很完整,但你一裝下去就開始碰 Python、CUDA、Whisper、FFmpeg、模型路徑。不是不能解,只是每次都很耗精神。

SmartSub 把「引擎與模型」做成一個管理頁。官方 README 提到 3.x 版本支援 6 種轉寫引擎,包含內建 whisper.cppfaster-whisperFunASRQwen3-ASRFireRedASR 和本地 Whisper CLI。我這次主要看的是 whisper.cppfaster-whisper

whisper.cpp

whisper.cpp 是內建引擎,開箱就能用。它適合先試跑,尤其是你不想先下載一堆東西,只想知道軟體能不能正常工作。

SmartSub whisper.cpp 模型管理頁面

whisper.cpp 是內建引擎,適合先快速跑通流程

它的好處是簡單。缺點是我自己測下來速度沒有 faster-whisper 那麼爽。如果只是短影片,差距還好;影片一長,就會開始在意等待時間。

faster-whisper

我後來比較喜歡 faster-whisper。SmartSub 會在應用內下載自包含的 Python runtime,模型也可以在介面裡處理。搭配 NVIDIA CUDA 的時候,速度感很明顯。

SmartSub faster-whisper 模型下載與 CUDA 加速

faster-whisper 可以搭配 CUDA 加速,模型和 runtime 都在介面裡管理

我測的 Windows 機器有 NVIDIA 顯卡,右上角可以看到 CUDA 加速狀態。這種體驗跟自己手動裝 CUDA Toolkit、處理 Python 套件相比,真的舒服很多。

如果沒有 GPU,它也可以退回 CPU 跑。只是影片長度一上來,CPU 版本就會比較需要耐心。


翻譯流程

SmartSub 的翻譯流程大致是:先擷取音訊、轉成字幕,再把字幕丟去翻譯服務。我的測試是用 DeepSeek,模型選 deepseek v4 flash

我這次翻了 4 部演講影片,總長大概 10 分鐘,花費不到 0.01 美元。這不是什麼嚴格 benchmark,只是我自己的用量紀錄,但它讓我對這種工具的成本感覺改觀很多。

如果你本來擔心影片翻譯很燒錢,其實只翻字幕文字的成本很低。真正容易變貴的是你要做配音、長影片、大量批次,或是用比較貴的模型。

翻譯完之後會產出字幕檔。這時我會先進校對頁看一下斷句和翻譯,有些專有名詞還是要手動修,不然 AI 會很自信地把人名、產品名翻得很奇怪。


合成輸出

字幕確認後,就可以進到合成影片。SmartSub 可以調整字幕樣式,像是字體大小、位置、顏色、描邊、陰影。你可以選硬字幕燒錄,也可以做軟字幕封裝。

如果影片是要丟社群、傳給不熟悉播放器設定的人,我會直接選硬字幕。因為對方不用管字幕軌,打開就能看。

如果是自己收藏、內部資料、或是希望保留可切換字幕軌,軟字幕比較彈性。只是不同播放器支援狀況會有差,分享出去時比較容易被問「為什麼我看不到字幕」。


跟 VideoLingo 怎麼選

我會這樣分:

  • 你要字幕生成、翻譯、校對、燒錄,而且想少折騰環境:選 SmartSub。
  • 你要完整影片本地化,包含 TTS 配音和更重的流程控制:選 VideoLingo。

VideoLingo 的功能很強,尤其是配音那段 SmartSub 目前不是同一個方向。但我自己真的裝過之後,會覺得 VideoLingo 比較像給願意碰環境的人。它不是不好,而是第一次配置比較需要耐心。

SmartSub 的優點是直接。下載 App、選任務、選模型、設定翻譯服務、跑流程。它把很多原本會讓人卡住的部分藏在介面裡,這對大部分只是想做字幕的人很重要。

我目前會把它當成日常字幕工具。需要配音時再回去開 VideoLingo。


實測心得

SmartSub 這次讓我最有感的是「少很多部署摩擦」。以前我測影片翻譯工具,常常半小時都還在處理環境。這次比較像是真的在做字幕,而不是在跟套件管理器打架。

它也不是完全不用設定。翻譯服務還是要放 API key,模型還是要下載,長影片還是會吃時間。但這些設定都在 App 裡完成,心智負擔小很多。

如果你跟我一樣常常看到英文演講、教學影片,想快速做中文字幕或雙語字幕,我覺得 SmartSub 很值得放進工具箱。尤其是搭配便宜又快的翻譯模型,這個成本低到會讓人開始想批量整理一堆影片。


相關連結: