🗣️iOS 本地 AI 專題:從體驗語音轉文字模型開始

介紹一個語音轉文字的工具,能直接體驗到 Apple 硬體跑本地模型的效果,還能變成你新的生產力工具。

前兩篇鋪陳夠多了,我們要來實際入坑本地 AI。

我一直覺得,要認識 AI 功能,最好的方式就是親自體驗。

一旦體驗到某種 Magic Moment,大腦會產生極大興趣,對後續的學習動機就會非常有幫助。

說到本地 AI、離線模型,其實有比 LLM 更合適入門的,就是 ASR(Automatic Speech Recognition) 自動語音辨識,說白話就是提供語音轉文字的技術。因為它更單純,而且實用度很高。

2022 年 OpenAI 推出開源的 Whisper 模型以後,要開發一個語音轉文字功能的應用程式,最好的出發點就是把 Whisper 跑起來。

所以,以體驗本地模型為目的,今天就來介紹一個可以快速在你的設備上感受開源 ASR 的方法。

安裝軟體

要在 Mac 或 iOS 上跑 Whisper 不難,下幾行 Python 指令就可以開始把語音檔丟給模型去轉成文字。

但是,我希望這個體驗是方便重複測試,甚至變成日常工作流程的一環。

就算你以後都不會去碰觸 ASR 的研究、或是開發相關應用,至少跟著這篇的操作與介紹,也會擁有能一鍵講話就變成文字的新工具。

以前我一直對於上手 AI 應用開發興趣缺缺,就是因為懶得學寫 Python 指令、從 HuggingFace 下載模型等等。所以這篇文章也會先跳過那些,直接教一個幾分鐘就可以開始體驗的方式。

我要介紹的就是之前文章有提到過的 Spokenly App。要做的事情很簡單,只需要 5 分鐘:

  1. 下載 Spokenly
  2. 提供麥克風權限、設定為離線使用、指定快速鍵與語音檔保留時間
  3. 從 Spokenly 下載離線 ASR 模型
  4. 開始體驗!