🗣️iOS 本地 AI 專題:從體驗語音轉文字模型開始
介紹一個語音轉文字的工具,能直接體驗到 Apple 硬體跑本地模型的效果,還能變成你新的生產力工具。
前兩篇鋪陳夠多了,我們要來實際入坑本地 AI。
我一直覺得,要認識 AI 功能,最好的方式就是親自體驗。
一旦體驗到某種 Magic Moment,大腦會產生極大興趣,對後續的學習動機就會非常有幫助。
說到本地 AI、離線模型,其實有比 LLM 更合適入門的,就是 ASR(Automatic Speech Recognition) 自動語音辨識,說白話就是提供語音轉文字的技術。因為它更單純,而且實用度很高。
2022 年 OpenAI 推出開源的 Whisper 模型以後,要開發一個語音轉文字功能的應用程式,最好的出發點就是把 Whisper 跑起來。
所以,以體驗本地模型為目的,今天就來介紹一個可以快速在你的設備上感受開源 ASR 的方法。
安裝軟體
要在 Mac 或 iOS 上跑 Whisper 不難,下幾行 Python 指令就可以開始把語音檔丟給模型去轉成文字。
但是,我希望這個體驗是方便重複測試,甚至變成日常工作流程的一環。
就算你以後都不會去碰觸 ASR 的研究、或是開發相關應用,至少跟著這篇的操作與介紹,也會擁有能一鍵講話就變成文字的新工具。
以前我一直對於上手 AI 應用開發興趣缺缺,就是因為懶得學寫 Python 指令、從 HuggingFace 下載模型等等。所以這篇文章也會先跳過那些,直接教一個幾分鐘就可以開始體驗的方式。
我要介紹的就是之前文章有提到過的 Spokenly App。要做的事情很簡單,只需要 5 分鐘:
- 下載 Spokenly
- 提供麥克風權限、設定為離線使用、指定快速鍵與語音檔保留時間
- 從 Spokenly 下載離線 ASR 模型
- 開始體驗!