Whisper.cpp install
Whisper.cpp 是 OpenAI 的語音識別模型 Whisper 的 C/C++ 實現版本,由開發者 Georgi Gerganov 基於原始 Python 項目移植和優化。它專注於高效、輕量級運行,尤其適合在資源受限的環境(如嵌入式設備、本地終端)中離線執行語音轉文字(ASR)任務。
主要特點
1 純C/C++實現
不依賴 Python 或大型深度學習架構(如 PyTorch),僅需基礎數學庫(如 BLAS)或 Apple 的 Accelerate 架構(macOS 優化)。
代碼簡潔,便於集成到其他項目或移植到不同平台。
2 跨平台支持
支持 Windows、Linux、macOS,甚至樹莓派等嵌入式設備。
提供預編譯的二進位文件,也可手動編譯。
3 模型量化與高效推理
支持模型權重量化(如 4-bit/5-bit),大幅減少內存占用和計算開銷,適合 CPU 運行。
即使非高端硬體(如樹莓派)也能流暢運行。
4 離線運行
完全本地化處理,無需聯網,保護隱私。
5 命令行工具
提供開箱即用的命令行接口,可直接輸入音頻文件(如 WAV、MP3)輸出轉錄結果。
典型用途
本地語音轉錄:將會議錄音、講座音頻轉為文字。
嵌入式應用:集成到智能設備中實現語音控制。
隱私敏感場景:醫療、法律等需離線處理的音頻。
支 持 本 站: 捐贈伺服器等運維費用,需要您的支持!
Mac上的安裝
1. xcode
sudo rm -rf /Library/Developer/CommandLineTools
xcode-select --install
clang --version
2 whisper.cpp
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make
./models/download-ggml-model.sh small
./models/download-ggml-model.sh large-v3
3 m4a -> wav format convert
ffmpeg -i sound.m4a sound.wav
ffmpeg -i sound.wav -ar 16000 -ac 1 -c:a pcm_s16le sound_16k.wav
4
./build/bin/whisper-cli -m models/ggml-small.bin -f sound_16k.wav -l ja -of output
./build/bin/whisper-cli -m models/ggml-large-v3.bin -f sound_16k.wav -l ja -of output
./build/bin/whisper-cli -m models/ggml-large-v3.bin -f sound_16k.wav -l zh -of output
留言簿