whisper

發表於： 2025-01-16

字數： 208 閱讀：≈ 1分鐘瀏覽：

Open Ai Whisper

Whisper 是一種通用語音辨識模型。它是在大量不同音訊資料集上進行訓練的，也是一個多任務模型，可以執行多語言語音識別、語音翻譯和語言識別。 Open Ai 用 Pytorch 實做的語音轉文字的實做，多語言效果良好

1
2


pip install -U openai-whisper
pipx install openai-whisper

`1`	`whisper --model tiny --language Chinese ~/Downloads/untitled.mp3`

model 有以下值可選

tiny Parameter 39M
base Parameter 74M
small Parameter 244M
medium Parameter 769M
large Parameter 1550M
turbo Parameter 809M

另有 tiny.en base.en small.en medium.en 只支援英文的模型

`Whisper.cpp`

看著 Open Ai Whisper 寫的 Cpp 實做，快的多

1
2
3
4


cmake --build build -j 8 --config Release
cd build
make
./bin/whisper-cli -m /home/eric/whisper.cpp/models/ggml-tiny.bin -f  ../samples/jfk.wav

只有 CPU 運算

`1`	`apt install libavformat-dev libavformat-dev libavutil-dev libavformat-extra libavtp0`

加入 ffmpeg

Vulkan

faster-whisper

Cpp 實做，降低浮點數精度