Transkrypcja rozmów zawierających dane poufne wymaga bezpieczeństwa i prywatności. Zamiast korzystać z usług online, warto przetworzyć pliki lokalnie. Oto dwie sprawdzone i bezpieczne metody: konsolowa i graficzna (GUI). Przydatne do analizy rozmów przez Zespół Marketingu 😉
Opcja 1: Whisper lokalnie przez terminal (Windows)
Krok 1: Zainstaluj wymagane narzędzia
-
- Python 3.8+ – pobierz tutaj (zaznacz „Add Python to PATH”)
- Git – pobierz tutaj
- FFmpeg – pobierz i dodaj do PATH
Krok 2: Instalacja Whisper
pip install git+https://github.com/openai/whisper.git
pip install torch --index-url https://download.pytorch.org/whl/cu118
Uwaga: Jeśli nie masz karty NVIDIA, użyj po prostu pip install torch
Krok 3: Skrypt transkrypcyjny (plik .bat)
Utwórz plik o nazwie transkrypcja_audio.bat z tą treścią:
@echo off
echo === Transkrypcja audio Whisper ===
set /p filename=Podaj nazwę pliku audio (np. audio.mp3):
whisper "%filename%" --language Polish --model small
pause
Jak używać?
-
- Skopiuj plik audio do folderu ze skryptem
- Uruchom plik
transkrypcja_audio.bat - Wygenerowana transkrypcja pojawi się w pliku
.txt
️ Opcja 2: Whisper WebUI – graficzny interfejs do transkrypcji
Krok 1: Wymagania wstępne
Krok 2: Instalacja Whisper WebUI
git clone https://github.com/aarnphm/whisper-webui.git
cd whisper-webui
pip install -r requirements.txt
python app.py
Krok 3: Uruchom aplikację
Po uruchomieniu wejdź w przeglądarce na: http://127.0.0.1:7860
Funkcje GUI:
-
- Przeciąganie i upuszczanie plików
- Wybór modelu (tiny, base, small, medium, large)
- Obsługa języka polskiego
- Eksport do .txt, .srt, .vtt
Alternatywa bez kodowania: Whisper Desktop GUI
Dla osób, które nie chcą używać terminala – gotowa aplikacja EXE:
Działa lokalnie, nie wymaga internetu, prosty interfejs do kliknięcia.
Jeśli zależy Ci na prywatności i pełnej kontroli nad transkrypcją, lokalne narzędzia są najlepszym wyborem. Dla geeków – terminal, dla wygodnych – GUI. Obie opcje działają offline i wspierają język polski. Większość popularnych firm oferujących transkrypcje i ocenę rozmów na centralach telefonicznych (komercyjne rozwiązanie) używają tego modelu językowego.
