Bezpieczna transkrypcja audio z użyciem Whisper – lokalnie i przez GUI

Transkrypcja rozmów zawierających dane poufne wymaga bezpieczeństwa i prywatności. Zamiast korzystać z usług online, warto przetworzyć pliki lokalnie. Oto dwie sprawdzone i bezpieczne metody: konsolowa i graficzna (GUI). Przydatne do analizy rozmów przez Zespół Marketingu 😉

Opcja 1: Whisper lokalnie przez terminal (Windows)

Krok 1: Zainstaluj wymagane narzędzia

Krok 2: Instalacja Whisper

pip install git+https://github.com/openai/whisper.git
pip install torch --index-url https://download.pytorch.org/whl/cu118

Uwaga: Jeśli nie masz karty NVIDIA, użyj po prostu pip install torch

Krok 3: Skrypt transkrypcyjny (plik .bat)

Utwórz plik o nazwie transkrypcja_audio.bat z tą treścią:

@echo off
echo === Transkrypcja audio Whisper ===
set /p filename=Podaj nazwę pliku audio (np. audio.mp3): 
whisper "%filename%" --language Polish --model small
pause

Jak używać?

    1. Skopiuj plik audio do folderu ze skryptem
    2. Uruchom plik transkrypcja_audio.bat
    3. Wygenerowana transkrypcja pojawi się w pliku .txt

️ Opcja 2: Whisper WebUI – graficzny interfejs do transkrypcji

Krok 1: Wymagania wstępne

Krok 2: Instalacja Whisper WebUI

git clone https://github.com/aarnphm/whisper-webui.git
cd whisper-webui
pip install -r requirements.txt
python app.py

Krok 3: Uruchom aplikację

Po uruchomieniu wejdź w przeglądarce na: http://127.0.0.1:7860

Funkcje GUI:

    • Przeciąganie i upuszczanie plików
    • Wybór modelu (tiny, base, small, medium, large)
    • Obsługa języka polskiego
    • Eksport do .txt, .srt, .vtt

Alternatywa bez kodowania: Whisper Desktop GUI

Dla osób, które nie chcą używać terminala – gotowa aplikacja EXE:

Whisper Desktop GUI (GitHub)

Działa lokalnie, nie wymaga internetu, prosty interfejs do kliknięcia.

Jeśli zależy Ci na prywatności i pełnej kontroli nad transkrypcją, lokalne narzędzia są najlepszym wyborem. Dla geeków – terminal, dla wygodnych – GUI. Obie opcje działają offline i wspierają język polski. Większość popularnych firm oferujących transkrypcje i ocenę rozmów na centralach telefonicznych (komercyjne rozwiązanie) używają tego modelu językowego.

Rate this post

Autor

Dominik Piestrzyński

Specjalizuje się w działaniach SEO oraz wsparciu IT. Automatyzuje procesy i wykorzystuje technologie do poprawy wyników biznesowych w organizacjach. Od lat pracuje aktywnie w sektorze IT i przygotowuje strategie pomagające zwiększyć ruch organiczny na stronach. Rozwijam również środowiska automatyzacji o LLMy.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *


The reCAPTCHA verification period has expired. Please reload the page.