4.2 KiB
¡Qué bueno que estés usando Tesseract OCR para extraer texto de imágenes! Para extraer texto de un video (transcribirlo), necesitas una herramienta que combine reconocimiento de voz (ASR - Automatic Speech Recognition) en lugar de OCR. Aquí tienes algunas opciones similares pero para audio/video:
1. Whisper (de OpenAI)
- Recomendado: Es uno de los mejores sistemas de transcripción de voz, gratuito y de código abierto.
- Funciona bien incluso con ruido de fondo y múltiples idiomas.
- Puedes usarlo localmente en WSL (requiere Python y algo de RAM).
- Cómo instalarlo:
pip install openai-whisper
Luego ejecutas:
whisper "tuvideo.mp4" --model medium --language Spanish
(Hay modelos más pequeños como tiny
, base
, small
si no tienes mucha RAM).
2. Vosk
- Alternativa ligera y offline, con modelos en español.
- Funciona bien en WSL/Linux.
- Ejemplo de uso:
Luego usa su API para transcribir audio extraído del video.pip install vosk
3. FFmpeg + Whisper/Vosk
- Primero extrae el audio del video con FFmpeg:
ffmpeg -i "tuvideo.mp4" -vn -ar 16000 -ac 1 "audio.wav"
- Luego procesas
audio.wav
con Whisper o Vosk.
4. Herramientas en línea (si prefieres no instalar nada)
- YouTube Studio (si subes el video a YouTube, genera automáticamente subtítulos).
- Otter.ai (gratis para videos cortos).
- Adobe Premiere Pro (de pago, pero muy preciso).
¿Qué elegir?
- Si quieres offline y potente: Whisper.
- Si necesitas liviano: Vosk.
- Si prefieres online: Otter.ai o YouTube.
¿Necesitas ayuda para configurar alguna en WSL? ¡Avísame! 🚀
El error que estás experimentando se debe a que Whisper no puede encontrar el archivo FFmpeg, que es una dependencia esencial para procesar archivos de audio/video. Aunque descargaste el modelo de Whisper correctamente (medium
), el problema está en la configuración del entorno.
Causa del error:
- FFmpeg no está instalado o no está en el PATH:
Whisper usaffmpeg
internamente para extraer el audio del video, pero no lo encuentra en tu sistema. - Problema con espacios en la ruta del archivo:
El nombre de tu video tiene espacios y caracteres especiales, lo que puede causar problemas en la interpretación de la ruta.
Soluciones:
1. Instalar FFmpeg y agregarlo al PATH:
- Descarga FFmpeg desde https://ffmpeg.org/download.html (versión "Windows Builds").
- Extrae el ZIP y copia la carpeta
ffmpeg-x.x.x-full_build\bin
a una ubicación fija (ej.C:\ffmpeg\bin
). - Agrega la ruta
C:\ffmpeg\bin
al PATH de Windows:- Ve a
Configuración > Sistema > Acerca de > Configuración avanzada del sistema > Variables de entorno
. - En
Variables del sistema
, editaPath
y agregaC:\ffmpeg\bin
.
- Ve a
- Reinicia la terminal o PowerShell.
2. Usar comillas y rutas cortas:
- Simplifica el nombre del archivo o usa comillas dobles para manejar espacios:
whisper ".\Primera Reunión.mp4" --model small --language Spanish
- O usa la ruta completa sin espacios:
whisper C:\ruta\corta\video.mp4 --model small --language Spanish
3. Probar con un modelo más pequeño:
- El modelo
medium
requiere mucho RAM/CPU. Si no tienes GPU, usasmall
obase
:whisper ".\video.mp4" --model small --language Spanish
4. Extraer el audio manualmente con FFmpeg:
Si persiste el error, extrae el audio primero:
ffmpeg -i "video.mp4" -vn -acodec pcm_s16le -ar 16000 -ac 1 audio.wav
Luego transcribe el archivo audio.wav
:
whisper audio.wav --model small --language Spanish
Verificación:
- Ejecuta en PowerShell:
ffmpeg -version
Si no da error, FFmpeg está correctamente instalado.
Si el problema continúa, dime si usas WSL o Windows nativo para ajustar la solución. ¡Podemos probar alternativas como Vosk o Whisper en Docker! 🛠️