Dando clase con transcripción de voz a texto en directo y simultáneamente

No sé si me estoy precipitando o preparando para algo que no me hará falta utilizar. El lunes empiezan las clases en la universidad y he ideado una forma de dar una clase con ordenador, diapositivas y hablando, y que lo que vaya diciendo salga en la pantalla en texto. Creo que puede ser muy útil a personas con pérdida de audición y también por ejemplo a personas erasmus o que tienen dificultades con el español, o incluso personas que no perciben mi voz bien por la velocidad con la que hablo (algo que es más por mi culpa que otra cosa), etc. Lo bueno además es que todo el texto que sale en pantalla se puede copiar y pegar en un archivo odt o txt.

He probado varias alternativas: hice un script en python usando principalmente speech_recognition. Conectaba con Google para el voyce to text (con la API de Google Speech Recognition) y también lo probé con Vosk. Con Google funciona bien, si bien el texto se retarda 1 o 2 segundos, pero sin problemas. Con Vosk el texto que salía acertaba muy poco en correspondencia con lo que yo decía, y había que descargar un modelo de más de un giga.

Me he quedado con lo siguiente:

En el móvil uso la app de Google "Transcripción instantánea". En lo personal, me muevo bajo la máxima de usar Google lo menos posible. Incluso en cuanto a smartphones, tengo dos móviles: uno con android y otro con Lineage y sin las Gapps. Pero en lo laboral, no hay mucha escapatoria: la cuenta de mi universidad es de Google.
Mando mi móvil al ordenador de clase con scrcpy. Esto lo hago por cable y se pasa a gestionar el móvil desde el ordenador. Aparece una ventana en el ordenador con la pantalla del móvil. Para esto hay que habilitar opciones de desarrollador en el móvil y habilitar el debugger. Probé a mandar mi pantalla con ScreenStream, pero ahí dependía de que el ordenador y el móvil estuviesen conectados a la misma red, y con Eduroam no funciona y tenía que tirar de datos del móvil. Con el cable es más directo y no gasto datos de mi tarifa.
Teniendo eso, en una parte de la pantalla coloco las diapositivas y en la otra parte coloco la pantalla del móvil, y sale el texto de lo que voy diciendo. La app de Google permite guardar el historial hasta 3 días, y lo transcrito se puede copiar y pegar. De esta forma, se puede generar un texto de cada clase en txt, odt y ya luego pdf.

Hoy me he grabado un vídeo con OBS. En los ordenadores de la facultad hay Windows. Tenemos algún software como Koha que arranca virtualmente desde Linux, pero Linux no está instalado como tal más allá de la forma tipo máquina virtual. Yo muchas veces llevo mi portátil con Debian 12 + XFCE, sobre todo cuando hablo de sistemas operativos. Lo que sí que hay en la facultad es mucho software libre a nivel de programas.

El vídeo de muestra está en el siguiente enlace (es un recorte que no llega a dos minutos de un vídeo más largo. Se puede ver que la transcripción falla apenas con palabras de otros idiomas, concretamente con el nombre de apps y software. Por lo general, transcribe muy bien y muy rápido):

https://tubedu.org/w/9TVEL4xMiqd73zgFiqsSKq

Mi reto personal es conseguir lo mismo sin usar Google. Voy a estudiarlo. Será genial si alguien tiene un sistema ya (contacto: plrblog[at]pedrolr[dot]es)

Por último, no sé si me hará falta utilizarlo, pero quería anticiparme por si acaso. De cualquier forma, es buena idea para crear un texto de la clase. Esto se podría hacer igualmente con el script en Python con 1 o 2 segundos de retardo, pero eso daría igual.

plr blog

Pedro Lázaro Rodríguez

Dando clase con transcripción de voz a texto en directo y simultáneamente