Volvemos en 2025 con 5 secciones y 1 entrevista

Hemos vuelto, feliz año aunque sea casi primavera :P En esta ocasión contamos con 5 secciones para tratar como habitualmente diferentes temas de accesibilidad y FLOSS desde diferentes aristas.
00:00:00 Odisea en el ciberespacio, con David Marzal y Arturo Fernández (@arturofernandez@comunidad.nvda.es) de Gafotas, Cegatos y sus Aparatos.
00:13:43 Accesibilidad web, con Pablo Arias.
00:27:48 Clases con Pascal, con David Pacios.
00:41:49 Érase una vez, con Enrique Varela.
00:52:19 Diseño para todos, con Jonathan Chacón.
Transcripción en la web 👆, steno.fm o en estas apps.
Transcripción completa pinchando aquí
        
Y en 2025 seguimos con la sección de una odisea en el ciberespacio
y seguimos contando con nuestro David particular, David Marzal.
Hola, David.
Hola, buenas. Feliz año, aunque esté feo decirlo a estas alturas,
pero no habíamos aparecido por aquí hasta ahora.
Está un poco feo, pero feliz año.
Bueno, hoy contamos con un invitado especial, ¿verdad, David?
Sí, supongo que conoceréis de la última recomendación.
Pues hemos traído a Arturo Fernández,
que tiene un podcast que se llama,
a ver, que lo tengo por aquí,
Gafotas, cegatos y sus aparatos.
Que la verdad es que está muy bien, justo lo acababa de recomendar.
Y al nada, a la semana,
se han sacado un episodio sobre Home Assistant,
que es software libre.
Y entonces nos hemos traído a Arturo para que nos hable de él.
Buenas, Arturo.
Hola, hola. Muchas gracias por haberme invitado este rato.
Y bueno, tenéis un podcast genial.
Me he escuchado todos del tirón.
Y muchas gracias por la invitación.
Pero, David, era una excusa para hablar del podcast de Gafotas, ¿verdad?
Lo de Home Assistant es lo de menos.
Se han juntado dos círculos,
que son el software libre y ese podcast,
y hemos dicho, tenemos que aprovechar la oportunidad.
Aparte, Arturo es de los que están en Mastodon,
con lo cual es fácil de seguir.
Y yo tengo una duda.
Dime si es verdad o no.
Porque yo te he buscado en Mastodon y luego en Podcast Index.
Entonces, en Mastodon pone,
apasionado en la tecnología, domótica, accesibilidad,
y todo aquello que mejore la vida de las personas.
Y entonces, buscándote,
me sale que hay un podcast que se llama Ciegos por el Mundo.
O Ciegos en el Mundo.
¿Ese también es tuyo?
Sí, también, también. Ciegos en el Mundo.
También colaboro en una radio online
y también ahí intentamos hacer cositas.
Y ese es mucho más antiguo.
Ya vamos por la quinta temporada.
Y ahí vais un montón de programas publicados, ¿no?
170, decías, David.
Sí, un montón. Es más antiguo.
Y bueno, me ha servido también la parte técnica para ir mejorando.
Los primeros técnicamente son un poco más churritos.
Los últimos, pues va mejorando la edición.
Al principio grababa todo en una única pista.
Últimamente en pistas separadas para poderlo editar mejor.
Y bueno, pues también me sirve para ir aprendiendo y mejorando.
Estás metido en el mundo de la multipista.
Abandonalo rápidamente, Arturo.
Si quieres tener vida, abandonalo rápidamente.
Yo también he pasado por esa fase, pero acabo de dejarlo.
Sí, es una pasada porque te lleva tiempo
para aburrir todo el tiempo que quieras y más,
porque te lleva muchísimo tiempo editarlo así.
Bueno, y en Gafota tampoco va mal
porque lleváis 10 episodios,
pero más o menos publicáis cada 10 días, ¿no?
Sí, hasta ahora sí. Hasta ahora hemos cumplido.
Inicialmente pensábamos saber cada cuánto tiempo lo sacábamos.
7 nos parecía mucho todas las semanas.
Era un esfuerzo sobremano.
15 nos parecía casi un poco poco.
Y dijimos, bueno, pues ni para ti ni para mí, ni 7 ni 15.
Vamos a dejarlo en 10 por ahora, a ver qué tal.
Y de pronto vamos cumpliendo.
Oye, David, no podemos hablar mal de Gafotas
porque encima están colaborando gente que también colabora con nosotros,
como Jonathan Chacón y Enrique.
Entonces no podemos hablar mal de ellos, tenemos que hablar bien.
Y aparte es que ellos se explayan
porque nosotros hacemos secciones que son más o menos cortas,
pero ellos hablan entre una hora y casi dos horas en alguno.
Entonces hay 1,40 creo que es lo máximo que yo he visto, 1,41.
O sea que ahí se habla con calma y es casi que se cae la enciclopedia
y hay un nivel de información que es apasionante.
Era un poco la idea de este podcast, ¿no?
Queríamos hacer un podcast primero que nos sirviera a nosotros,
lo que a nosotros nos gustaría que hubiera algo reflexivo,
tranquilo, sosegado.
Porque últimamente parece que en los podcasts es a ver quién es el primero
en dar la última noticia de actualidad y de prisa, corriendo, no sé qué.
Nosotros queremos algo más tranquilo, una charla, una tertulia sobre un tema,
sacar un tema y traer algún invitado que supiera de ese tema
y estar un rato sin prisa.
Eso, una hora, hora y media, lo que haga falta.
Entendemos que el que no le interese ese tema, pues que no lo escuche,
que no es obligatorio, que se lo salte y ya está.
Y al que le interese, pues probablemente se lo haga corto, ¿no?
Porque es la idea, hablar tranquilamente, sosegadamente
sobre un tema dándole todos los puntos de vista que podamos en ese momento.
Bueno David, vamos con tu rock y nos quedamos sin tiempo.
Claro, en principio hemos venido a hablar también de Home Assistant
porque yo he visto que ahí llevasteis un experto,
alguien que está súper puesto,
pero tú también le estás pegando caña a Home Assistant.
Para hacer una preview, un teaser de lo que se pueden encontrar en vuestro episodio,
tú más o menos, ¿para qué estás usando Home Assistant?
Home Assistant es una solución domótica, es un puente, un bridge,
es la central domótica de código libre, Open Source y demás.
Y pues la idea es que sea el centro del hogar,
que todos los cacharritos, aparatitos que podamos tener, que se conecten a ese
y que ahí es donde se centralizan todas las automatizaciones, ¿no?
Muchas veces nos pasa que cada marca quiere un poco,
estamos un poco en la época del Spectrum, Amstrad, Commodore,
que cada uno es un ecosistema cerrado y no son compatibles entre sí.
Y la idea de Home Assistant es que todo se puede conectar ahí,
que puedas pulsar un botón de Philips
y puedas encender una lámpara de Xiaomi
o que te diga un mensaje mediante uno de los asistentes de voz, ¿no?
Todo con diferentes marcas y diferentes aparatos
que se puedan entender entre sí, ¿no?
Que es el principal problema, que se encontró el creador,
el Paul, con un apellido impronunciable,
que cuando creó el Home Assistant, pues que se encontró con este problema, ¿no?
Que los diferentes dispositivos domáticos no eran compatibles entre sí,
ni podían serlo. Y él quería algo universal,
que hiciera todo, que todos los aparatitos se pudieran agarrar todos entre todos.
Pero Arturo, danos algún ejemplo de qué es lo que tienes automatizado tú en casa.
Pues tengo por aquí cosillas, a ver, por ejemplo.
Tengo un cargador de pilas,
accesible, entre comillas.
Tengo un cargador de pilas, bueno, tengo una base que es un cargador de pilas
y una base con puertos en micro USB, USB-C y tal,
pues para cargar diferentes baterías, el powerbank,
todos estos aparatitos que hay que cargar, ¿no?
Y cuando los pones a cargar, pues nunca sabes cuándo han terminado de cargar.
Y normalmente te lo ponen en una pantalla
con LED o con indicaciones lumínicas o lo que sea, ¿no?
En mi caso, pues lo tengo puesto a un enchufe inteligente,
entonces este enchufe, en todo momento, mide el consumo instantáneo que tiene.
Y cuando baja por debajo de una determinada cantidad,
primero o la primera vez, hay que ver un poco
el consumo que tiene esa powerbank o ese dispositivo,
porque no todos son iguales.
La primera vez, pues miras a ver cuándo han terminado de cargar
y se pone ya en stand-by, pues el consumo es de 0,20, por ejemplo.
Pues te creas una automatización que cuando esté por debajo de 0,40,
más de dos minutos, pues que te mande una notificación al móvil
y que te avise por los altavoces inteligentes de que ya se ha terminado de cargar.
Ajá, muy interesante.
Y yo aparte creo que escuché,
lo que pasa es que ya conforme pasan los días mezclo y ya no sé quién dijo qué,
pero me suena que dijiste subir y bajar persiana o toldor,
control de agua, lavadoras...
Las persianas llevan un poco más de instalación y eso no lo tengo todavía,
pero sí que tengo, por ejemplo, sensores de agua, sensores de inundación,
eso sí que los tengo y a veces alguna música ha saltado
y a lo mejor una gotita que se cae por debajo del fregadero o lo que sea,
pues ha hecho que se active y me ha llegado la notificación.
Por ejemplo, sensores de movimiento también,
pues para entrar al baño o en el pasillo,
pues cuando entras te enciende la luz y cuando sales se apaga automáticamente
y así no te dejas tampoco luces encendidas.
La imaginación no es el único límite, es la imaginación.
Aquí se puede hacer todo lo que puedas imaginar,
se puede hacer de una forma o de otra.
A veces hay que sentarse un poco a pensar a ver qué necesito y cómo lo puedo hacer.
También tengo, por ejemplo, muchas cosas que son casi transparentes.
La idea es que no haya que estar dándole voces a la casa ni cosas de estas,
sino que ya sola se vaya haciendo lo que tiene que hacer.
Tengo otro enchufe inteligente en la lavadora y mediante el consumo
puedes saber si en ese momento está centrifugando,
si ya ha terminado de lavar, en qué punto de lavado se encuentra
y cuando ha terminado de lavar igual te puede mandar una notificación al móvil,
decírtelo por los asistentes de voz, hacer determinadas automatizaciones.
Yo también tengo algún compañero que con los sensores de presencia
y con el tema de la calefacción consigue automatizar que el sistema sea inteligente
y saber que la gente está en esta habitación,
pues conecta la calefacción solo para esa habitación y la mantiene ahí.
Sí, también se podría hacer.
¿Tú usas Home Assistant casero hecho por ti o usas Home Assistant Green,
que tengo entendido que es un aparato que te lo venden ellos directamente
listo para funcionar?
Yo estoy ahí a medias, porque el Home Assistant se puede instalar
de muchísimas formas diferentes, dependiendo de los conocimientos,
de lo que quieras, y cada caso es un mundo
y se puede personalizar completamente.
Yo lo tengo en una máquina virtual con MWare,
lo tengo ahí en una máquina virtual.
Yo creo que se lo he escuchado alguna vez a Emilcar,
que para no complicarse mucho la cabeza, como a él no le gusta,
él se compró directamente el aparato y que funcionara.
Sí, en muchos casos es la opción más práctica y más inmediata,
que compras el aparatito que ya está todo ahí instalado
y simplemente enchufar y listo.
Y desde esa opción hasta instalártelo tú en una Raspberry Pi
y descargarte la imagen y grabarla en una microSD
y puedes desplazarlo tú todo,
hasta una solución intermedia como la de las máquinas virtuales
o una solución ya hecha como la Green.
A mí la sensación que me da es que esto es un mundo de posibilidades,
que si te gusta jugar puedes hacer lo que quieras tú
o que incluso sería posible contratar a alguien
para decirle, mira, instálame esto,
ya de paso que se encargue la electricidad para no tener que arriesgarte
y quiero que me hagas esto y esto y esto.
Y que seguramente económicamente sea más barato
que las soluciones domóticas profesionales, por así decirlo,
que lo mismo cuestan un ojo de la cara.
No sé qué decir, tiene un poco de todo,
porque hay cosas que...
Yo creo que al final es parecido a las soluciones comerciales,
no en toda la parte económica,
pero tiene cosas que...
Por ejemplo, a veces cuando te compras un dispositivo o un sensor
o no sé qué de una marca conocida
y que a lo mejor sea compatible con HomeKit, por ejemplo,
que ahora mismo probablemente sea el sistema más caro,
pues uno piensa que esto es caro de la caja,
enchufarlo y esto va a funcionar a la primera,
y no siempre es así.
Hay veces que ni siquiera alguien no te le manda las instrucciones,
es capaz de ponerlo en marcha,
que tienes que buscar a alguien que te ayude,
algún amigo en alguna página o lo que sea, en algún foro,
y a veces no es tan fácil.
Y con Home Assistant es parecido.
Tampoco es que...
Hay veces que es fácil y otras veces que no lo es tanto,
depende de cada caso y de cada circunstancia.
También necesita cierto mantenimiento.
También es curioso, es lo bueno y lo malo.
Yo creo que para instalar Home Assistant,
sí, es cierto que hace falta ser un poco cacharrero.
No sé si friki, tampoco haría falta llegar tanto,
pero cacharrero y saber lo que hay de tres entre manos, un poco, sí.
Porque hay veces que hago una actualización, por ejemplo,
hace poco han actualizado el complemento de CB2MQTT,
que no sé por qué es esto, no pasa nada,
pero es una parte del programa que lo han actualizado recientemente
y hay cosas que a mí me han dejado de funcionar.
Y de repente dices aquí qué ha roto, qué ha tocado, qué ha pasado.
Claro, si no sabes un poco lo que hay de tres entre manos
o cómo funciona, lo que tienes, lo que hace, lo que no hace y cómo lo hace,
pues es difícil que lo puedas llegar a arreglar.
Y tú para eso estabas en un grupo, ¿no?
Es como que lo trajiste al encargado a vuestro podcast,
que no solo da mucha información,
sino que aparte es como que tiene un grupo de soporte, por así decirlo, ¿no?
Sí, por un lado tenemos el grupo y todo, así más de ciegos.
Tenemos un grupo de Whatsapp, así más de andar por casa.
Y luego también trajimos a este episodio del podcast,
trajimos a Tito de Aguacatec, que es una página web, aguacatec.es.
Es un foro que tiene un montón de guías.
Además, muy interesante porque es muy accesible.
Está todo muy bien explicado en texto.
No es lo típico de configurar la pantalla
tal y como se muestra en la siguiente pantalla a todos puntos,
estas cosas que no son muy accesibles, sino que cuenta todo muy bien en texto.
Además, también tienen un grupo en Telegram y es una comunidad muy activa.
Muy bien, pues yo más o menos eso era lo que quería que la gente escuchara,
que es que tienen un podcast, que es DegaFotas,
donde tienen un pedazo de episodio largo donde enterarse muy bien del proyecto,
que se suscriban a vuestro podcast para poder ir viendo otros temas también muy profundos
y que vieran que hay comunidad en esta rama de la tecnología,
del software libre y la accesibilidad.
Sí, el podcast es DegaFotas, Cegatos y sus aparatos.
Estamos en todas las plataformas.
Y como no puede ser menos, vamos a seguir también en la línea del Open Source y código libre.
Tenemos ahí varios episodios ya aprobados incluso y queremos sacar más cosas.
Y aparte estáis por Mastodon, o sea que sois fáciles de encontrar.
Sí, Mastodon, correo electrónico, Whatsapp, de cualquier forma.
Encantado, gracias por pasarte por aquí.
Disfrutamos mucho vuestros episodios, también escuchando a los compañeros
y esperamos traerte en el futuro, que será buena señal,
porque será que vas avanzando en la tecnología del software libre ayudando a las personas.
Muchas gracias. Nosotros también escuchamos vuestro podcast, que me encanta.
Y eso, que genial y que estamos en el mismo barco y fenomenal.
Todo lo que sube, bienvenido sea.
Y hasta aquí la sección de... ¿Cómo es la sección, David?
Una odisea en el ciberespacio con David Marzal.
Es que he cerrado la chuleta.
Ya está aquí la sección. Venga, hasta el próximo programa.
Hasta luego.
Adiós.
Y en la sección de accesibilidad web encontramos, como siempre, con Pablo Arias. Hola, Pablo.
Hola, muy buenas, Jorge. ¿Qué tal? ¿Cómo estás?
Muy bien. Hoy, ¿qué nos traes?
Pues mira, como siempre, tema accesibilidad web y en este caso quiero hablaros nuevamente
de los errores que más me encuentro en las páginas web que veo por ahí.
Entonces, para tratar de que los evitemos, vamos a recalcarlos un poquito y sus soluciones.
Muy bien, vamos con el primero.
Pues uno de los que más me encuentro es el tema de los encabezados mal numerados.
Por ejemplo, todos sabemos que en cada página de nuestro sitio web debemos tener un título principal,
que es el título de nivel 1 o en HTML H1.
Entonces, ese título tiene que ser el que resuma el contenido de esta página.
Al igual que también hay un, llamémosle, metatítulo, el que sale luego en los buscadores,
el que sale en el nombre de la pestaña y tal, que pueden ser iguales, pero bueno,
normalmente por SEO la gente suele poner algo diferente, pero el título, el H1 de la página,
tiene que estar siempre presente y tiene que ser un resumen de lo que contiene.
Luego, no debemos utilizar otros encabezados que los H2 para separar, digamos,
las diferentes secciones de la página.
No debemos utilizar, por ejemplo, un H3 o un H4, perdón, antes de utilizar un H2.
Los H2, digamos, que son las secciones en las que está dividida esa página.
Y luego, si a su vez ese H2 está dividido, o sea,
esa sección de la página está dividida en otras secciones,
pues utilizamos el encabezado de nivel 3, el H3.
Y así sucesivamente, si ese encabezado de nivel 3, a su vez, dentro,
tiene como subsecciones, pues utilizaremos el encabezado de nivel 4.
Pero no utilizaremos después de un H1 o después de un H2,
pues un encabezado de nivel 4 porque es el que me gusta más su diseño.
No, no es por diseño.
El diseño se le da con CSS.
Tenemos que crear una estructura semántica lógica.
Y esto ya lo habíamos comentado en otro episodio.
Pero, bueno, me gusta recalcarlo porque veo muy a menudo,
ya te digo, este error es uno de los más comunes.
Y como ya hemos dicho también en otras ocasiones,
el SEO, el posicionamiento en buscadores,
esta optimización que hacemos para los buscadores,
está muy relacionada con la accesibilidad.
Entonces, cuanto más accesible sea nuestra web,
a priori, más optimizada para SEO va a estar la web.
Por tanto, hagamos un esfuerzo y ya matamos dos pájaros un tiro.
Además, lo que también comentamos en más ocasiones,
sabiendo cómo se hacen las cosas, te cuesta lo mismo hacerlas mal que
hacerlas bien, prácticamente.
Entonces, más vale hacerlas bien a la primera que nos ahorrará
muchísimo tiempo.
Vale, vamos con el segundo de los errores.
Justo.
Otro error que estoy viendo últimamente y que se suele dar
pues con este tipo de constructores de páginas que
existen es que te modifican el scroll.
¿Qué quiero decir con esto?
Yo le doy a la rueda del ratón en el ordenador o en el móvil
muevo la pantalla para desplazarla hacia abajo y ver
los contenidos de más abajo y es como que modifican su
comportamiento.
Cuando yo le doy una vez a la rueda del ratón,
digamos un clic, no un clic, sino, bueno,
la rueda del ratón sabéis que tiene como unos topes.
Entonces, tú sabes que cuando vas de un tope a otro,
pues a lo mejor te baja 4 líneas, ¿no?
Estás acostumbrado a eso.
Sin embargo, hay webs que modifican esto.
Y en vez de bajarte 4 líneas, pues te muestran el siguiente
bloque.
Entonces, tú que querías darle un poquito para abajo pero no
mucho, a lo mejor le diste 2, 3 toques y te avanzó 2 o 3
secciones que es muchísimo más de lo que querías.
O al revés, quieres avanzar bastante y no avanza lo
suficiente porque no hace caso en realidad a los toques de tu
rueda del ratón y a lo que estás habituado.
Lo mismo el móvil, es que tú haces un pequeño scroll y él
te hace el scroll que le da la gana porque decidió hacerlo
así el constructor de páginas.
Entonces, yo no lo recomiendo porque nos modifica el
comportamiento habitual de nuestro navegador y se hace
complicado luego saber dónde estás y, bueno,
es incómodo en general.
¿Más errores?
Pues un error que, bueno, que parece una estupidez pero que
ayuda a que se comprendan mejor los textos y que, además,
la gente no pierda la confianza en ti,
son las faltas de ortografía.
Veo que en las webs hay bastantes faltas de ortografía,
no en todas, evidentemente.
Hay gente que la cuida muchísimo,
espero que tú seas uno de ellos, querido oyente.
Y, bueno, pues espero que todo el mundo cuide la ortografía
porque tú te estás currando un contenido súper elaborado donde
quieres informar sobre un determinado asunto y con faltas
de ortografía, pues, pierdes credibilidad.
Ya no solo eso, sino que, además,
haces que la gente te entienda peor.
Una simple tilde que no ponemos, pues,
a veces nos hace que comprendamos peor el texto.
Entonces, esto es muy habitual.
Ya no hablemos de comas o puntos o similares que,
si no están bien puestos, pues, pierdes completamente el
significado de la frase y tienes que volver a leerla y, a veces,
no llega con una sola vez.
Por lo tanto, suelo recomendar, cuando acabemos de escribir un
texto, volver a leerlo y hacerle caso también a los correctores
ortográficos y demás para tratar de, bueno, pues,
que no incluyamos faltas de ortografía.
¿Algún otro error?
Sí, hay otro error que veo bastante y es el tema de que
abrimos generalmente los enlaces en nuevas ventanas o nuevas
pestañas.
Normalmente ahora los navegadores los abren en nuevas
pestañas.
Pero veo que se utiliza bastante, sobre todo,
bueno, pues, este enlace como quiero que vuelvan a esta
página luego al terminar de navegar por esa,
ya sea dentro de la nuestra o en exteriores.
Es decir, cuando llevas a los usuarios,
a los navegantes de tu web, los llevas a una página externa,
pues, dices, bueno, esto la voy a poner en una nueva ventana o
nueva pestaña.
Bien, procura avisar previamente,
pero incluso procura evitar que los enlaces se abran en una
nueva pestaña.
¿Por qué?
Porque no todo el mundo se ubica correctamente cuando lo abres en
una nueva ventana o pestaña.
Y realmente la gente tiene dominado lo que es el botón de
volver atrás.
Entonces, si la persona se fue a una página a la que no quería
ir o quiere volver a la tuya, basta con darle al botón atrás
y ya volverá a estar donde realmente quería.
Entonces, evitemos los enlaces en nuevas ventanas o pestañas.
Y si no, al menos avisemos de que eso va a suceder.
Mención especial para los pop-ups.
Sí, efectivamente.
Los pop-ups también son algo muy intrusivo.
Esto creo que ya lo habíamos comentado también en otros
episodios, pero ya que estamos hablando de errores típicos,
quizá ahora se usen un poco menos,
pero siguen todavía de moda.
Y los pop-ups no es que no se puedan usar.
Está bien usarlos, pero también avisando al usuario de que eso
se va a abrir en un pop-up.
Ya no hace falta en este caso que avisemos, digamos,
en el propio texto, sino que tenga su rol.
Pero el caso es que un usuario que está siguiendo la
navegación de la lectura de tus textos y pincha sobre un botón,
vamos a suponer, un enlace, y en vez de navegar a otra página,
se le abre un pop-up, una ventana emergente o como
queramos denominarlo, sí, un cuadrito donde te muestra nueva
información, muchas veces pierdes la navegación por
teclado porque ya no sigue correctamente esa navegación.
Tú le das al tabulador y ya no está continuando donde debería
el tabulador el foco.
Entonces, también a veces se hace difícil cerrar ese pop-up.
Muchísimas veces el botón de cerrarlo no está del todo
visible, se camufla con el fondo.
Esto pasa mucho también.
Entonces, cuidado con estas cosas porque son muy intrusivos,
son molestos y ya no solo eso, sino que no son accesibles.
Por lo tanto, mucho cuidado con este tema.
Luego, muy relacionado también con este botón que decíamos de
cerrar que no se ve bien, esto pasa mucho también con los
textos.
Los textos, que ya lo comentamos también en su momento,
es importante que el texto tenga suficiente contraste.
Y esto es algo que lleva pasando años,
que ponemos a lo mejor un fondo que tiene un color y un texto
que tiene otro color, pero entre ellos no hay suficiente
contraste.
Y esto pasa mucho cuando tenemos una imagen de fondo.
Y no pasa a lo largo de la imagen,
pero supongamos que tenemos una imagen que en general es
oscura, pero tiene partes que son claras.
Entonces, nosotros imaginemos que hemos puesto un texto
blanco o clarito y resulta que en esas partes con fondo blanco
no se lee bien el texto.
Esto pasa mucho.
¿Qué pasa?
Que a lo mejor en tu dispositivo en el que estás desarrollando,
ese texto justo no se mete dentro de la parte blanca o
clara de la imagen y, por tanto, se lee correctamente.
Pero en cuanto cambiamos de dispositivo, por ejemplo,
nos vamos a una tableta o a un móvil,
a lo mejor sí ya esa imagen está,
el texto blanco más de fondo de nuestro texto, perdón,
la imagen con fondo blanco está de fondo con nuestro texto
blanco y, claro, no se lee bien.
No se lee bien.
Esto puede pasar al revés también,
que nuestra imagen sea muy clara,
nosotros hayamos elegido un texto negro y que, bueno,
pues que haya partes de la imagen que sean oscuras y, por tanto,
lo mismo, no hay suficiente contraste para que se vea bien.
Por tanto, mucho cuidado con los textos y sus contrastes y,
sobre todo, si utilizas imágenes de fondo.
Hay una solución para esto también que es, bueno,
si tu imagen es mayormente oscura o quieres utilizar textos
claros, pues intenta ponerle sobre la imagen una especie de
cortinilla que la oscurezca.
Y así sabes que siempre vas a tener un contraste mínimo.
Y te doy también una herramienta que es muy útil,
que está en casi todos los navegadores,
que es en la herramienta para desarrolladores que sale cuando
pulsas la tecla F12, tienes una pestaña de accesibilidad.
Y en ella, cuando tienes para elegir un elemento de la página,
pinchas sobre él, imaginemos un texto que quieres comprobar,
el contraste, y te va diciendo si ese texto tiene suficiente
contraste en función del fondo que tenga.
¿Qué pasa?
Que esto no les es fácil de calcular a los navegadores si
tenemos imágenes de fondo.
Si es un fondo plano o si es un degradado o similares,
en principio no hay problema.
Pero si tienes una imagen, sí que ya les puede costar más
decirte si ese texto tiene suficiente contraste.
Pero para los textos habituales que tienes un color de fondo
plano y un texto por encima, es muy habitual que te diga que
tienes problemas para leer ese texto que, a priori,
a ti no te pasa.
Que tú dices, yo es que en mi monitor lo veo perfectamente.
Ya, pero si luego te vas a un teléfono móvil y te pones al
sol y no sé qué, pues a lo mejor ya no eres capaz de leer ese
texto porque no tiene suficiente contraste.
O pones el móvil en modo nocturno o en blanco y negro,
como muchos móviles ya tienen estas opciones,
pues no vas a poder leer correctamente el texto.
Entonces, intenta que siempre tenga suficiente contraste.
Incluso esta herramienta te permite ver qué nivel de
contraste tienes.
Si te dice, mira, con este color de fondo y este color de texto,
tu accesibilidad, tu contraste, es de una A.
Por lo tanto, no es suficiente.
Es accesible, pero no lo suficiente.
El mínimo debería ser doble A.
Esto ya lo habíamos comentado en otros capítulos, pero, bueno,
sabemos que hay 3 niveles de accesibilidad.
A, doble A y triple A.
El mínimo es A.
El que debemos respetar en España para administraciones
públicas y empresas que dependan de la administración
pública o que facture más de 6 millones de euros,
si no recuerdo mal, doble A.
Y triple A ya es para nota.
O sea, si puedes, triple A.
Bueno, el navegador te indica el contraste que estás utilizando
y te dice si es A, doble A o triple A o ninguna de ellas.
Entonces, trata de siempre al menos doble A.
Y, bueno, ya por último, porque podríamos alargarnos infinito
en este tema de fallos comunes, porque al final siempre hay
cosas que se pueden encontrar, pero cuida la velocidad de
carga de tu página y trata de que sea rápida.
Y para esto, bueno, ya sabes que hay decenas de cositas en las
que te tienes que fijar, pues temas de tamaño de imágenes y
su peso, temas de la cantidad de código que cargas, bueno,
un montón de cosas en las que puedes fijarte para acelerar la
velocidad de carga y que, bueno, la experiencia de usuario sea
buena, que al final repercute, como te decía antes,
en la accesibilidad, pero a mayores en el posicionamiento
en buscadores y, bueno, un montón de cosas.
Por lo tanto, cuidemos esta parte.
Pues hasta aquí la sección de accesibilidad web y la sección
de clases con Pascal, contamos con David Pazios.
Hola, David.
Hola, ¿qué tal?
Pues muy buenas y bienvenidas a esta pequeña sección de clases
con Pascal, como habéis dicho.
Y, bueno, yo soy el doctor David Pazios,
que normalmente me conocen como Pascal y, bueno,
hoy es algo más personal porque vengo a compartir una pequeña
aplicación que he fabricado y una reflexión personal que me
surgió el año pasado y que ha hecho que a día de hoy todavía
no haya entregado este trabajo.
Este proyecto me resultó muy difícil de abordar debido a los
aspectos éticos y morales que implicaba y que, pues, eso,
hasta el día de hoy los tengo y me impiden entregarlo
oficialmente por el temor que me genera a las consecuencias.
Para ponernos en contexto y sobre todo para evitar falsas
expectativas, voy a explicar que lo que he creado es una
herramienta similar a lo que se ha visto, por ejemplo,
en la gala de los Goya.
Cuando estuvo hablando, creo que fue Richard Gere, pues,
había un sistema que generaba subtítulos en tiempo real e
incluso realizaba traducciones simultáneas.
Pues, he fabricado lo mismo, solo que un poquito más rápido y
con menos coste, en plan, lo he hecho gratis, como siempre,
y libre.
Para lograr esto, yo, bueno, pues,
he utilizado herramientas y técnicas de aprendizaje
automático o de inteligencia artificial también.
Bueno, inteligencia artificial.
Voy a definir un poquillo porque, bueno,
muchos palabras informáticos hoy,
pero quiero que más o menos se entere la gente de todo porque
en informática es lo que tiene la sobrevía de yo me lo sé todo
y, por lo tanto, es súper sencillo, pero quiero explicarlo.
El aprendizaje automático es un campo de informática que nos
permite usar ordenadores para que las computadoras aprendan
de los datos sin ser programadas explícitamente para cada tarea.
Y la inteligencia artificial, por contra,
en un sentido amplio, se refiere a la capacidad de la
máquina para imitar inteligencia humana.
Esto tiene un montón de asteriscos,
pero para reducirlo a lo absurdo es así.
Quiero contarles con esto todo el viaje que he vivido para
crear esta aplicación, cómo la he construido,
los dilemas éticos y morales a los que me enfrento
actualmente, porque son en gran parte la razón,
literalmente, por la cual me siento de alguna manera como una
mala persona habiendo fabricado esto.
Recordad que oficialmente colaboro con la oficina de
software libre y tecnologías abiertas de la Universidad
Complutense Madrid.
Y todo el trabajo que he realizado para esta oficina ha
sido siempre libre y gratuito.
Como trabajador público, yo considero que mi labor no
debería tener ningún tipo de costo para la comunidad,
que creo que mi conocimiento debe estar al alcance de
todos, ya que, en cierto modo, lo ha pagado la sociedad.
Y siento que todo lo que yo puedo ofrecer es poco.
Mis principales limitaciones son la salud y el tiempo,
que normalmente está relacionado con la salud.
Voy a contar que el año pasado, mientras vivía en Roma,
dando allí clases, estancia, nos pusimos en contacto con la
oficina de diversidad de la Universidad Complutense Madrid
debido a unos cursos que querían impartir con motivos de
discapacidad, evidentemente.
Y tras conocerme y entablar una amistad bastante profunda,
con el tiempo surgió esta conversación sobre la
dificultad de contratar personal para eventos que realizar una
traducción simultánea o incluso tener una persona contratada
permanentemente que tradujera o transcribiera, mejor dicho,
a lenguas de signos, adaptando los gestos al audio.
Entonces fue cuando mencioné una herramienta que yo había
estado desarrollando desde la época de la pandemia,
inicialmente solo para subtitular mis propios vídeos.
Me pareció una idea divertida e inclusiva en su momento,
pero su funcionamiento era bastante deficiente en aquel
entonces.
Hay que tener en cuenta que yo empecé a crear esto siendo
estudiante durante la pandemia, o sea, aún estando en la
carrera.
Lo he ido mejorando durante cinco años,
a lo largo de todo el máster, todo el doctorado y ahora
siendo profesor y como doctor, pues con mucho más
conocimiento, le he metido de todo.
En aquella época, pues la inteligencia artificial como
tal, o sea, tal y como lo conocemos hoy,
no estaba tan extendida, o sea, no había estos lenguajes de
modelos estilo chat GPT al alcance del público.
Para su momento funcionaba sorprendentemente bien,
considerando mis limitaciones de conocimientos en cuarto de
carrera.
Sin embargo, era evidente que necesitaba mejoras
significativas para que fueran realmente útiles, o sea,
no era viable ejecutar una herramienta en un ordenador que
en su momento tenía un costo muy elevado, o sea,
no pues tener un ordenador de 3,000 euros corriendo esto
constantemente.
Después de varias conversaciones con la oficina de diversidad,
les planteamos la posibilidad de mejorar y adaptar la herramienta
a sus necesidades.
Subtítulos con diferentes fuentes,
fondos de alto contraste y un largo etcétera.
Todo esto teniendo en cuenta de que nuestros recursos son
limitados y gratuitos, o sea, lo hago con lo que tengo en
casa, digámoslo así.
Y aquí comienzan los desafíos.
No tenía ningún problema en crear un sistema de
reconocimiento del lenguaje.
Yo podría usar, por ejemplo, sistemas matriciales o
vectoriales como los que ofrece CUDA.
En lugar de procesar un solo dato a la vez,
como un procesador tradicional, las gráficas con CUDA,
las que son de NVIDIA normalmente,
pueden procesar miles de datos simultáneamente.
Lo que las hace ideales para tareas como análisis de
lenguaje, donde se deben de analizar grandes cantidades de
información.
Eso está súper genial.
Pero, claro, las gráficas estas son carísimas.
Y digamos que, en esencia, este sistema lo que hace es
reconocer palabras basándose en sílabas que pronunciamos.
Son algoritmos que ya existen, ojo.
Yo no tuve que inventar nada nuevo, pero sí, evidentemente,
optimizarlos para la tarjeta gráfica que yo tenía en casa o
que podía entender a lo mejor en estas unidades.
El problema es que sigue siendo algo extremadamente caro.
Pero, bueno, me puse manos a las obras.
Tras varios meses de trabajo, logré crear el sistema.
Funcionaba genial, pero consumía una gran cantidad de
memoria RAM, de recursos de la tarjeta gráfica y el
porcentaje de acierto del reconocimiento de palabras era
increíble.
O sea, era de más del 90%.
Superaba a lo que hemos visto incluso en la gala de los
Goya, lo cual no estaba nada mal.
Pero, eso sí, necesitaba mayor precisión y, sobre todo,
especialmente para la traducción y transcripción
simultáneas.
Y aquí es donde entran en juego los famosos modelos del
lenguaje, como el chat GPT.
Un modelo de lenguaje es una especie como de inteligencia
artificial que se ha entrenado para entender y generar texto.
Fin.
Son la base de muchas aplicaciones que tenemos hoy en
día, como los chatbots o traductores simultáneos.
Mi intención era evitar el uso de modelos privativos,
o sea, de empresas privadas.
Y mucho menos de pago, principalmente porque no gano
mucho dinero.
Y, bueno, todo este trabajo lo estaba realizando en casa,
ya sabéis, de forma gratuita, libre,
para mi propia universidad.
O sea, entonces, bueno, aquí es donde empiezan mis dudas
morales sobre el uso de la inteligencia artificial.
Constantemente leía insultos, atrocidades, amenazas e incluso
boicots contra empresas o sitios que utilizaban inteligencia
artificial para cualquier fin.
Era como, bueno, esto lleva existiendo muchos años.
Otra cosa es que los modelos de lenguaje sean relativamente
nuevos, pero esto lleva existiendo muchos años.
Ver a personas expresar odio hacia una tecnología a través
de la propia tecnología me generaba mucho temor.
Además, estaba creando yo algo que,
si bien no pretendía reemplazar el trabajo de nadie,
en un escenario ideal, si tuviéramos el dinero para pagar
a todos los transcriptores del mundo lo haríamos,
pero necesitamos una alternativa más económica.
Realmente, porque no tenemos mucho dinero.
Me enfrentaba al dilema de que no solo con la inteligencia
artificial, sino que con mis propios conocimientos podría
quitarle el trabajo a alguien, eliminar un puesto o algo
similar.
Y eso me hacía sentir muy, muy mal.
A pesar de mis dudas, continué con el desarrollo e intenté
utilizar modelos de lenguaje de HackingFace.
Para entendernos, HackingFace es como una súper biblioteca en
línea con muchos modelos de lenguajes preentrenados que es
bastante similar a HGPT, pero con la diferencia de que muchos
modelos en HackingFace son de código abierto.
Por lo cual, significa que podemos ver cómo han sido
entrenados, ver los datos que tienen e incluso reentrenarlos
con mis propios datos para adaptarlos a mis necesidades,
lo cual está súper guay.
Porque así puedo 100% usar datos que no haya robado a nadie.
Tuve que reentrenar estos modelos.
Utilice palabras que yo mismo pronunciaba,
algo de castellano antiguo, que conten algunos libros de los
que yo tenía.
Y elimine parámetros que causaban una cosa que se llama
inserción de publicidad.
El objetivo era evitar que apareciera cualquier tipo de
anuncio cuando te quedas en silencio.
Si usáis estos modelos de HackingFace tal cual,
el de castellano cuando te quedas callado,
te lo intenta autocompletar con anuncios por algún motivo.
Está guay, pero bueno.
Después de reentrenar estos modelos y de volver a ejecutar
el sistema, además de consumir muchos recursos,
noté un problema muy importante, la latencia.
Yo hablaba y las palabras aparecían en pantalla 10 o 15
segundos después, que es lo que le pasó a Radio Televisión
Española cuando estaba emitiendo la gala de los Goya.
Esto es un problema muy común de los sistemas de reconocimiento
de voz y de transcripción en tiempo real.
Muchos de estos sistemas, como literalmente este que acabamos
de comentar de la gala, funcionan de esta manera que voy
a comentar.
Primero, hace una captura del audio.
El sistema graba un fragmento del audio, por ejemplo,
como lo que estoy diciendo ahora.
Luego, hace un procesamiento por lotes, que llamamos batching.
Este fragmento de audio se introduce en un lote y después
se hace una transcripción.
El modelo del lenguaje procesa el lote y genera transcripción.
Este proceso no es instantáneo.
Puede tardar muchos segundos, dependiendo del tamaño del lote
y puedes hacerlo más o menos rápido, por ejemplo,
si tienes un mejor o peor ordenador.
Esto no significa que la transcripción sea mala.
Mucha gente que yo vi en redes se quejó de esto en la gala de
Los Goya, pero en realidad esta tecnología funciona así.
Es tal cual.
Funciona perfecta.
Lo realmente difícil es lograr una transcripción verdaderamente
en tiempo real.
Después de desarrollar este sistema,
ya para terminar más o menos, me di cuenta del gasto elevado de
recursos y me di cuenta delitamente de que no podía
presentarme en la oficina y decirles, hola,
¿recuerdan a la persona que tienen contratada?
Pues despídanla y usen literalmente este dinero para
comprar un ordenador carísimo.
No puedo hacer esto.
Esto no se puede hacer.
No solo por el impacto del empleo de esta persona,
sino que esto supone que esto tenía que ser libre y gratuito,
no consumir un montón de recursos públicos.
Entonces aquí fue donde consideré la limitación de
recursos y de dinero.
Y pensé, si no podemos ejecutarlo localmente,
puedo subir el modelo a una nube, al cloud,
o incluso a mi propio ordenador y que se acceda a través de
internet.
Y de esa forma solo usáis recursos de mi propio ordenador
a través de la nube.
Otra opción era utilizar plataformas como Jupyter que
tienen modelos en línea.
Ahora bien, esto se hace a través de una API,
que es como una especie de interfaz de programación y que
tiene un conjunto de reglas que vamos llamando.
Ahora bien, sigue siendo una aplicación extremadamente
pesada.
Entonces se me ocurrió una idea muy,
muy buena que era utilizar la herramienta de dictado de
Firefox.
Firefox, el explorador, tiene una herramienta muy buena que
si tú vas narrándole lo que quieres por adaptabilidad,
por accesibilidad, te lo va transcribiendo.
Y digo, qué bueno.
Si yo heredo este código abierto que tiene,
o sea, chupo de este código,
puedo crear una aplicación que haga exactamente lo mismo en
tiempo real.
Y eso fue lo que hice.
Chupar de la aplicación de Firefox,
que evidentemente usa internet para hacer la transcripción y
traducción en tiempo real.
Y eso es lo que hice.
Ahora tengo una aplicación totalmente ligera que cree a
través de un portal web, o sea,
te genera un portal web con opciones para ampliar y reducir
el texto, cambiar tipografía, elegir diferentes colores.
E incluso todo esto lo hemos usado con el CTO de la NASA,
que visitó la facultad de informática para poder
transcribir y traducir su propia presentación,
porque él solo hablaba inglés.
Incluso los de la NASA quedaron impactados con la tecnología
que habíamos desarrollado.
Ahora bien, después de esto, después de recibir estas
felicitaciones, me sentí muy mal.
Moralmente yo pensaba, he creado algo que sí,
otras millones de personas podrían haber creado con un
poco de imaginación, pero que literalmente podría sustituir
una persona que realizaba una traducción a lengua de signos.
Y llevo mucho tiempo posponiendo incluso la entrega de este
software debido a los conflictos éticos y morales que tengo.
O sea, sé que es totalmente necesario y que muchas personas
con trastornos hipoacústicos me lo han pedido y me lo siguen
pidiendo a día de hoy, porque no pueden permitirse pagar a un
transcriptor en su casa o en su clase o no pueden tener a una
persona a su lado 24 horas del día.
Y sé que esta herramienta podría serles de gran utilidad,
sobre todo porque no tienen dinero,
pero al mismo tiempo me siento como un monstruo y a día de hoy
no tengo respuesta a la pregunta de si lo que he hecho es
correcto o no.
Las opiniones de los demás no me ofrecen una solución
definitiva.
Algunos me dicen que no está bien,
que la gente debería pagar por estos servicios y que si no,
que existen ayudas, de forma mágica evidentemente.
Pero bueno, cuando te despiertas por la mañana siendo una
persona con discapacidad, lo digo por experiencia,
te aseguro que lo de las ayudas es mucho más complicado de lo
que parece.
Y por otro lado, hay gente que me dice que esto es algo muy
bueno, que puede ayudar a muchísima a muchísima gente,
sobre todo a los que no tenemos dinero y a los que no tienen
nada de recursos económicos.
Pero esto tampoco me consuela del todo.
Actualmente no tengo una respuesta clara.
Solo puedo decir que tengo el software preparado y que no sé
lo que opinar.
Y bueno, esto es más o menos todo lo que tenía preparado del
software que he fabricado,
como lo he hecho todas las etapas y todos los conflictos
morales que tengo derivados del uso de inteligencia artificial
o de herramientas que fabrico yo que pueden quitar trabajo a
personas.
Así que, bueno, pues nadie me va a quitar ahora mismo la duda.
Pero bueno, ante todo, sobre todo,
muchísimas gracias por escucharme hoy.
Y hasta aquí la sección.
Y en la sección de Hace una Vez contamos, como siempre,
con Enrique Varela.
Hola, Enrique.
Hola, oyentes, ¿qué tal?
¿Qué nos traes hoy?
Pues mira, hoy vamos a hacer así un repasillo por lo que ha
sido y es la síntesis de voz, el TTS, text to speech,
conversor de texto a voz, que es más antiguo de lo que a mí
mismo me parecía.
Y que, no sé si la gente tiene muy en cuenta o sabéis que
existe, hemos pasado de, bueno, todos andáis por las estaciones
de los trenes, por los supermercados,
por todas partes, oyendo, pues, voces,
mensajes de voz que nos dicen cosas.
Pero antes eran más naturales o era gente allí y aún lo sigue
siendo en los supermercados, ¿no?
Señorita Carmen, pásese por la caja 4.
Pero aparte de eso, hay muchos mensajes que ya son
automatizados y que voces más o menos humanas nos van diciendo,
pues, que el tren tal sale de la vía tal o que el autobús tal
está en la darsena tal o cualquier cosa, ¿no?
Pero esto, pues, tiene su antigüedad.
Y, de hecho, yo, el ancestro que he encontrado es de 1779,
donde un tal Christian Hankenstein o algo así,
no Frankenstein, Hankenstein, no sé cómo se pronuncia,
ya hizo un autómata que imitando una especie de cavidad vocal
imitaba por lo menos las vocales de la gente.
No sé si serían vocales alemanas, cuántas, si sería a, e, o, u,
o sería algo más, pero ya ese ancestro encontré.
En 1837 también alguien hizo algo más complicado, al parecer,
que ya articulaba también consonantes y tal,
pero eran todo, pues, autómatas.
Supongo que se haría un montón de hierros y engranajes antes de
empezar a hacerlo, pero es algo que, por lo visto,
está en la mente humana lo de tratar de imitar la voz hace
bastante más tiempo del que, por lo menos, a mí me parecía.
En el siglo XX ya, en el 39, se desarrolla el voder en los
laboratorios Bell y este intenta concatenar cosas,
controlar sonidos que manualmente con teclas se iban
dando y producían ya más o menos palabras más o menos
inteligibles.
En el 61, 1961, también se programa una IBM 704 para
intentar concatenar fonemas y ya se crea una canción que me
parece que fue, que aparece bastante en la película de 2001,
de hoy sea espacial.
Ese ya es una primera, muy ancestro de síntesis de voz.
En los 70, de los 70 a los 90, ya sí se empiezan a intentar
otras cosas grabando en memorias por lo que son fonemas y
uniéndolos.
Están las típicas voces que todavía podemos oír hoy,
los que estamos más metidos en el tema de las voces por
distribuciones de Linux y en cosas sencillas,
que son voces muy robóticas, muy metálicas, así,
pero que, bueno, que son aquellas que había.
Yo con eso he leído, yo personalmente,
he leído muchísima literatura porque al final,
si tú te consigues conectar a la voz y entenderla,
lo que te llega al cerebro es el concepto y no tanto que
aquello habla fatal.
De hecho, a mí que vengo de muy antiguo, digo algo personal,
pues, por un poco, por meter aquí de cómo iban las voces y
cómo van ahora.
A veces te bajas un libro de audible o lees con una voz muy
buena y a lo mejor es la novela más grande de la voz que a la
persona no te gusta.
Y entonces es una cosa un poco fea y, sin embargo,
cuando te acostumbras a una voz, una síntesis de voz,
aunque sea mala, yo por lo menos ya no oigo la voz,
sino que me llega el concepto de lo que me está contando, ¿no?
Dime.
Tengo una duda ahí.
Yo, por lo que tengo entendido, realmente si entendemos bien las
vocales por el contexto sacas bastante bien las palabras, ¿no?
Aunque no se pronuncian muy bien las consonantes.
Así es.
De hecho, con las voces más malas,
con aquellas que yo he medio imitado,
sí se consiguen velocidades mucho más grandes.
Porque tú cuando empiezas a digitalizar una voz de las
normales, por ejemplo, pues, yo qué sé, una grabación,
un mensaje de Whatsapp que dice, pues, lo voy a poner al 2%.
La verdad que se come muchas cosas y no es tan entendible.
Y, sin embargo, con las síntesis de voz estas primigenias,
efectivamente, como se entiende bien el sonido de las vocales,
como tú dices, pues, al final se llega a unas velocidades
impresionantes.
Yo he leído verdaderas cosas.
Yo leía más rápido antes que ahora, ahora con voz, ¿eh?
En Braille, pues, eso te estresa leer.
Pero en voz ahora leo más lento porque, bueno,
a medida que la voz es más perfecta,
si le metes mucha caña, pues, se hace menos entendible.
En los, eso, en los 70s y 80s, bueno,
decíamos que empiezan a concatenar fonemas.
Aparece una tal de TikTok que, desde luego,
si recordáis presentaciones, conferencias, charlas o breves
vídeos de Stephen Hawking, es la voz que usaba.
Es una voz ya bastante más entendible y se aplicó.
IBM la adquirió y le dio varios nombres comerciales y se empezó
a introducir en varios dispositivos,
mucho también orientados a personas ciegas porque había
máquinas de lectura que combinaban el OCR con ese tipo
de voces para que te leyes en libros y demás, ¿no?
Una muy popular que se llamaba Kurzweil Reading Machine o algo
así, que después sacaron una Reading Edge que usaba y
promocionaba mucho mis mismos TV Wonder que leía mucho con ella.
Pero yo no creo que no era, nunca fue un patrimonio solo de
personas ciegas.
La síntesis de voz se inventó para más cosas.
Por eso hemos empezado hablando de aeropuertos,
de historias de estar, ¿no?
Yo, ahí entre los 70 y los 90, que ya se empiezan a meter
voces pregrabadas y ya con voz humana intentar modularlas,
en España tuvimos un buen ancestro que fue una empresa que
además se llamó Cyberveo, o sea, se montó el nombre de la
empresa a través de eso, aunque la empresa hizo más cosas
después, que se hizo una tarjeta para PCs.
Además, lo que iba dentro era todo software basado en,
era software libre todo lo que iba dentro de la tarjeta
aquella en memorias.
Y lo que hacía se hizo en La Salle, en Barcelona.
Y se hizo la primer síntesis de voz en español y en catalán
que hubo nunca.
Y era una tarjeta que después se convirtió en un dispositivo
externo que se conectaba por puerto serie.
Y era una cosa que hablaba y que se llamaba Cyberveo,
como la empresa, y tenía eso, español y catalán.
La oímos ahora, la verdad que era bastante gangoso,
pero yo me lo pasé muy bien, yo personalmente me lo pasé muy
bien metido en aquellas salas anecoicas donde no te oías nada
más que tu corazón porque no hacía,
había eco cero o reverberación cero, era un poco angustioso.
Y para un ciego más, porque no sabía dónde estaba la pared de
enfrente, te podías tocar con algo y no lo,
no tenías áptica y donde grabábamos allí los fonemas y
tal, ¿no?
Después también trabajé bastante con,
trabajamos y yo recuerdo trabajar con telefónica y más de
haciendo voces.
Hay una voz que se llama Jorge ahora en muchos sintetizadores
que yo conozco a la persona porque se grabó ya con ella.
Ya estamos en los 90 y lo que se hacía era grabar,
partir de voz humana real para conseguir después modulaciones
sobre esa voz, ¿no?
Sobre ese timbre.
Y eso pues lo hay en muchas estaciones de tren y tal.
La voz de Jorge suena mucho.
El que esté en Madrid, los autobuses de Madrid,
todos los que te anuncian las paradas,
es el tal Jorge que es un ciego porque yo de vez en cuando me
tomo una caña porque estuvimos muchas horas allí grabando.
Bueno, y ya llegamos ahora.
Llegamos a la inteligencia artificial,
al análisis profundo que hace la inteligencia artificial y
donde ya cada vez lo estamos viendo más y hemos jugado con
eso, como con cualquier voz de cualquier persona,
con apenas un discurso de dos minutos o menos, cada vez menos.
Con 12 segundos ya consigues cosas decentes.
Eso, ya ahora mismo, pues mira, ya estamos en el 12 segundos.
Vamos, yo de hecho me hice, efectivamente,
una voz de mi madre que falleció en el 2020,
pues eso, con una grabación que tenía de ella muy corta.
Y sí, eso, ya estamos ahí.
Estamos en las voces que ya casi no se distinguen las humanas de
las que no.
Hombre, aún sí, pero bueno, ahí hemos llegado.
Los ancestros fueron los que fueron.
Se tardó mucho en llegar a la experiencia que es esta ahora y
el futuro, que no es lo que toca en esta sección,
pero vamos, ya de paso.
Auguro que será cada vez mejor y mejor y peor, vamos,
que habrá voces mejores, pero que también nos la pueden dar
con queso pensando que nos está hablando, yo que sé,
el presidente del gobierno.
Resulta que es un fishing, ¿no?
Pero bueno, todas las cosas, como se dice siempre,
un cuchillo, pues puede cortar jamón o puede segar una vida y
eso ya pues depende de cómo se use.
Pero bueno, la ciencia está muy bien y no es exclusiva,
desde luego, de la discapacidad, aunque aplicada y conjunta
con, por ejemplo, pues yo ahora en el ordenador,
tanto en Linux cuando trabajo en Linux o en Windows o en Mac OS,
todas las voces que, todo lo que tenemos las personas digas en
pantalla para que nos lea y tal, pues son síntesis de voz cada
vez más rápidas, cada vez mejores.
Y también te digo, como decías antes, Jorge,
para trabajar muy rápido en pantalla y demás,
casi es mejor una voz peor, porque vas más rápido y es más
ágil, ¿no?
Pero bueno, que están ahí.
Y como decimos en Galicia, y que Dios las dea, ¿no?
Que Dios nos las dea.
En algún otro programa también comentamos el tema de las voces
sintéticas, sobre todo para gente con ELA,
que va perdiendo poco a poco el poder hablar y el poder usar su
voz, pues les ayuda bastante a nivel psicológico.
De hecho, ya te digo que el que pueda ver vídeos de Stephen
Hawking, él utilizaba TikTok, que fue una de las voces de los
70s.
Y lo utilizaba muy rápido, además,
y era casi con la mirada.
Bueno, él no, porque cuando él no había salido aquello de lo
que hablamos de la eye tracking, no sé con lo que lo utilizaba,
algo movía un dedo o algo así.
Bueno, la cosa es que el tío tenía unos discursos bestiales
y se vea que lo hacían directo.
Y era esa voz de TikTok.
Alguno que tengo visto, no sé si siempre,
pero muchas veces usaba un teclado.
Supongo que lo tendría tuneado para.
Sí, para poderlo manejar a su aire.
Pues nada, esto espero que os haya interesado,
porque es un mundo muy bonito.
Y lo tenemos, ya te digo, lo tenemos en dos partes.
Aparte del quitándolo, de volviendo a eso, ¿no?
Al supermercado, la señorita Carmen Valle de la Caja 4,
que eso suele ser la compañera que la llama.
Lo demás casi todo ya es síntesis.
Lo que oímos por las megafonías.
Sí, sí, cada vez vamos a estar más rodeado de voces artificiales.
Pues eso es.
Muchísimas gracias por oírlo y espero que os haya interesado.
Pues hasta aquí la sección de la S una vez.
Y en la sección de diseño para todos,
contamos con siempre con Jonathan Chacón.
Hola, Jonathan.
Buenas, Jorge.
Buenas a todos y todas.
Pues hoy creo que quieres hablar de la IA en local
frente a la IA en cloud y las ventajas en accesibilidad.
Pues sí, en accesibilidad, en privacidad, quizás en velocidad.
Y todo esto viene porque el año 2025 está siendo el año de la
reducción de los tamaños de los módulos de inteligencia
artificial y la potencia de los motores de inteligencia
artificial.
Recordemos que el motor, ese es el programa que ejecuta la
traducción entre lo que nosotros le pedimos a un modelo y la
respuesta del modelo.
Digamos que es el intermediario.
Y el modelo es el corpus, el conjunto de datos y el conjunto
de información ponderada y con pesos que permite obtener un
resultado basado en inteligencia artificial.
No me voy a meter ahí que si no nos complicamos mucho.
Pero deciros que gracias a mucha de la investigación que se ha
hecho en el 2023 y en el 2024, tanto por universidades,
equipos de inteligencia artificial de código abierto,
tipo Ollama, y a publicaciones de Apple y Google,
en las que lo interesante no es hacer los módulos más grandes,
sino mejorar la información que se introduce en esos módulos y
reducir los tamaños, lo que se llama un recálculo de los
pesos.
Esto nos ha permitido que ese famoso Deep Seek de los chinos
sea muy similar a los resultados que conseguimos con un GPT del
tipo GPT-4, pero con una vigésima parte del peso en RAM
y en disco.
No hablamos de una cuarta parte, sino una vigésima parte,
porque un GPT-4 puede ocupar unos 400 gigas en RAM y unos
cuantos teras en disco.
Deep Seek se está pudiendo ejecutar con unos 25 o 30 gigas
en disco con toda la potencia.
Y en local, ¿qué beneficios trae eso?
Pues que tus datos se quedan en tu casa.
La capacidad de aprendizaje está limitada al tiempo que tú le
quieras dedicar para mejorar ese módulo.
Y lo bueno es que puedes mejorar una parte del módulo,
por ejemplo, el que hace descripciones de imágenes,
y eliminar o reducir o directamente atrofiar partes del
módulo que no te interesa.
Por ejemplo, el que reconoce canciones,
pues lo puedes desinstalar o directamente lo dejas ahí que
ocupe menos espacio hasta que desaparezca.
Porque estos módulos, con el tiempo,
cada vez que se realiza un proceso de mejora del
aprendizaje, la información que no le vas metiendo,
pues él va entendiendo que no le interesa al usuario final.
Pues con esto y con el nuevo hardware que se viene de la
gente de Raspberry Pi y de la gente de Pico,
pues junto con el router para conectarnos a internet,
yo creo que en 3 años tendremos el servidor de inteligencia
artificial para casa, pero se viene casi seguro.
Y todo esto, pues, mucho, como hemos dicho,
gracias al Open Source, tema de ollama, de VM Studio.
Y que empresas privadas también estén cediendo gran parte de su
código y de sus módulos en código abierto porque han visto
que la comunidad de Open Source está mejorando muchísimo,
pues están consiguiendo cosas tan interesantes.
Como la interpretación de imagen en tiempo real.
Y, claro, si está en la nube, que aquí es donde empezamos con
la comparación, siempre tenemos un retraso,
un delay entre lo que ve mi cámara,
lo transmite por 5G o por 4G, lo recibe un servidor en Helsinki
o Nueva York, lo interpreta, me lo devuelve, lo recibo y lo
interpreto yo con el mensaje hablado.
Desde que yo envío la imagen hasta que recibo la respuesta,
ya te digo que si un ciego está esperando a saber si un
semáforo está en rojo o en verde, pues, no.
En cambio, si es el local y teniendo en cuenta que los
teléfonos móviles cada vez están más orientados a mejorar la
interpretación y el uso de motores y módulos de
inteligencia artificial, con esta posibilidad de reducir el
tamaño y que se puedan insertar en hardware como una Raspberry
Pi 5 con un coprocesador especializado para inteligencia
artificial, un módulo NPU, pues, de aquí a un año tener un
teléfono Android o un modelo de iPhone muy especializado que
pueda ejecutar un modelo así y tener una camarita en las
gafas, pues, estamos ya casi a la vuelta de la esquina.
Y todo eso.
¿Me deja ser malo, Jonathan?
Sí, por supuesto.
¿Y no te parece muy curioso que coincida justo con que los
móviles ya no pueden ir mucho más para que aparezca esta nueva
funcionalidad de IA y el tema de las gafas también se pongan de
moda?
Nuevo gadget imprescindible, porque el móvil ya no podemos
ir mucho más.
Ahora, en cambio, al meterle el tema de la IA,
ya estamos multiplicando las posibilidades del dispositivo.
Pues, totalmente de acuerdo.
Y es más, desde el año 2015, ningún producto de apoyo,
ni lector de pantalla, ni manificadores, ni barredores,
ni teclados en pantalla.
Tenía nada nuevo.
O sea, las únicas mejoras que me tienen a un lector de pantalla
es parchear el comportamiento ante ciertas aplicaciones.
Pero no traía nada nuevo.
Absolutamente nada.
Llegó la inteligencia artificial en el 2019 y empezaron a meter
funcionalidades nuevas.
Los productos de apoyo tomaban decisiones, hacían resúmenes.
Y ahora tenemos productos de apoyo,
como puede ser Top Back para Android o VoiceOver para iPhone,
que cada vez usan más inteligencia artificial.
En Windows y en Mac también se está metiendo inteligencia
artificial en temas de accesibilidad, por ejemplo,
para la interpretación de cuando hay una notificación del
sistema, pero el desarrollador no está utilizando lo oficial y
está haciendo un cambio por su cuenta de un destello o la
aparición de un icono, pues, mediante un módulo de
interpretación de imágenes, identifica que eso es una alerta
y el magnificador de pantalla, recordemos la lupa digital,
te lleva el foco allí para que te enteres de que hay una
alerta.
¿Piensas que van a aparecer más móviles y gadgets de este tipo
que incorporen Lidar o lo van a dejar de lado definitivamente?
El Lidar en sí es demasiado caro y tiene una limitación en la
miniaturización.
El cabezal del Lidar para que sea rotatorio implica un volumen
que si vamos otra vez, que esperemos que no toquemos
madera a esa época de mientras más fino, más bonito,
que yo estoy temblando con eso porque ya vimos que no,
porque se perdía potencia, se perdía batería,
se perdía autonomía y los móviles te los metía en el
bolsillo y aparecían doblados.
Y un Lidar no cabía ahí.
Y luego el tema es que el Lidar tiene varias piezas que son
articuladas, son rotatorias.
Toda la mecánica que gira, que se mueve,
que se desplaza en un dispositivo hardware,
tiende a estropearse y encima es caro.
Entonces, lo que vamos a ir a otro tipo de sensores.
Ahora se está explorando mucho el tema de utilizar telemetría
láser junto con telemetría por infrarrojo.
Está dando muy buena respuesta lo que es el Face ID de Apple,
pues ya lo están replicando hardware chino y hardware
europeo también, solo con infrarrojos.
O sea, están quitando la telemetría láser y están
simplificando.
Y luego está el tema de que tenemos muchos sensores ya,
pero no teníamos forma de interpretar toda esa
información a la vez y buscar patrones comunes,
intersecciones en esa información de 2 sensores.
Con el procesamiento de inteligencia artificial,
si no estamos procesando inteligencia artificial,
tenemos un hardware especializado en procesar ingentes
cantidades de datos y lo llevamos en el teléfono.
O sea, podemos gestionar información de la cámara,
de los 5 micrófonos que lleva el teléfono, del giróscopo,
el acelerómetro, la brújula digital, el GPS,
todo a la vez y de forma optimizada.
Con eso podemos llegar a información muy curiosa.
Entonces, de esos intentos de marketing de tenemos que
ponerle, como decía Homer Simpson,
un relojito y un lacito para hacer el producto nuevo,
el beneficio para los usuarios finales también está ahí.
El problema está en que las empresas privadas van a seguir
con esa filosofía de, vale, ahora mi teléfono ejecute
inteligencia artificial.
Es lo mejor que hemos hecho hasta la fecha.
El año que viene dirán, ahora mi teléfono ejecuta inteligencia
artificial y además te habla con una voz sensual.
Ahora, el año siguiente, y te mira y le vamos a poner un
brazo robot para que te dé los buenos días saludándote con la
mano.
Esa es la siguiente.
Todo el tema de inteligencia artificial.
Este año vamos a ver cosas de robótica, muy tímidamente,
que van a interpretar la comunicación gestual humana
para que los robots puedan, digamos,
romper ese sesgo de incomunicación o ese sesgo de
poca efectividad entre humanos para que nos resulte más
cómodo relacionarlo con las máquinas.
Entonces, es un 2025 cargado de mucho potencial,
muchas mejoras de accesibilidad, pero sí, por supuesto,
la gente del marketing son muy malvadas y nos van a intentar
vender lo que teníamos en el 2024,
pero que se ejecuta con inteligencia artificial.
No vamos a ver muchas mejoras en los dispositivos hardware de
aquí a 2027, 2028, en mi opinión,
porque ahora lo que se van a intentar es potenciar los
procesadores y el almacenamiento de memoria para ejecutar la
inteligencia artificial cada vez mejor.
En eso se van a enfocar los próximos 2, 3 años.
Sí, vamos a partir de ahora un móvil con menos de 10,
12 gigas de RAM, pues, no va a ser.
No vamos a sacar toda la potencia que podamos poder sacar.
El estado actual son 8 gigas y con 8 gigas vamos muy,
muy, muy justos, pero muy justos.
Y 8 gigas de RAM, de almacenamiento,
nos vamos a ir a 256 gigas, porque quieras o no necesitas
ahí tanto espacio de swapping como espacio de levantar y
soltar el modelo.
Entonces, ahí unos 60 gigas pueden estar ocupados de forma
perenne.
Es una oportunidad ese cambio de ritmo,
porque siempre estaban con la competición de chat GPT o la
gente de OpenAI, iban los primeros y el resto iban
detrás.
La gente de OpenShort iba a su bola.
Todo el mundo se reía cuando decían que,
¿cómo que vas a reducir los tamaños de los modelos?
Eso es una locura, es lo que tenemos que hacer los más
grandes.
Y al final del 2024 se ha demostrado que aquel paper de
Apple que decía, oye, y si dividimos por aquí,
en vez de tratar con números enteros de 64 bits,
lo hacemos con 8 bits, reducimos y demás.
Y lo que hacemos es dedicar más tiempo a tokenizar bien las
cosas, a identificar bien las cosas para que el modelo esté
bien cribado.
Pues DeepSeek ha dado un golpe a la mesa.
No es lo mejor.
DeepSeek tiene muchas carencias.
Necesita mucha seguridad, pero si te digo que la gente que lo
estamos ejecutando en local, estamos viendo que ese es el
camino.
Sí.
Me sorprende que muy poca gente ha comentado que DeepSeek es
multitoken.
Con lo cual, multiplica la velocidad a la hora de
entregarte resultados.
Claro.
Además, lo bueno es que DeepSeek, el modelo,
se puede ejecutar en varios motores,
tanto en ollama como en VMStudio.
Y dependiendo del hardware que tú tengas, por ejemplo,
yo lo ejecuto en un VMStudio optimizado para procesadores M
de Apple y va como un tiro en un M1 Pro Max.
Pero si tuviésemos una NVIDIA, una 4000 y pico o 5000 y pico
de las nuevas, y lo ejecutásemos en ollama,
está optimizado, pues, un hardware que es de casa,
que sí, no es un hardware barato,
pero no tenemos que pagar un servidor en la nube que nos
puede costar miles de dólares al día.
Ese potencial de tener algo muy potente en casa y que tú
puedas moldearlo para que se adapte a tus necesidades y
tenga toda tu información y con la tranquilidad de,
mientras que nadie te ataque de fuera,
esa información se va a quedar en casa.
Y hay un potencial muy interesante.
Hay gente que ya está haciendo sus propios modelos para el
tema de arquitectura específica, ordenación de ciudades,
los modelos digitales de ciudades, pues,
están utilizando estos nuevos módulos de inteligencia
artificiales local.
Porque hay mucha información que no se puede subir a nubes de
fuera de Europa por el tema de la RGPD.
Y en temas de accesibilidad, pues,
hay gente ya del grupo de open hardware, de prótesis,
pues, que está volcándose en esto.
Porque antes utilizar una inteligencia artificial en la
nube costaba muy caro porque había que pagar todas esas
peticiones, todos esos tokens, todos esos segundos de cálculo.
Y una prótesis, además de imprimirla,
el estudio que se le hacía al usuario,
el escaneo del cuerpo y demás, pues,
ahora con todo eso lo podemos hacer local.
O sea, un hospital que tiene recursos suficientes puede poner
un departamento con un ordenador de unos 3,000 euros y no nos
vamos a los 5,000 y a los 10,000.
Con un ordenador de 3,000 euros ya puede meter una inteligencia
artificial en local que esté optimizada,
un buen escáner y una buena impresora 3D.
Y lo tenemos todo solucionado.
Muchas oportunidades, mucho potencial.
Y como suelo decir últimamente, esperemos que ningún político
le dé al botoncito y nos dé tiempo a disfrutar de todos
estos nuevos beneficios de la optimización de recursos,
que misteriosamente suele ser habitual,
vienen de la mano del Open Source.
Bien.
Y si no, siempre nos quedará la UPP.
Claro, bien.
Pues, por mi parte, ya está.
Vale.
Pues hasta aquí la sección de diseño para todos.
Este podcast tiene licencia Reconocimiento-CompartirIgual 4.0 Internacional (CC BY-SA 4.0).