Transcripción de texto - Tiflo Audio Podcast 173: La descripción de imágenes y la inteligencia artificial en las redes sociales para las personas ciegas

La descripción de imágenes y la inteligencia artificial en las redes sociales para las personas ciegas

A continuación, se presenta la transcripción de texto del episodio 173 de Tiflo Audio Podcast.

Comienzo del episodio

[Música]
José Manolo Alvarez:
Bienvenidos a Tiflo Audio. Tecnologías accesibles para las personas ciegas en el idioma Español. Reciban un tecnológico saludo de este su amigo José Manolo Alvarez. Desde Puerto Rico, para todo el mundo.
[Música]

Título del episodio

Manolo:
El título del episodio 173 es: La descripción de imágenes y la inteligencia artificial en las redes sociales para las personas ciegas.

Fecha de grabación

Manolo:
viernes 2 de julio de 2021

Tema del episodio

Manolo:
En el episodio de hoy, estaré desarrollando un tema muy importante y muy pertinente para las personas ciegas relacionado al acceso de gráficos o imágenes en contenidos digitales por medio de nuestros lectores de pantalla.

Contenido del episodio

Manolo:
Y cuales son los diferentes ecenarios que nosotros como personas ciegas nos podemos encontrar cuando estemos navegando información digital con nuestros lectores de pantalla. Bueno, lo óptimo y lo que todos nosotros queremos y promovemos es que cada vez que encontremos una imagen la misma tenga una descripción en texto, que la persona que colocó esa imagen ahí ya sea una red social, ya sea un documento en Word, ya sea en una página HTML, en un blog, en cualquier información digital haya descrito esa imagen con textos alternativos.

Ahora bien, todavía resulta muy común, encontrarnos imágenes no accesibles con nuestros lectores de pantalla. En ese caso, dependemos entonces del comportamiento de nuestro lector de pantalla. Hay lectores de pantalla que nos pueden decir simplemente imagen o gráfico y ya nosotros sabemos que no tiene el texto alternativo o nos pueden decir una numeración rara como 201416.jpg y realmente lo que nos está diciendo es el nombre de ese archivo que es una información que no es relevante ni significativa para la igualdad de acceso a esa imagen como tal para nosotros como personas ciegas. O más reciente los lectores de pantalla han integrado inteligencia artificial.

Demostración usando el iPhone

Manolo:
Y que mejor manera de demostrarles el comportamiento de los lectores de pantalla y las diferentes alternativas que nosotros como personas ciegas tenemos hoy día, que hacerles una demostración con el iPhone y su lector de pantalla integrado VoiceOver. Para eso voy a utilizar un twit de una persona acá en Puerto Rico que está constantemente tomando fotos de diferentes paisajes y los publica, pero no describe la imagen como tal.

Yo voy a hacer una demostración tengo este twit guardado en mis favoritos y vamos a ver como se comporta VoiceOver y que alternativas nosotros tenemos para obtener la información del contenido visual de esa imagen que se incluye en el twit.

Tengo mi iPhone con VoiceOver, acabo de entrar al twit que voy a usar como ejemplo y me voy a mover con un swipe hacia la derecha. Y ahí me lee el texto que se publicó en el twit. Así que es un paisaje de la luna según lo que escribe en el twit. Me voy a seguir moviendo de izquierda a derecha y me dice hashtag Ciales que es el pueblo de Puerto Rico donde tomó la foto. Me sigo moviendo de izquierda a derecha y ahí llegué a la imagen que no está descrita con texto alternativo, pero que hace VoiceOver, me da una descripción utilizando inteligencia artificial (machine learning). Esta es una alternativa que nosotros tenemos que activar, tenemos que ir al área de accesibilidad, dentro de VoiceOver vamos a ir a donde dice reconocimiento de VoiceOver. Y esa descripción que me presentó en Inglés de lo que el entiende que está en la foto y me dice que hay una luna, que hay una montana, que hay unas nubes. Entonces fíjate que ya me está dando una información adicional.

La información que la persona había escrito en su twit era que había una luna, pero no tenemos la menor idea si ella se había tomado un selfie o si era un closeup de la luna. Y ya vemos que por medio de la inteligencia artificial podemos entonces obtener más información de lo que realmente se está presentando visualmente en esa fotografía. Ahora bien, yo todavía puedo enviar esta fotografía por ejemplo a Seeing AI para que el también por medio de inteligencia artificial me reconozca esta ecena. Vamos a hacerlo. Le voy a dar con un dedito, tres veces encima de la foto y me voy a mover hacia la derecha hasta llegar a compartir vía y le doy doble toque con un dedo. Y me voy a mover de izquierda a derecha hasta llegar a Reconocer con Seeing AI y le doy doble toque con un dedo y de inmediato también por medio de inteligencia artificial me describe que en esa ecena hay nubes en el cielo. La base de datos que utiliza Seeing AI es en la nube de Microsoft.

Demostración usando Android

Manolo:
Vamos ahora a hacer la misma demostración, pero vamos a acceder a twitter desde Android utilizando el lector de pantalla TalkBack. Yo uso la aplicación Twithings y vamos a movernos de izquierda a derecha para ir sobre el twit.

Y ahora me voy a mover de izquierda a derecha hasta llegar al botón de compartir y ahí le voy a dar doble toque con un dedo. Me muevo de izquierda a derecha y llegué a Envision AI que es otra app que también integra entre sus opciones inteligencia artificial para describir imágenes. Envision AI es un app de subscripción, así que es de paga, y le voy a dar doble toque con un dedo. Me muevo de izquierda a derecha y me vuelvo a mover de izquierda a derecha y ahí me dice la descripción, parece una luna en el cielo.

Demostración usando la Mac

Manolo:
Vamos a hacer ahora la demostración usando la Mac y presentándoles otra alternativa que pueden tener para que una imagen pueda ser descrita por medio de la inteligencia artificial.

En esta ocasión, yo utilizo Twiterrific en la Mac. Yo fuí al twit pero me moví a la imagen y la descargué. Así que ya la tengo en la carpeta de descargas en la Mac. Y fíjensen lo que voy a hacer ahora, me voy a mover con VoiceOver hasta llegar a la imagen que le puse picture.jpg.

Entonces voy a presionar la combinación para abrir el menú de contexto. Me voy a mover con flecha hacia abajo hasta llegar a abrir con, le doy retorno y me voy a mover con flecha hacia abajo hasta llegar al navegador Google Chrome que yo lo tengo instalado en mi Mac y le doy retorno.

Y ahí me abrió Google Chrome y pueden escuchar que me dice obteniendo la descripción de la imagen . Y esto es una configuración que usted puede activar una vez que usted esté en Google Chrome usted puede activar el menú de contexto y se puede mover hasta donde dice describir imágenes. Ahí usted le da retorno y le van a salir dos alternativas, hacerlo siempre o hacerlo solamente una vez, en la sesión actual y yo le pongo siempre. Y cada vez que usted esté navegando con Google Chrome, el le va a preguntar si quiere darle el permiso para que vaya al Internet a la base de datos y pueda traer esa información. Entonces cada vez que usted esté navegando por Internet y encuentre una imagen que no esté descrita entonces Google va a tratar de describir la misma por medio de inteligencia artificial.

En este caso fíjensen que lo que hice fué simplemente descargué la imagen y la abrí con Google Chrome para que entonces el me la describa. Me muevo ahora hacia la derecha y ahí me dice la descripción, parece ser luna llena en la mañana. Fíjate que aquí me está dando otra información que no nos había presentado ninguna de las otras alternativas anteriores. Me dice en la mañana, pues entonces es posible que sea el amanecer donde se tomó la foto y de esta manera por medio de la inteligencia artificial yo voy uniendo todas éstas descripciones para tener una idea de lo que se está presentando en la foto.

Demostración usando Windows

Manolo:
Y vamos ahora a hacer una demostración usando Windows. Y voy a comenzar utilizando el lector de pantalla JAWS que tiene integrado una opción conocida como Picture Smart donde nosotros podemos obtener descripciones de imágenes por medio de inteligencia artificial.

Aquí hice lo mismo que hice en la Mac, descargué esa foto desde la página web donde estaba el twit y ya lo tengo aquí en mi carpeta de descargas. Mi lector de pantalla en éstos momentos está en Inglés, por que esa descripción me la va a presentar en Inglés pero yo la voy a traducir en Español para ustedes.

Me voy a mover con flecha hacia abajo y vamos a presionar la tecla del lector de pantalla que en mi caso es bloqueo de mayúscula y la barra espaciadora. Ahora voy a presionar la letra p para activar Picture Smart y le voy a dar la letra f para decir que es ese archivo que yo quiero que me describa. Ahí comenzó a describírmelo en Inglés, toda esa información yo la traduje al Espanol. Voy a utilizar la voz de Microsoft Sabina que la tengo instalada en Windows para que lea la descripción de la imagen. Y pueden escuchar que aquí me da una descripción más detallada por que la establece por diferentes categorías.

Me voy a mantener en Windows pero voy a demostrarle como sería utilizando el lector de pantalla Narrador, que está integrado en Windows. Ustedes saben que para activarlo sería la tecla de Windows, control y Enter. Me voy a mover al archivo picture.jpg le voy a dar Enter ahí me la abrió con la aplicación de fotos y en el Narrador usted presionaría la tecla control, bloqueo de mayúsculas y la letra d y ahí me da la descripción. Me dice nubes en el cielo podemos notar que es una descripción muy similar a la que hicímos cuando usamos Seeing AI en el iPhone por que usa la misma base de datos de Microsoft de inteligencia artificial. <>/p

Si utilizan el lector de pantalla NVDA, hay varios complementos que también han tratado de integrar la descripción de imágenes. Algunos ya no funcionan, otros no han sido actualizados pero podrían hacer lo mismo que yo hice en la Mac. Usted podría descargar Google Chrome. Usted podría ir a la opción que le diga descripción de imágenes, selecciona siempre y entonces de esa manera podrá obtener la descripción de textos.

Resumen del episodio

Manolo:
En este episodio le he hecho una demostración de como nosotros podemos cuando nos encontramos una imagen que no ha sido descrita con textos alternativos ya sea por medio del lector de pantalla y su opción de inteligencia artificial poder acceder a una descripción de la misma. O enviarla a una aplicación de inteligencia artificial para igualmente obtener información.

Lo óptimo es siempre promover que el autor de esa imagen la describa en texto. La mejor persona que puede describir una imagen, es el que la puso. Por que el que la puso, sabe el contexto del por que la puso. Yo le voy a dar un ejemplo, cuando yo envío una presentación en Power Point a mis estudiantes en la universidad, siempre la primera diapositiva yo pongo la foto de la torre de la universidad. Y la torre de la universidad es un símbolo de que este es el Recinto de Río Piedras. Y fíjate que yo describo esa foto con texto alternativo y le escribo Foto de la Torre de la Universidad de Puerto Rico, Recinto de Río Piedras. Por que ese es el contexto, es la portada, quiero dejar saber que este curso que estoy ofreciendo es en la Universidad de Puerto Rico, Recinto de Río Piedras.

Ahora bien, si esa foto la utilizara un profesor en un curso de arquitectura, su descripción en texto es distinta por que probablemente el lo que quiere es presentar algún diseño arquitectónico en particular de la torre. Por lo que una misma foto, puede tener diferentes significados dependiendo el contexto de la misma.

Ahora bien, tenemos que atender nuestra realidad. Y la misma es que nosotros navegamos por redes sociales, por documentos electrónicos, por el Internet y es muy común encontrar fotos e imágenes que no fueron descritas por su autor con textos alternativos. Por lo tanto, ahí es donde entra la inteligencia artificial. Entonces fíjate que los lectores de pantalla están entonces diciendo para esta situación vamos entonces a utilizar machine learning. Tengo que reconocer que la inteligencia artificial ha avanzado grandemente. Esto no es algo nuevo, reconocer imágenes por medio de una base de datos. Pero en los últimos años, si que ha sido cada vez más utilizada. Por ejemplo, si usted va a Facebook usted puede con su lector de pantalla moverse por la foto y ya vemos que Facebook integra una descripción en texto cuando la misma no haya sido descrita por la persona que la publicó.

Tenemos una situación frente a nosotros, una gran cantidad de imágenes que no son descritas en texto. Y por otro lado, una tecnología, como la inteligencia artificial que cada día mejora en la descripción de esas imágenes. Lo que yo no promuevo es que las personas se despreocupen en describir las fotos con textos alternativos por que eso lo va a hacer la inteligencia artificial. Si usamos de referencia las guías de accesibilidad más recientes, WCAG 2.1, es una alta prioridad describir imágenes en texto para que las personas ciegas podamos percibir dicha información. Todavía al día de hoy, yo promuevo que se describa siguiendo los estándares con textos alternativos el autor que lo publicó. Y que la inteligencia artificial la utilicemos para complementar.

Hay una tendencia de compañías en el Internet, que aseguran que utilizando inteligencia artificial se pueden cumplir todas las guías que simplemente se le pone una línea de código a esa página web por ejemplo y que todos éstos estándares los va a presentar cuando detecte que una persona utilice un lector de pantalla. Una de estas empresas es AccessiBe, que ha estado recientemente con una controversia por que ellos cobran 50 dólares al mes y básicamente le incluyen un código a páginas en el Internet de muchas compañías para cumplir con las guías de accesibilidad. Por que en los Estados Unidos está la Sección 508 que se tiene que cumplir. Esta compañía le dice a diferentes empresas, que no se preocupen que van a cumplir con la ley para que no los demanden. Sin embargo, eso en la práctica, en la usabiidad no ha sido el resultado que ellos realmente dicen.

Ahora bien, vamos a poner en contexto esta situación. Ya les dije que lo óptimo es que se describan en textos pero si no se describen en textos que es nuestra realidad, entonces la inteligencia artificial puede darnos un acceso. Lo óptimo sería que la inteligencia artificial pudiera convertir esa página totalmente accesible, pero eso no es lo que está pasando ahora. En un futuro, quien sabe.

Notas del episodio

Manolo:
En las notas del podcast les voy a dejar varios enlaces relacionados los textos alternativos. Y recuerden pueden visitar el sitio de Tiflo Audio y en la entrada de éste episodio buscar el enlace que los llevará a la transcripción de textos para que personas sordociegas por medio de una línea Braille puedan tener acceso a los contenidos del podcast.

Información de contacto

[Música]
Manolo:
Pueden visitar la Comunidad Manolo.Net nuestro portal www.manolo.net.
El sitio de Tiflo Audio www.tifloaudio.com.
Pueden descargar el app de Tiflo Audio ya sea desde el AppStore para el iPhone o en el PlayStore para Android.
Visitar la página de la Fundación Manolo.Net www.fundacionmanolonet.org.
Pueden seguirnos en Twitter como @tiflomanolo.
O enviarme un correo electrónico manolo@manolo.net.

Bueno amigos, será entonces hasta una próxima ocasión.
[Música]