Información General | 16 jun 2023
Quince horas de audios y recortes de cinco segundos: ¿Cómo es el proceso que le devolverá a Jorge Rivas su propia voz?
Info Blanco Sobre Negro dialogó con Adriana Cortizo y Hernán San Martin, integrantes del equipo desarrollador.
Por: Federico García
El ministro de Ciencia, Tecnología e Innovación de la Nación, Daniel Filmus, y el director nacional de Estrategias Inclusivas, Accesibles y de Desarrollo Sostenible del Transporte del Ministerio de Transporte, Jorge Rivas, encabezaron el lunes pasado la presentación de los avances del proyecto de desarrollo de software de voz sintética en el marco del Programa “ImpaCT.Ar Ciencia y Tecnología”, en el Centro Cultural de la Ciencia (C3) de la Ciudad de Buenos Aires.
El desarrollo está dirigido a las personas que sufren diferentes patologías que tienen como resultado la pérdida de la voz, como Traumatismo Cráneo Encefálico (TEC), Esclerosis Lateral Amiotrófica (ELA), Accidentes Cerebro Vasculares (ACV), tumores laríngeos, Parkinson, Esclerosis Múltiple y otras patologías que afectan el aparato orofonador, a quienes permitirá expresarse a partir de una voz sintética, pero con la particularidad de que la innovación tecnológica aplicada facilitará la comunicación con su voz natural.
La iniciativa es llevada adelante por investigadores del Centro de Investigación de Codiseño Aplicado de la Universidad Tecnológica Nacional (UTN) La Plata y la Facultad de Ingeniería de la Universidad de la Defensa.
Al respecto, Info Blanco Sobre Negro dialogó con la fonoaudióloga, analista de sistemas e integrante del grupo desarrollador, Andrea Cortizo, para conocer más sobre el trabajo en cuestión.
“La idea empezó a partir de un desafío lanzado por Jorge Rivas desde su área ministerial al que nos anotamos y, entre fines del 2019 y principios del 2020, nos reunimos con él para evaluar el nuevo desarrollo”, recordó Cortizo, que forma parte de un equipo interdisciplinario en el que hay analistas de sistemas, fonoaudiólogos e ingenieros en sistemas, en sonido y electrónicos.
"A partir de muestras que se reciben de lo que era la voz de Jorge previo al asalto (ocurrido en el año 2007), se hace todo un tratamiento de la información para que ingrese al sistema y sea lo más parecida a lo que fue la suya”, detalló Cortizo, que el lunes pasado fue parte de la presentación del primer prototipo.
“Hasta el momento, se logró una voz de un varón que habla en español rioplatense, algo que es un logro en sí mismo porque este tipo de sistemas, que son pagos en el mundo, están en inglés, en español de España o de Perú, y no teníamos un español rioplatense”, recalcó la investigadora.
En este momento, según Cortizo, se está trabajando en el tratamiento de muestras para quitar el ruido ambiente, segmentar la cadencia y analizar la prosodia y la entonación del habla.
“El proyecto se llama Mi identidad vocal porque nuestra voz nos define, nosotros nos identificamos y reconocemos con ella desde muy pequeños, y a medida que vamos creciendo lo hacemos con nuestra voz. Hay algo que está muy ligado a la identidad de la persona, es muy importante que alguien pueda reconocerse en su voz. Jorge Rivas lo ha perdido y ha aprendido a utilizar esta voz que es la única que se podía usar en ese momento”, reflexionó la fonoaudióloga y analista de sistemas.
Según la investigadora, serán necesarios otros cuatro meses para culminar el proyecto y están conversando para ver si puede tener cierta continuidad “porque los sistemas hay que mantenerlos”.
Por último, Cortizo se refirió a la posibilidad de expandir la iniciativa más allá del caso de Jorge Rivas y señaló que es la idea, pero destacó que su eventual implementación será responsabilidad del Ministerio de Ciencia.
El desarrollo por dentro
Este medio también se puso en contacto con Hernán San Martin, ingeniero electrónico y parte del equipo desarrollador, para conocer mayores detalles de “Mi identidad vocal”.
“El proceso que realiza una inteligencia artificial (IA) se divide en dos partes: la parte de entrenamiento y la parte de inferencia. En la primera la IA está aprendiendo y en la segunda está generando una respuesta con base en lo que aprendió”, destacó, en primer lugar, San Martín.
“Para entrenar se necesita un Data Set que, en el caso del audio, son un montón de estos últimos recortados, de una duración y calidad determinada, que tienen que tener escrito qué es lo que se está diciendo, y cuanto más variado sea en cuanto a voces, entonaciones, intenciones y situaciones mejor respuesta va a tener el modelo cuando intente inferir”, agregó el investigador.
“Lo que hicimos hasta ahora es agarrar un Data Set, que era público, y lo empezamos a recortar, modificar y agregarle información, y con un determinado modelo, previamente elegido, generamos un audio con tonada argentina”, indicó San Martin.
“Sobre esta base hay muchos caminos para clonar una voz de forma muy exacta, en este caso se llama “fine tuning”: se sobrecarga el modelo con toda la información posible sobre esa voz a la que se quiere llegar y de esa manera cuando el modelo infiere la reproduce muy bien, en este caso la de Jorge Rivas”, concluyó el especialista, y agregó que para eso se necesitan aproximadamente quince horas en audios de cinco segundos, lo más variado posible y buena calidad”.
Mi testimonio para el programa Jugo de Limón de @SandraRusso_ok en Radio Madres @somosradioam530, sobre política y sobre el sistema de Inteligencia Artifical (IA) que utilizaré para hablar, y que estará disponible en forma gratuita para quien lo necesite, gracias a la UTN,… pic.twitter.com/aKMNYaP30T
— Jorge Rivas ▪ Socialista en el @FrenteDeTodos. (@JorgeRivasRS) June 15, 2023