/ miércoles 28 de septiembre de 2022

Deepfakes: Una amenaza que no está lejos

Las falsificaciones tanto de audio como de video ya son posibles con el desarrollo de tecnologías de aprendizaje automático y no está lejos el día en que las personas puedan ser víctimas de este tipo de ilícitos

Imagina el siguiente escenario. Suena un teléfono. Un oficinista responde y escucha a su jefe, quien le dice que olvidó transferir dinero a un cliente y que necesita que él lo haga. Así que le dan la información de la transferencia bancaria, la cual realiza inmediatamente.

Unos minutos después, el mismo empleado observa cómo su jefe entra por la puerta. Y resulta que la voz al otro lado de la llamada no era su jefe. De hecho, ni siquiera era un humano, sino una muestra de audio generada por una máquina diseñada para sonar exactamente como su jefe.

Puede interesarte: ¿Qué es la Valija del Tesoro, la nueva modalidad de ciberestafa?

Ya se han producido ataques como este que utilizan audio grabado, y es posible que las falsificaciones profundas de audio conversacional no estén muy lejos.

Los llamados Deepfakes, tanto de audio como de video, solo han sido posibles con el desarrollo de tecnologías sofisticadas de aprendizaje automático en los últimos años.

Esto ha traído consigo un nuevo nivel de incertidumbre en torno a los medios digitales. Para detectar falsificaciones profundas, muchos investigadores han recurrido al análisis de artefactos visuales (fallas mínimas e inconsistencias) que se encuentran en las falsificaciones profundas de video.

Sin embargo, los deepfakes de audio potencialmente representan una amenaza aún mayor, ya que las personas a menudo se comunican verbalmente sin video, por ejemplo, a través de llamadas telefónicas, radio y grabaciones de voz. Estas comunicaciones de solo voz amplían en gran medida las posibilidades de que los atacantes utilicen deepfakes.

Para detectar falsificaciones profundas de audio, nosotros y nuestros colegas investigadores de la Universidad de Florida hemos desarrollado una técnica que mide las diferencias acústicas y dinámicas de fluidos entre las muestras de voz creadas orgánicamente por hablantes humanos y las generadas sintéticamente por computadoras.

Voces orgánicas contra sintéticas

Los seres humanos vocalizan forzando el aire sobre las diversas estructuras del tracto vocal, incluidas las cuerdas vocales, la lengua y los labios. Al reorganizar estas estructuras, altera las propiedades acústicas de su tracto vocal, lo que le permite crear más de 200 sonidos o fonemas distintos.

Es posible que las "falsificaciones profundas" de audio conversacional no estén muy lejos de nosotros / Cortesía | PEXELS

Sin embargo, la anatomía humana limita fundamentalmente el comportamiento acústico de estos diferentes fonemas, lo que da como resultado una gama relativamente pequeña de sonidos correctos para cada uno.

Por el contrario, las falsificaciones profundas de audio se crean permitiendo primero que una computadora escuche las grabaciones de audio de un hablante de la víctima objetivo.

Dependiendo de las técnicas exactas que se utilicen, es posible que la computadora necesite escuchar tan solo de 10 a 20 segundos de audio. Este audio se utiliza para extraer información clave sobre los aspectos únicos de la voz de la víctima.

El atacante selecciona una frase para que hable el deepfake y luego, utilizando un algoritmo modificado de texto a voz, genera una muestra de audio que suena como si la víctima dijera la frase seleccionada. Este proceso de creación de una sola muestra de audio falsificada se puede lograr en cuestión de segundos, lo que potencialmente permite a los atacantes suficiente flexibilidad para usar la voz falsa en una conversación.

Detección de deepfakes de audio

El primer paso para diferenciar el habla producida por humanos del habla generada por deepfakes es comprender cómo modelar acústicamente el tracto vocal. Afortunadamente, los científicos tienen técnicas para estimar cómo sonaría alguien, o algún ser como un dinosaurio, en función de las mediciones anatómicas de su tracto vocal.

Hicimos al revés. Al invertir muchas de estas mismas técnicas, pudimos extraer una aproximación del tracto vocal de un hablante durante un segmento del habla. Esto nos permitió observar de manera efectiva la anatomía del hablante que creó la muestra de audio.

➡️ Suscríbete a nuestro Newsletter y recibe las notas más relevantes en tu correo

A partir de aquí planteamos la hipótesis de que las muestras de audio deepfake no estarían limitadas por las mismas limitaciones anatómicas que tienen los humanos. En otras palabras, el análisis de muestras de audio falsificadas simulaba formas del tracto vocal que no existen en las personas.

Por qué importa todo esto

El mundo de hoy está definido por el intercambio digital de medios e información. Todo, desde noticias hasta entretenimiento y conversaciones con seres queridos, generalmente ocurre a través de intercambios digitales. Incluso en su infancia, los videos y audios falsos socavan la confianza que las personas tienen en estos intercambios, limitando efectivamente su utilidad.

Si el mundo digital va a seguir siendo un recurso crítico para la información en la vida de las personas, las técnicas efectivas y seguras para determinar la fuente de una muestra de audio son cruciales.

* Informática y Ciencias de la Información e Ingeniería de la Universidad de Florida.

Lee también otros contenidos de Normal ⬇️

Imagina el siguiente escenario. Suena un teléfono. Un oficinista responde y escucha a su jefe, quien le dice que olvidó transferir dinero a un cliente y que necesita que él lo haga. Así que le dan la información de la transferencia bancaria, la cual realiza inmediatamente.

Unos minutos después, el mismo empleado observa cómo su jefe entra por la puerta. Y resulta que la voz al otro lado de la llamada no era su jefe. De hecho, ni siquiera era un humano, sino una muestra de audio generada por una máquina diseñada para sonar exactamente como su jefe.

Puede interesarte: ¿Qué es la Valija del Tesoro, la nueva modalidad de ciberestafa?

Ya se han producido ataques como este que utilizan audio grabado, y es posible que las falsificaciones profundas de audio conversacional no estén muy lejos.

Los llamados Deepfakes, tanto de audio como de video, solo han sido posibles con el desarrollo de tecnologías sofisticadas de aprendizaje automático en los últimos años.

Esto ha traído consigo un nuevo nivel de incertidumbre en torno a los medios digitales. Para detectar falsificaciones profundas, muchos investigadores han recurrido al análisis de artefactos visuales (fallas mínimas e inconsistencias) que se encuentran en las falsificaciones profundas de video.

Sin embargo, los deepfakes de audio potencialmente representan una amenaza aún mayor, ya que las personas a menudo se comunican verbalmente sin video, por ejemplo, a través de llamadas telefónicas, radio y grabaciones de voz. Estas comunicaciones de solo voz amplían en gran medida las posibilidades de que los atacantes utilicen deepfakes.

Para detectar falsificaciones profundas de audio, nosotros y nuestros colegas investigadores de la Universidad de Florida hemos desarrollado una técnica que mide las diferencias acústicas y dinámicas de fluidos entre las muestras de voz creadas orgánicamente por hablantes humanos y las generadas sintéticamente por computadoras.

Voces orgánicas contra sintéticas

Los seres humanos vocalizan forzando el aire sobre las diversas estructuras del tracto vocal, incluidas las cuerdas vocales, la lengua y los labios. Al reorganizar estas estructuras, altera las propiedades acústicas de su tracto vocal, lo que le permite crear más de 200 sonidos o fonemas distintos.

Es posible que las "falsificaciones profundas" de audio conversacional no estén muy lejos de nosotros / Cortesía | PEXELS

Sin embargo, la anatomía humana limita fundamentalmente el comportamiento acústico de estos diferentes fonemas, lo que da como resultado una gama relativamente pequeña de sonidos correctos para cada uno.

Por el contrario, las falsificaciones profundas de audio se crean permitiendo primero que una computadora escuche las grabaciones de audio de un hablante de la víctima objetivo.

Dependiendo de las técnicas exactas que se utilicen, es posible que la computadora necesite escuchar tan solo de 10 a 20 segundos de audio. Este audio se utiliza para extraer información clave sobre los aspectos únicos de la voz de la víctima.

El atacante selecciona una frase para que hable el deepfake y luego, utilizando un algoritmo modificado de texto a voz, genera una muestra de audio que suena como si la víctima dijera la frase seleccionada. Este proceso de creación de una sola muestra de audio falsificada se puede lograr en cuestión de segundos, lo que potencialmente permite a los atacantes suficiente flexibilidad para usar la voz falsa en una conversación.

Detección de deepfakes de audio

El primer paso para diferenciar el habla producida por humanos del habla generada por deepfakes es comprender cómo modelar acústicamente el tracto vocal. Afortunadamente, los científicos tienen técnicas para estimar cómo sonaría alguien, o algún ser como un dinosaurio, en función de las mediciones anatómicas de su tracto vocal.

Hicimos al revés. Al invertir muchas de estas mismas técnicas, pudimos extraer una aproximación del tracto vocal de un hablante durante un segmento del habla. Esto nos permitió observar de manera efectiva la anatomía del hablante que creó la muestra de audio.

➡️ Suscríbete a nuestro Newsletter y recibe las notas más relevantes en tu correo

A partir de aquí planteamos la hipótesis de que las muestras de audio deepfake no estarían limitadas por las mismas limitaciones anatómicas que tienen los humanos. En otras palabras, el análisis de muestras de audio falsificadas simulaba formas del tracto vocal que no existen en las personas.

Por qué importa todo esto

El mundo de hoy está definido por el intercambio digital de medios e información. Todo, desde noticias hasta entretenimiento y conversaciones con seres queridos, generalmente ocurre a través de intercambios digitales. Incluso en su infancia, los videos y audios falsos socavan la confianza que las personas tienen en estos intercambios, limitando efectivamente su utilidad.

Si el mundo digital va a seguir siendo un recurso crítico para la información en la vida de las personas, las técnicas efectivas y seguras para determinar la fuente de una muestra de audio son cruciales.

* Informática y Ciencias de la Información e Ingeniería de la Universidad de Florida.

Lee también otros contenidos de Normal ⬇️

México

Áreas Naturales Protegidas tendrán un peso de presupuesto por cada hectárea resguardada

Ambientalistas temen la falta de monitoreo biológico y la poca capacidad de protección ante vulneraciones

Finanzas

Constructoras prevén inversión de 6 billones de pesos en sexenio de Sheinbaum

Las constructoras privadas mantendrán una participación de 60 por ciento en la inversión en infraestructura hacia 2030

Metrópoli

La unidad Tlatelolco cumple 60 años entre glorias pasadas y los desafíos del presente

Sus primeros habitantes añoran el brillo de la zona y reprochan el olvido

México

INE solicita al Senado retrasar 90 días la elección judicial

El INE pidió más tiempo para organizar la elección de ministros, jueces y magistrados, debido a que las suspensiones judiciales retrasaron la organización por más de un mes

Finanzas

SHEIN y otras plataformas, bajo la lupa del SAT para subir recaudación de impuestos

Ramírez de la O explicó que la recaudación formará parte del plan de eficiencia recaudatoria y de trámites digitales

Metrópoli

Giran órdenes de aprehensión contra posibles implicados en ataque al bar Bling Bling

En tanto que, Christopher 'N' alias 'El Padrino', es el quinto de los presuntos implicados que hasta el momento, se encuentra prófugo de las autoridades