Crédito: Pixabay.

Deepfakes (un acrónimo de aprendizaje profundo y falso ) son medios sintéticos en los que las imágenes, los videos o el discurso de una persona real se convierten en una imagen artificial generada por IA de otra persona (a menudo, una celebridad). Es posible que haya encontrado algunos en Internet antes, como los deepfakes de Tom Cruise en Tik Tok o los clones de voz de Joe Rogan.

Si bien las variedades de imágenes y videos son más convincentes, la impresión fue que las falsificaciones profundas de audio se han quedado atrás, al menos sin una gran cantidad de audio de entrenamiento. Pero un nuevo estudio sirve como una llamada de atención, que muestra que los algoritmos de copia de voz que son fáciles de encontrar en Internet ya son bastante buenos. De hecho, los investigadores descubrieron que con una cantidad mínima de entrenamiento, estos algoritmos pueden engañar a los dispositivos de reconocimiento de voz, como Amazons Alexa.

Investigadores del Laboratorio de Seguridad, Algoritmos, Redes y Datos (SAND) de la Universidad de Chicago probaron dos de los algoritmos de síntesis de voz deepfake más populares, SV2TTS y AutoVC, ambos de código abierto y disponibles gratuitamente en Github.

Los dos programas se conocen como cajas de herramientas de clonación de voz en tiempo real. Los desarrolladores de SV2TTS se jactan de que solo cinco segundos de grabaciones de entrenamiento son suficientes para generar una imitación aceptable.

Los investigadores pusieron a prueba ambos sistemas alimentándolos con las mismas 90 grabaciones de voz de cinco minutos de diferentes personas hablando. También grabaron sus propias muestras de 14 voluntarios, a quienes se les pidió permiso para ver si las voces generadas por computadora podían desbloquear sus dispositivos de reconocimiento de voz, como Microsoft Azure, WeChat y Amazon Alexa.

SV2TTS pudo engañar a Microsoft Azure aproximadamente el 30 por ciento de las veces, pero obtuvo lo mejor de WeChat y Amazon Alexa casi dos tercios, o el 63 por ciento, de las veces. Un pirata informático podría usar esto para iniciar sesión en WeChat con un mensaje de voz sintético que imita al usuario real o acceder a una persona de Alexa para realizar pagos a aplicaciones de terceros.

AutoVC se desempeñó bastante mal, pudiendo engañar a Microsoft Azure solo el 15 por ciento de las veces. Dado que no cumplió con las expectativas, los investigadores no se molestaron en probarlo con la seguridad de reconocimiento de voz de WeChat y Alexa.

En otro experimento, los investigadores reclutaron a 200 voluntarios a quienes se les pidió que escucharan pares de grabaciones e identificaran cuál de las dos pensaban que era falsa. Los voluntarios fueron engañados casi la mitad de las veces, lo que hizo que sus juicios no fueran mejores que lanzar una moneda.

Los audios falsos profundos más convincentes fueron los que imitaban las voces de las mujeres y los de hablantes no nativos de inglés. Esto es algo que los investigadores están investigando actualmente.

Descubrimos que tanto los humanos como las máquinas pueden ser engañados de manera confiable por el habla sintética y que las defensas existentes contra el habla sintetizada se quedan cortas, escribieron los investigadores en un informe publicado en el servidor de acceso abierto arXiv .

Tales herramientas en las manos equivocadas permitirán una variedad de poderosos ataques contra humanos y sistemas de software [también conocidos como máquinas].

En 2019, un estafador realizó un atraco de IA, usando algoritmos de voz falsos profundos para hacerse pasar por un ejecutivo alemán en una compañía de energía y convencer a los empleados de que le transfirieran $240,000. Según el Washington Post , a la persona que realizó la transferencia bancaria le pareció extraño que su jefe hiciera tal solicitud, pero el acento alemán y la voz familiar que se escuchó por teléfono fueron convincentes. La firma de seguridad cibernética Symantec dice que ha identificado casos similares de estafas de voz falsas que resultaron en pérdidas de millones de dólares.

"