Son sonidos ininteligibles para el ser humano, pero “hablan” con tu teléfono inteligente y te pueden atacar sin que te enteres a tiempo, Y apenas puedes defenderte.
Ponte en esta situación. Conectas tu computadora y abres un vídeo de YouTube que muestra a unos lindos gatitos.
Al poco tiempo descubres que hiciste varias compras a través el celular, accediste a una página web que alberga un malware, y para más inri hiciste una transferencia bancaria dejando tu cuenta a cero.
Acabas de ser víctima del último grito en ciberataques: comandos de voz ocultos de manera intencionada en videos virales u otros medios que le “hablan” a tu celular a través de asistentes de reconocimiento de voz como Siri de Apple o Google Now. Y todo esto sin enterarte.
Esto es lo que descubrió un equipo de investigadores de la Universidad de Georgetown y Berkeley en Estados Unidos.
Sonidos diabólicos
Estos mensajes ocultos, consistentes en órdenes de voz comprimidas que suenan como un chirrido, son ininteligibles para el ser humano, pero no así para los software de reconocimiento de voz de los celulares, que cada vez son más populares y a menudo están conectados todo el tiempo.
Basta con que la fuente que emite los comandos esté a tres metros de distancia para poder darle órdenes a tu celular. El mensaje -por ejemplo- podría estar codificado en el fondo de un vídeo viral de YouTube o ser transmitido por TV o radio.
Este tipo de ataques no tiene que ser siempre efectivo pues se trata de un juego de probabilidades, señala Micah Sherr, uno de los investigadores de Georgetown del proyecto.
“Un posible escenario -afirmó Sherr en un comunicado- es un millón de personas mirando un vídeo de gatitos, 10.000 de ellos tienen un celular cerca y 5.000 obedecen la orden ininteligible y se conectan a una página web que tiene malware. Así ya tienes 5.000 teléfonos inteligentes controlados por un atacante”.
Sin protección
Así que, ¿cómo puedes protegerte? Muchos asistentes digitales incluyen barreras de protección, como obligarte a confirmar una orden, aunque éstas también pueden esquivarse transmitiendo un “sí” codificado.
De hecho, cuando los investigadores camuflaron un “Ok, Google” usando unos algoritmos, comprobaron que los humanos eran capaces de descifrar la frase sólo un 20% de las veces, mientras que las máquinas lo hacían en un 95%.
Los investigadores también descubrieron que los sistemas de reconocimiento de voz que enseñan a un dispositivo a sólo reaccionar a la voz de su dueño tampoco son demasiado efectivos ya que distan de ser fiables o son demasiado complejos.
Concluyen que la mejor protección son los sistemas que confirman que la voz que detectan es realmente humana, analizando ciertas características o degradando el sonido. Esto último permite que la voz humana aún sea inteligible pero no así las instrucciones ocultas elaboradas por una máquina.
Sin embargo, estos filtros harían más complicado el funcionamiento de los sistemas de reconocimiento de voz, lo cual no es muy atractivo para usuarios o las empresas