El “equipo rojo” de Facebook piratea sus propios programas de inteligencia artificial

Los atacantes intentan cada vez más confundir y eludir los sistemas de aprendizaje automático.

Entonces, las compañías que los implementan se están volviendo creativas.

INSTAGRAM alienta a sus mil millones de usuarios a agregar filtros a sus fotos para hacerlas más compartibles.

En febrero de 2019, algunos usuarios de Instagram comenzaron a editar sus fotos con una audiencia diferente en mente: los filtros pornográficos automáticos de Facebook.

Facebook depende en gran medida de la moderación impulsada por la inteligencia artificial, y dice que la tecnología es particularmente buena para detectar contenido explícito.

Pero algunos usuarios descubrieron que podían pasar a escondidas los filtros de Instagram superponiendo patrones como cuadrículas o puntos en pantallas de skin que rompen las reglas.

Eso significó más trabajo para los revisores de contenido humano de Facebook.

Los ingenieros de inteligencia artificial de Facebook respondieron capacitando a su sistema para reconocer imágenes prohibidas con tales patrones, pero la solución duró poco.

Los usuarios “comenzaron a adaptarse siguiendo diferentes patrones”, dice Manohar Paluri, quien dirige el trabajo en visión por computadora en Facebook.

Su equipo finalmente logró dominar el problema de la desnudez que evade la inteligencia artificial al agregar otro sistema de aprendizaje automático que verifica patrones como cuadrículas en las fotos e intenta editarlos emulando píxeles cercanos.

El proceso no recrea perfectamente el original, pero permite que el clasificador de pornografía haga su trabajo sin tropezarse.

Ese incidente del gato y el ratón ayudó a impulsar a Facebook unos meses después a crear un “equipo rojo de inteligencia artificial” para comprender mejor las vulnerabilidades y los puntos ciegos de sus sistemas de inteligencia artificial.

Otras grandes empresas y organizaciones, incluidas Microsoft y contratistas gubernamentales, están formando equipos similares.

Esas compañías gastaron mucho en los últimos años para implementar sistemas de inteligencia artificial para tareas como comprender el contenido de imágenes o texto.

Ahora, algunos de los primeros usuarios se preguntan cómo pueden engañarse esos sistemas y cómo protegerlos.

“Nos fuimos de‘ ¿Eh? ¿Esto es útil? “, Ahora es crítico para la producción”, dice Mike Schroepfer, director de tecnología de Facebook”.

“Si nuestro sistema automatizado falla o puede subvertirse a gran escala, eso es un gran problema”.

El trabajo de proteger los sistemas de IA tiene similitudes con la seguridad informática convencional.

El equipo rojo de inteligencia artificial de Facebook recibe su nombre de un término para ejercicios en los que los piratas informáticos que trabajan para una organización prueban sus defensas mediante juegos de rol como atacantes.

Saben que cualquier solución que implementen puede ser ignorada a medida que sus adversarios presenten nuevos trucos y ataques.

Sin embargo, en otras formas, mitigar los ataques a los sistemas de inteligencia artificial es muy diferente de prevenir los ataques convencionales.

Las vulnerabilidades de las que se preocupan los defensores tienen menos probabilidades de ser errores específicos y reparables, y es más probable que reflejen las limitaciones integradas de la tecnología de IA de hoy.

“Es diferente de la ciberseguridad en que estas cosas son inherentes”, dice Mikel Rodríguez, un investigador que trabaja en vulnerabilidades de IA en MITRE Corporation, una organización sin fines de lucro que ejecuta programas federales de investigación.

“Se podría escribir un modelo de aprendizaje automático que sea perfectamente seguro, pero aún así sería vulnerable”.

“Si nuestro sistema automatizado falla o puede subvertirse a gran escala, eso es un gran problema” dice Mike Schroepfer, Oficial de Tecnología Principal de Facebook.

La creciente inversión en seguridad de la IA refleja cómo Facebook, Google y otros también están pensando más en las consecuencias éticas de implementar la IA.

Ambos problemas tienen sus raíces en el hecho de que, a pesar de su utilidad, la tecnología de IA existente es estrecha e inflexible, y no puede adaptarse a circunstancias imprevistas de la manera en que las personas pueden hacerlo.

Una creciente biblioteca de documentos de investigación de aprendizaje automático documenta trucos como alterar solo unos pocos píxeles en una foto para hacer que el software de AI alucine y detecte objetos que no están presentes.

Un estudio mostró que un servicio de reconocimiento de imágenes de Google podría ser engañado para clasificar un rifle como un helicóptero; otro estudio imprimió objetos en 3D con una forma multifacética que los hizo invisibles para el software lidar de un prototipo de automóvil autónomo de Baidu de China.

Otros ataques incluyen “envenenamiento de datos”, donde un adversario altera los datos utilizados para entrenar un algoritmo de aprendizaje automático, para comprometer su rendimiento.

MITRE está trabajando con clientes gubernamentales en áreas como el transporte y la seguridad nacional sobre cómo podrían minimizar tales vulnerabilidades.
Rodríguez se niega a compartir detalles, pero dice que al igual que en Facebook, algunas agencias del gobierno de E.E.U.U. quieren saber qué podría salir mal con la IA que están incorporando en funciones críticas.

Los proyectos de su equipo han incluido mostrar que era posible extraer las caras utilizadas para entrenar un algoritmo de reconocimiento facial, y engañar al software de aprendizaje automático instalado en los aviones que vuelan por encima para interpretar su entorno.

El Departamento de Defensa planea hacer de la IA una tabla cada vez más central del ejército de los E.E.U.U., desde detectar amenazas en el campo de batalla hasta la atención médica y la administración administrativa.

El equipo rojo de AI de Facebook está dirigido por Cristian Canton, un experto en visión por computadora que se unió a la compañía en 2017 y dirigió un grupo que trabaja en filtros de moderación de imágenes.

Estaba orgulloso del trabajo de su equipo en los sistemas de IA para detectar contenido prohibido como la pornografía infantil y la violencia, pero comenzó a preguntarse qué tan robustos eran realmente.

En 2018, Canton organizó un “riesgo” en el que personas de todo Facebook pasaron tres días compitiendo para encontrar la forma más sorprendente de tropezar con esos sistemas.

Algunos equipos encontraron debilidades que, según Canton, lo convencieron de que la compañía necesitaba hacer que sus sistemas de inteligencia artificial fueran más robustos.

Un equipo en el concurso demostró que usar diferentes idiomas dentro de una publicación podría confundir los filtros automáticos de discurso de odio de Facebook.

Un segundo descubrió el ataque utilizado a principios de 2019 para difundir pornografía en Instagram, pero no se consideró una prioridad inmediata solucionarlo en ese momento.

“Pronosticamos el futuro”, dice Canton. “Eso me inspiró a que este debería ser mi trabajo diario”.

El año pasado, el equipo de Canton probó los sistemas de moderación de Facebook.

También comenzó a trabajar con otro equipo de investigación dentro de la compañía que ha creado una versión simulada de Facebook llamada WW que se puede usar como un patio virtual para estudiar con seguridad el mal comportamiento.

Un proyecto está examinando la circulación de publicaciones que ofrecen productos prohibidos en la red social, como las drogas recreativas.

El proyecto más pesado del equipo rojo tiene como objetivo comprender mejor las imágenes profundas, imágenes generadas usando AI que parece que fueron capturadas con una cámara.

Los resultados muestran que prevenir el engaño de la IA no es fácil.

La tecnología Deepfake es cada vez más fácil de acceder y se ha utilizado para el acoso selectivo.

Cuando el grupo de Canton se formó el año pasado, los investigadores comenzaron a publicar ideas sobre cómo filtrar automáticamente las falsificaciones. Pero encontró algunos resultados sospechosos.

“No había forma de medir el progreso”, dice. “Algunas personas informaban una precisión del 99 por ciento, y pensábamos” Eso no es cierto “.

El equipo rojo de AI de Facebook lanzó un proyecto llamado Deepfakes Detection Challenge para estimular los avances en la detección de videos generados por AI.

Pagó a 4.000 actores para protagonizar videos con una variedad de géneros, tonos de piel y edades.

Después de que los ingenieros de Facebook convirtieron algunos de los clips en fakes profundos al intercambiar las caras de las personas, los desarrolladores tuvieron el desafío de crear un software que pudiera detectar los simulacros.

Los resultados, publicados el mes pasado, muestran que el mejor algoritmo podría detectar falsificaciones profundas que no están en la colección de Facebook solo el 65 por ciento del tiempo.

Eso sugiere que no es probable que Facebook pueda detectar de manera confiable las falsificaciones profundas pronto.

“Es un problema realmente difícil y no está resuelto”, dice Canton.

El equipo de Canton ahora está examinando la solidez de los detectores de desinformación y clasificadores de anuncios políticos de Facebook.

“Estamos tratando de pensar de manera muy amplia sobre los problemas apremiantes en las próximas elecciones”, dice.

La mayoría de las empresas que usan IA en sus negocios no tienen que preocuparse, como lo hace Facebook por ser acusadas de sesgar una elección presidencial.

Pero Ram Shankar Siva Kumar, que trabaja en seguridad de inteligencia artificial en Microsoft, dice que aún deben preocuparse por las personas que juegan con sus modelos de inteligencia artificial.

Contribuyó a un artículo publicado en marzo que encontró que 22 de las 25 compañías consultadas no aseguraban en absoluto sus sistemas de inteligencia artificial.

“La mayor parte de los analistas de seguridad todavía están pensando en el aprendizaje automático”, dice.

“La suplantación de identidad y el malware en la caja siguen siendo lo principal”.

El otoño pasado, Microsoft lanzó documentación sobre seguridad de IA desarrollada en asociación con Harvard que la compañía usa internamente para guiar a sus equipos de seguridad.

Analiza amenazas como el “robo de modelos”, en el que un atacante envía consultas repetidas a un servicio de IA y usa las respuestas para crear una copia que se comporta de manera similar.

Esa copia “robada” puede ponerse a trabajar directamente o usarse para descubrir fallas que permiten a los atacantes manipular el servicio original pagado.

Battista Biggio, profesor de la Universidad de Cagliari que ha estado publicando estudios sobre cómo engañar a los sistemas de aprendizaje automático durante más de una década, dice que la industria tecnológica necesita comenzar a automatizar las comprobaciones de seguridad de IA.

Las compañías usan baterías de pruebas preprogramadas para verificar si hay errores en el software convencional antes de que se implemente.

Biggio dice que mejorar la seguridad de los sistemas de inteligencia artificial en uso requerirá herramientas similares, potencialmente aprovechando los ataques que él y otros han demostrado en la investigación académica.

Eso podría ayudar a abordar la brecha que Kumar destaca entre la cantidad de algoritmos de aprendizaje automático implementados y la fuerza laboral de personas conocedoras de sus vulnerabilidades potenciales.

Sin embargo, Biggio dice que aún se necesitará inteligencia biológica, ya que los adversarios seguirán inventando nuevos trucos.

“El humano en el circuito seguirá siendo un componente importante”, dice.

Fuente y fotos: https://www.wired.com/story/facebooks-red-team-hacks-ai-programs