Meta presenta CM3leon, su modelo de IA generativa para texto e imagen

CM3leon es un modelo mixto de máscara causal (CM3) porque puede generar secuencias de texto e imágenes condicionadas a secuencias arbitrarias de otras imágenes y contenido de texto.

El área de inteligencia artificial de Meta ha presentado CM3leon, un programa de IA generativa creado a partir de modelos de lenguaje de solo texto que permite crear nuevas imágenes a partir de texto y texto a partir de imágenes, habiendo empleado para su entrenamiento cinco veces menos de computación que métodos anteriores. 

Según explican desde el blog corporativo, CM3leon es un modelo mixto de máscara causal (CM3) porque puede generar secuencias de texto e imágenes condicionadas a secuencias arbitrarias de otras imágenes y contenido de texto. Lo que ayuda, dicen, a expandir la funcionalidad de modelos anteriores, tanto los enfocados en la generación de imágenes a partir de texto o de texto a partir de imágenes. 

“Aplicamos instrucciones multitarea a gran escala a CM3leon tanto para la generación de imágenes como de texto, y muestra que esto mejora de forma significativa el rendimiento de tareas como la generación de imágenes, las respuestas a preguntas visuales, la edición basado en texto y la generación de imágenes condicionales”. 

La nueva solución de IA generativa de Meta posibilita en concreto: 

  • Generación y edición de imágenes a partir de texto
  • Tareas de texto, como la generación de textos más cortos o más largos así como responder a preguntas en torno a una imagen
  • La edición de imágenes a través de estructuras, lo que permite al modelo crear ediciones apropiadas al contexto y visualmente coherentes a una imagen, respetando una estructura o guías de capas dadas.
  • Objeto a imagen
  • Segmentación a imagen