Amazon avanza en su estrategia de inteligencia artificial (IA) con el lanzamiento de su nueva familia de modelos grandes de lenguaje (MLL), Amazon Nova, que estará disponible en Amazon Bedrock, junto al resto de modelos de IA generativa disponibles como LlaMa de Meta.
Según ha informado la compañía, esta nueva generación de modelos cuentan con capacidad para procesar texto, imagen y vídeo y permiten comprender vídeos, gráficos y documentos o generar vídeos y otro contenido multimedia.
“Dentro de Amazon, tenemos alrededor de 1.000 aplicaciones de IA generativa en marcha, y hemos tenido una visión panorámica de los desafíos con los que aún lidian los desarrolladores de aplicaciones”, ha informado Rohit Prasad, vicepresidente senior de inteligencia artificial generativa de Amazon, quien ha añadido que los nuevos modelos de Amazon Nova “ofrecen un progreso significativo en latencia, rentabilidad, personalización, generación aumentada por recuperación (RAG) y capacidades agénticas”.
Amazon Nova ofrece, en concreto, seis tipos distintos de modelos, idóneos para realizar desde tareas sencillas hasta complejas para la generación de texto, imagen y vídeo. En el primer trimestre de 2025 incluirá un modelo de voz a voz capaz de comprender la entrada de voz en streaming en lenguaje natural, interpretar señales verbales y no verbales como el tono o la cadencia, y ofrecer interacciones naturales similares a las humanas a una baja latencia.
Además de un modelo multimodal, en el que se podrá introducir como entrada texto, imagen, audio y vídeo y generar salidas en cualquiera de estas modalidades, que estará disponible a mediados del próximo año.
Comparativas de rendimiento
En la presentación de Amazon Nova realizada en AWS re:Invent, la compañía también ha informado de los resultados obtenidos tras comparar sus modelos con los de la competencia.
Amazon Nova Micro, el modelo de solo texto, es, según la firma tecnológica, igual o mejor que Meta LLaMa 3.1 8B en las 11 pruebas comparativas realizadas, y Google Gemini 1.5 Flash-8B en los 12 puntos de referencia aplicables. Amazon Nova Lite, que procesa imagen, vídeo y texto, es igual o superior en 17 de 19 pruebas comparativas con GPT-4o mini de OpenAI; igual o mejor en 17 de 21 pruebas frente a la última versión del modelo de Google; e igual o superior en 10 de 12 pruebas en comparación con Claude Haiku 3.5 de Anthropic.
Mientras que Amazon Nova Pro, un modelo multimodal, ha mostrado un rendimiento igual o superior en 17 de 20 pruebas frente al GPT-4o de OpenAI; en 16 de 21 evaluaciones frente a Gemini 1.5 Pro de Google; y en 9 de las 20 pruebas realizadas en comparación con Claude Sonnet 3.5v2 de Anthropic.
Aseguran, además, que sus modelos son un 75% menos costosos que los modelos de mejor rendimiento presentes en Amazon Bedrock y admiten un ajuste personalizado y destilación, entendida esta última como la capacidad de transferir conocimientos específicos de un modelo ‘maestro’ más grande y altamente capaz a un modelo más pequeño y eficiente que es altamente preciso, pero también más rápido y económico de ejecutar.
Modelos creativos
Amazon Nova también incluye modelos específicos para el ámbito creativo, como Amazon Nova Canvas, modelo de generación de imágenes, y Amazon Nova Reel, para la generación de vídeo. Las creatividades resultantes con ambos modelos incluyen marca de agua y moderación de contenido y, en el caso de la segunda, aunque a día de hoy los vídeos salientes tienen una extensión de seis segundos, en los próximos meses se admitirá la generación de vídeos de hasta dos minutos de duración.
El grupo publicitario Dentsu es una de las primeras compañías en probar Amazon Nova, a lo que también se han sumado SAP, Deloitte, Musixmatch, 123RF, Caylent, Palantir Technologies y Shutterstock.