Apple y Nvidia han colaborado para acelerar los modelos de IA

ingenieros de manzana ellos tienen compartió algunos detalles técnicos sobre una colaboración con Nvidia para acelerar el rendimiento de grandes modelos de lenguaje (LLM)

A principios de año Apple publicó y hizo de código abierto la técnica denominada Redactor recurrente (ReDrafter) en el framework TensorRT-LLM de NVIDIA: es un método para generar textos con LLM que tiene la particularidad de ser muy rápido, indicado como de vanguardia («state of the art in performance»); combina dos técnicas: búsqueda por haz (búsqueda de haz) y atención dinámica del árbol (atención dinámica del árbol), con la capacidad de obtener texto mucho más rápidamente (hasta 3,5 tokens por paso de generación, más que otras técnicas).

Puntos de referencia espectáculo un aumento de 2,7 veces en la velocidad de generación de tokens para decodificación codiciosa en GPU NVIDIA, lo que reduce significativamente la latencia y el consumo de energía.

Apple y Nvidia colaboraron en la aceleración del modelo de IA - macitynet.it
imagen de manzana

Las GPU de Nvidia suelen ser la base de los servidores LLM especializados (que incluso superan los 250,00 dólares cada uno). El trabajo de Apple con Nvidia es relevante para las aplicaciones de producción que utilizan LLM, porque no sólo mejora la eficiencia de la inferencia y reduce los costos de procesamiento, sino que también mejora la experiencia del usuario final.

En el blog de desarrolladores de Nvidia sí. explica que esta colaboración permite una generación de tokens más rápida en aplicaciones LLM que aprovechan las GPU NVIDIA, gracias a la integración de ReDrafter en TensorRT-LLM.

A pesar de esta colaboración con Nvidia, hace unos días se confirmó públicamente que Apple está estudiando el potencial uso del chip Trainium2 de Amazon para entrenar modelos de IA para Apple Intelligence. El entrenamiento de la mayoría de las IA utiliza procesadores caros Nvidia; Los proveedores de la nube y varias nuevas empresas están compitiendo para ofrecer alternativas de menor costo, explorando diferentes enfoques que podrían conducir a una computación más eficiente.

Todas las noticias que hablan sobre Inteligencia Artificial están disponibles en esta página de aatma.