La larga marcha de la IA china realizada con DeepSeek

Si algo ha demostrado China en los últimos cuarenta años es capacidad de replicar y mejorar lo que ya existe. ¿Quién no recuerda los primeros intentos torpes de la industria china de copiar de todo, desde automóviles hasta computadoras? Hoy, sin embargo, los productos chinos no sólo son equivalentes sino en muchos casos superiores a los originales.. Y ahora también ha ocurrido lo mismo con la inteligencia artificial: el nuevo modelo DeepSeek-V3 demuestra que los chinos no sólo han cerrado la brecha tecnológica sino incluso lo superaron.

DeepSeek, la empresa de Hangzhou, nace como spin-off de un fondo de inversión cuantitativoha creado un modelo de inteligencia artificial que cuesta una décima y funciona mejor que los de la competencia. No sólo eso: lo hicieron en dos meses en lugar de un añoutilizando una décima parte de los recursos informáticos necesarios para Llama-3, el último modelo de Meta. Los números son impresionantes: 671 mil millones de parámetros y un costo total de sólo $5,5 millones frente a los 500 millones que se habrían necesitado para entrenar Llama-3.

Un modelo para estudiar

La clave del éxito de DeepSeek reside en el enfoque científico de la construcción de modelos.. En lugar de utilizar la fuerza bruta y simplemente aumentar la potencia informática, los ingenieros chinos optimizaron cada aspecto del proceso. Utilizaron una técnica llamada FP8 para reducir la precisión de los cálculos donde no era necesariamejoraron la eficiencia de la comunicación entre nodos informáticos e introdujeron nuevos algoritmos para el equilibrio de carga.

Es un poco como si, en lugar de construir un coche más potente, rediseñaran completamente el motor en torno a una nueva arquitectura y con nuevos principios físicos para hacerlo más eficiente. El resultado es un modelo que no sólo cuesta menos entrenar sino que también es más rápido de ejecutar.generando 60 tokens por segundo, lo que lo hace tres veces más rápido que su predecesor.
Estados Unidos quiere imponer restricciones a los chips de IA a los chinos - macitynet.it

Por cierto, si los que encuentras en este sector parecen tecnicismos incomprensibles (tokens, arquitecturas de modelos, métodos de ejecución de cálculos), todos haríamos bien en acostumbrarnos a ellos porque, más allá del gran revuelo que siempre levanta el marketing de las empresas americanas Cuando nuevas tecnologías llegan al mercado, en realidad son los fundamentos que todos necesitamos conocer. Y que también sirven para evaluar el funcionamiento de estas tecnologías. Por ejemplo: DeepSeek-V3 se puede descargar y ejecutar localmente. Sin embargo, debemos tener claro que es un modelo muy grande (671 mil millones de parámetros totales pero solo 37 mil millones activos en cualquier momento para tokens) y, por lo tanto, requiere un hardware potente para funcionar: al menos 512 GB de memoria unificada y varias GPU conectadas. Para ejecutarlo localmente (aquí están las instrucciones) Necesitas al menos ocho Mac Mini M4 Pro de 64 GB cada unoEn resumen.

El arte de la optimización

El secreto de DeepSeek-V3 está en la arquitectura: el nuevo modelo utiliza una tecnología llamada Mezcla de Expertos (MoE) lo que le permite activar solo una pequeña parte del modelo para cada solicitud. En la práctica, en lugar de utilizar los 671 mil millones de parámetros para cada cálculo, utiliza sólo 37 mil millonesaquellos más relevantes para la pregunta específica. Los informáticos lo explican diciendo que es un poco como tener una orquesta de cien elementos pero tocar solo los necesarios para cada pieza, en lugar de tocar todos juntos.

La larga marcha de la IA china realizada con DeepSeek - macitynet.it

Pero lo que sorprende a los expertos no es sólo la eficiencia, sino también la calidad de los resultados. DeepSeek-V3 supera ser llama de meta Eso GPT-4 por OpenAI en muchos puntos de referencia, especialmente aquellos relacionados con la programación y las matemáticas. Y lo hace utilizando los chips H800 de Nvidialos “debilitados” que Estados Unidos permite vender a China, en lugar de los H100 más potentes utilizados por OpenAI y Meta. En esencia, China compite, mejora e innova con un brazo atado a la espalda. Quién sabe qué habrían inventado si hubieran tenido recursos y tecnologías disponibles en Silicon Valley (y quién sabe por qué los europeos, que todavía tenemos más recursos que los chinos, no podemos hacer lo mismo).

El futuro se distribuye.

Esta innovación allana el camino para un futuro en el que la inteligencia artificial ya no será dominio exclusivo de las grandes plataformas y proveedores de la nube: además de OpenAI y Anthropic, de hecho son Amazon, Google, Meta y Microsoft son los grandes actores del mercado. Hoy en día ya es posible ejecutar modelos de IA en tu ordenador gracias a herramientas como Ollamaque le permite descargar y utilizar varias plantillas de código abierto localmente. Con la llegada de arquitecturas más eficientes como la de DeepSeek, esta posibilidad se hará aún más concreta. Actualmente Ollama no permite que DeepSeek-V3 funcione pero la comunidad está trabajando en ello.

Sin embargo, sabemos que no es una prioridad para los usuarios finales porque, salvo que tengas un cluster de Macs ultrapotentes en casa, el modelo local no funcionará. Pero si lo lograra, sería como Tener en nuestro Mac un asistente de IA tan potente como ChatGPT pero que funciona sin conexiónrespeta nuestra privacidad y no cuesta nada después de la compra inicial del hardware. No es ciencia ficción: ya es posible hoy con modelos como Llama-2 o Mistraly mañana lo será aún más con la llegada de nuevos modelos optimizados como DeepSeek-V3.

La revolución silenciosa

La verdadera revolución no reside tanto en el poder bruto como en en eficiencia. DeepSeek ha demostrado que se puede hacer más con menos, allanando el camino para una democratización de la IA que parecía imposible hace apenas un año. No es casualidad que Andrej Karpathyuno de los fundadores de OpenAI, comentó en X que DeepSeek “hace parecer fácil” lo que hasta ayer se consideraba imposible.

Este cambio de paradigma tendrá enormes repercusiones en el mercado. Si se necesitan sólo unos pocos millones de dólares para crear un modelo de IA de alto nivel en lugar de cientos, muchas más empresas podrán permitirse desarrollar sus propios modelos. Y si estos modelos pueden ejecutarse en hardware común.el mercado se abrirá aún más, aportando innovación y competencia a un sector que corría el riesgo de ser dominado por unos pocos grandes actores.

Los desafíos de la democratización

No todo es perfecto, por supuesto. Aún quedan desafíos por afrontar, como la necesidad de hardware suficientemente potente para ejecutar estos modelos localmente. Hemos dicho que es relativamente posible hacer esto: un particular no, pero una pequeña empresa sí, por ejemplo. La diferencia de escala se debe a que los centros de datos cuestan cientos de millones de dólares a las grandes empresas de la nube. Un pequeño centro de investigación, un laboratorio de una universidad o escuela podrían desarrollar y personalizar una versión de DeepSeek-V3 para uso interno sin costos redundantes.

Y luego está la cuestión de la regulación: ¿Cómo gestionar la proliferación de modelos de IA cada vez más potentes y accesibles? China ya tiene su propio sistema de investigación de antecedentes, que requiere modelos que “incorporen valores socialistas fundamentales”, pero en otras partes del mundo la discusión aún está abierta.

Además, está la cuestión de calidad de los datos de entrenamiento. DeepSeek afirma haber utilizado 14,8 billones de tokens de «alta calidad», pero ¿qué significa eso exactamente? La transparencia en estos aspectos será crucial para el futuro de la IA distribuida. También porque DeepSeek podría reescribir la historia de muchas maneras, incluida la censura o la distorsión de la verdad histórica de los hechos. No con “alucinaciones” sino con censura e ideas de otra realidad inculcadas por funcionarios de Beijing en el vientre del sistema.

Hacia el futuro

El camino está trazado: La inteligencia artificial se está convirtiendo en una utilidad.como la electricidad o Internet. Si lo desea, hoy es una fecha un poco simbólica para el nuevo punto de inflexión de la IA. Desde la revolución que introdujo GPT y luego ChatGPt, hasta la de la IA para todos (más o menos). Ya no necesitarás conectarte a costosos servicios en la nube para acceder a modelos de alta gama.. Podremos tenerlos en nuestras computadoras, en nuestros teléfonos e incluso en nuestros dispositivos IoT. Y ello gracias a una combinación de innovación tecnológica y optimización de recursos que llega, una vez más, de Oriente.

La verdadera pregunta ya no es si esto sucederá, pero que rapido. Con empresas como DeepSeek mostrando el camino, es posible que estemos mucho más cerca de lo que pensamos un futuro donde la IA estará al alcance de todos. Y esta vez será verdaderamente democrático. A menos que sea antidemocrático, pero esa es otra historia.