Pero ¿te imaginas un fondo de cobertura de Wall Street decidiendo quemar miles de millones para construir unainteligencia artificial general? Eso es exactamente lo que hizo Alto vuelo, un fondo cuantitativo chino que ha transformado todo su departamento de I+D en búsqueda profunda en 2023. Con una montaña de GPU acumuladas antes de las sanciones de Estados Unidos, el fundador Liang Wenfeng ha apostado por investigadores menores de 30 años y por una optimización extrema.
"No buscamos beneficios inmediatos, sino respuestas a las preguntas más difíciles del mundo". dijo Liang.
El resultado de esta filosofía es DeepSeek-R1, modelo de código abierto que supera a OpenAI o1 en matemáticas y lógica, utilizando 1/10 de los recursos por Llama 3.1. ¿El secreto? “Hacer de la necesidad virtud”el explica Marina Zhang dell 'Universidad de sydney. Sin acceso a los chips Nvidia más avanzados, DeepSeek revolucionó la arquitectura de modelos, creando algoritmos que se comunican como una orquesta de jazz: pocos instrumentos, máxima armonía. Y ahora hacen temblar a los ricos (y caros, además) en términos de recursos energéticos) mundo de la IA occidental.
Jóvenes genios y patriotismo: la receta secreta (y un poco anárquica)
Mientras que Google y Meta contratan veteranos (y talentos del extranjero), DeepSeek se centra en recién graduados de Beijing y Tsinghua: cerebros hambrientos de gloria académica, no de salarios dorados. “Contratamos a personas que han ganado premios internacionales, incluso sin experiencia industrial”, admite Liang. Un enfoque que vale la pena: el equipo desarrolló el Atención latente de múltiples cabezas, una técnica lo que reduce el consumo de memoria en un 40%.
"Son como las startups de los años 70: poco dinero, mucha creatividad", afirma. Wendy Chang, analista de Instituto Mercator. “Combinaron trucos de ingeniería: esquemas de comunicación personalizados, compresión de datos… Cosas conocidas, pero nunca utilizadas así”.
Y hay un ingrediente extra: patriotismo tecnológico. “Esta generación quiere demostrar que China puede innovar a pesar de las sanciones”, añade Zhang. Una mentalidad (más o menos espontánea) que transforma los límites en trampolines.
MLA y mezcla de expertos: las armas secretas de DeepSeek para vencer a OpenAI
¿Qué hace que DeepSeek-R1 sea tan eficiente? Tres factores principales:
- Atención latente de cabezas múltiples (MLA): Reduce los cálculos redundantes y centra la atención en los patrones clave.
- Mezcla de expertos: Activa solo partes específicas de la red neuronal según la tarea, como un mecánico que usa solo las herramientas necesarias.
- Es de código abierto, al menos por ahora. “Es la única manera de alcanzar a Occidente”, explica Chang. “Atraes contribuyentes globales, mejoras el modelo, creas un ecosistema”. Estrategia ganadora: en 2 meses, 20.000 desarrolladores contribuyeron con código.
Es como tener un motor Ferrari que consume como un Panda. Entrenar DeepSeek-R1 cuesta dinero $ 15 millones contra i $ 150 millones de Meta. Una brecha que hace temblar a Silicon Valley.
¿Sanciones de Estados Unidos? Un boomerang (tal vez)
Cuando Estados Unidos bloqueó la exportación de chips avanzados en 2022, muchos predijeron el colapso de la IA china. Por ahora, DeepSeek demuestra que El ingenio vence al hardware.. “Es necesario revisar las estimaciones de lo que China puede hacer con sus recursos”, advierte Chang.
¿El modelo chino? Optimización extrema + código abierto + nacionalismo tecnológico. “Si otros siguen el ejemplo, las sanciones perderán sentido”, concluye Zhang. Mientras tanto, los códigos pueden ser de código abierto, pero DeepSeek no responde a los correos electrónicos de Wired (y mucho menos a los nuestros).
Definitivamente lo escucharemos.