Este artículo se basa en la discusión del podcast de Lex Fridman: Escuche el episodio aquí.

En esta conversación, Lex Fridman habla con Dylan Patel y Nathan Lambert sobre los últimos avances en IA, centrándose en DeepSeek, las ambiciones de China en materia de IA, el papel de NVIDIA en la carrera mundial de la IA y el futuro de los megaclusters de IA. La conversación abarca los avances en materia de eficiencia de la IA, la batalla geopolítica por el dominio de los semiconductores y los actores clave que configuran el futuro de la inteligencia artificial.

La inteligencia artificial está evolucionando a una velocidad vertiginosa, pero no de la forma que la mayoría de la gente espera. 

Los titulares hablan de modelos más grandes, más parámetros y nuevas capacidades alucinantes. Pero, debajo de todo ese bombo publicitario, se está produciendo una revolución más silenciosa: la de hacer que la IA sea más eficiente, rentable y geopolíticamente estratégica. 

Y si prestas atención, notarás algo importante: la escena de IA de China se está acelerando de una manera que pocos vieron venir.

Modelos de IA más inteligentes: el enfoque de combinación de expertos

No es ningún secreto que los modelos de lenguaje de gran tamaño (LLM) requieren cantidades obscenas de potencia informática. Entrenar uno desde cero puede costar cientos de millones de dólares, ¿y ejecutarlo? Ese es otro pozo sin fondo de gastos. El futuro de la IA no se decidirá solo por quién tenga los mejores algoritmos, sino por quién descubra cómo construir modelos de IA potentes. sin quemando el PIB de una nación en costos de servidores. Y ahí es exactamente donde se está produciendo un cambio importante.

En lugar de aumentar infinitamente el tamaño de los modelos, los ingenieros están volviéndose más inteligentes respecto de cómo funcionan realmente estos sistemas.

 Ingresar mezcla de expertos modelos. 

Imaginemos que estamos reuniendo un grupo de especialistas, pero en lugar de hacer que cada experto trabaje en cada pregunta, activamos solo a los que son más adecuados para el trabajo. Así es exactamente como funcionan estos nuevos modelos. En lugar de tener una gigantesca red neuronal que procese cada solicitud a toda máquina, solo unos pocos submodelos "expertos" se activan en un momento dado. ¿El resultado? Enormes ganancias en eficiencia (reduciendo tanto el consumo de computación como el de energía) sin sacrificar la inteligencia.

Esto no es sólo teórico.

 Algunos de los modelos de IA más recientes que surgen de China están demostrando que este método funciona en aplicaciones del mundo real. Al ajustar con precisión la forma en que se asigna el cálculo, se obtiene un rendimiento que rivaliza con los mejores modelos occidentales, pero a una fracción del costo.

El gran avance en la optimización de bajo nivel

Esto nos lleva al siguiente gran cambio: optimización de bajo nivel.

 La mayoría de las empresas de IA dependen de marcos de software existentes como CUDA, desarrollado por NVIDIA, para entrenar sus modelos. Pero estos marcos no fueron diseñados para lograr la máxima eficiencia, sino para una usabilidad general. Las empresas que están logrando avances reales en este momento son las que están reingeniería La forma en que la IA utiliza el hardware. 

No solo utilizan GPU, sino que exprimen hasta la última gota de rendimiento de ellas, reescribiendo las reglas de programación de GPU para hacer que los cálculos sean más rápidos, más eficientes y significativamente más baratos.

La carrera por el poder computacional

Y cuando se trata de hardware, el tamaño importa.

 Algunos de los principales actores en el campo de la IA operan enormes clústeres de computación, básicamente granjas de servidores gigantes con decenas de miles de GPU. Para ponerlo en contexto, Meta tiene un clúster de entrenamiento de entre 60.000 y 100.000 GPU equivalentes a H100. Los modelos de IA más nuevos de China se están entrenando en clústeres de aproximadamente 50.000 GPU, potencia suficiente para mantenerse a la par de los mejores del mundo. 

La enorme magnitud de estas inversiones demuestra que la IA ya no es sólo una carrera armamentista de la industria tecnológica: es una prioridad nacional.

El tablero de ajedrez geopolítico de la IA

Por supuesto, el panorama de la IA no se trata solo de quién puede entrenar modelos más rápido, sino también de quién puede En realidad conseguir El hardware necesario. Y ahí es donde entra en escena la geopolítica. 

Estados Unidos ha implementado controles de exportación cada vez más estrictos sobre chips de inteligencia artificial de alta gama, restringiendo su venta a China. NVIDIA ha respondido fabricando versiones reducidas de sus GPU específicamente para el mercado chino. 

Esto significa que, si bien las empresas de inteligencia artificial chinas aún pueden entrenar modelos masivos, se ven obligadas a hacerlo con hardware ligeramente menos potente. Pero aquí está la parte interesante: estas restricciones están empujando a las empresas de inteligencia artificial de China a obtener aún más beneficios. más Eficientes. En lugar de abrirse paso a la fuerza hasta la cima con computación ilimitada, se ven obligados a innovar. 

Están optimizando el software, repensando las arquitecturas y encontrando formas de obtener mejoras de rendimiento que las empresas occidentales ni siquiera han considerado todavía. Las limitaciones, irónicamente, las están convirtiendo en competidores más fuertes.

¿Nos estamos acercando a la IAG?

Y luego está la gran pregunta que se cierne sobre todo: ¿qué tan cerca estamos de la Inteligencia Artificial General (AGI)? 

Algunos sostienen que los modelos actuales ya están mostrando algunos indicios de ello. La capacidad de la IA moderna para adaptarse a múltiples tareas (razonamiento, resolución de problemas, creatividad) sugiere que podríamos estar más avanzados en el camino hacia la IA general de lo que la gente cree. 

Y gracias a su poder de fabricación, China está en una posición privilegiada para acelerar el progreso. Mientras que Estados Unidos y Europa dominan el software de IA, China es la columna vertebral del hardware de IA. Controla una parte enorme de la cadena de suministro de semiconductores del mundo, lo que le da una ventaja en la producción en masa de los chips necesarios para entrenar e implementar sistemas de IA a gran escala.

Taiwán: el centro del universo de la IA

Esto nos lleva a Taiwán, el héroe anónimo de toda la carrera mundial de la IA. La Taiwan Semiconductor Manufacturing Company (TSMC) produce los chips de IA más avanzados del mundo. Casi todos los modelos de IA (ya sea el GPT de OpenAI, el Gemini de Google o los últimos sistemas de aprendizaje profundo de China) dependen de chips fabricados por TSMC.

 Si algo interrumpiera la cadena de suministro de TSMC, los efectos dominó se sentirían en todo el mundo. cada La inteligencia artificial ya no se limita a codificar innovaciones, sino que también tiene que ver con cadenas de suministro globales, alianzas estratégicas y estabilidad geopolítica.

El futuro de la IA: la eficiencia gana

Entonces, ¿dónde nos deja todo esto? 

La IA está pasando de ser una competencia de fuerza bruta para ver quién tiene el modelo más grande a un juego mucho más estratégico de eficiencia, dominio del hardware y posicionamiento geopolítico. Las empresas (y los países) que descubran cómo optimizar, escalar e implementar la IA de manera eficiente serán los que dominen el futuro. Y si no prestamos atención a estos cambios, nos estamos perdiendo la verdadera historia de hacia dónde se dirige la IA.

No se trata sólo de demostraciones llamativas o puntuaciones récord en los puntos de referencia.

 Se trata de quién de hecho El ganador de la carrera de la IA a largo plazo es aquel que crea modelos que no solo sean potentes, sino también prácticos, escalables y sostenibles. ¿Y esa carrera? Cada día se pone más interesante.

Publicado por León Jiang
PUBLICACIÓN ANTERIOR
También te puede interesar

Deja tu comentario:

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *