The Backlog.

DeepSeek, China y el futuro en 2025

Cover Image for DeepSeek, China y el futuro en 2025
Luciano Serra
Luciano Serra

DeepSeek, China y el futuro en 2025

Resumen

Este artículo analiza el impacto de DeepSeek en el panorama de la IA, las implicaciones geopolíticas de los modelos abiertos, y las tendencias que moldearán el campo en 2025. Exploramos desde mejoras técnicas hasta cambios en la adopción comercial de estas tecnologías.


La revolución del modelo abierto

La ventaja de DeepSeek es que es abierto, no pasó una semana entera y ya hay gente que pudo destilarlo para correrlo en una Mac Mini.

Lo único que ocurrió con la salida de este nuevo modelo es que se amplió el horizonte de los modelos abiertos, refrescando un panorama que venía con un amplio estancamiento contra los modelos cerrados de la competencia.

"La lectura correcta no es 'China está superando a Estados Unidos en IA', sino 'Los modelos de código abierto están superando a los propietarios'. DeepSeek se ha beneficiado de la investigación abierta y el código abierto (por ejemplo, PyTorch y Llama de Meta). Se pusieron al día con nuevas ideas y las construyeron sobre el trabajo de otros. Debido a que su trabajo es publicado y de código abierto, todos pueden beneficiarse de él. Ese es el poder de la investigación abierta y el código abierto."

Yann LeCun, VP & Chief AI Scientist en Meta

Esta observación de LeCun refuerza precisamente cómo los modelos abiertos están redefiniendo el panorama de la IA, demostrando que la innovación no conoce fronteras cuando se comparte el conocimiento.


El factor China

Steven Heidel sobre la confianza en un modelo Chino.

¿El modelo está censurado? Sí, es más, incluso evita responder preguntas que puedan ser anti-CCP o dejar mal parado a China.

Al ser abierto es posible reentrenarlo para ampliarlo y sacarle la capa de censura e incluso mejorarlo o adaptarlo. Esa es la ventaja de que sea open source.

No obstante eso no quita que sea una preocupación mayor para los laboratorios occidentales que ven como China se aproxima a una posición similar a la de Estados Unidos en el campo de la IA generativa.


La reacción del mercado

Es entendible el pánico que pasan algunos empleados de ciertas empresas y laboratorios de IA. La mayoría están en Estados Unidos y lo ven como una carrera contra China y otras naciones. Les da miedo que otros países tengan tal capacidad de fabricar modelos y perder el monopolio.

Pero esto es una ventaja para todo el mundo, incluso para esos mismos laboratorios que tampoco se sabe cómo tratan exactamente los inputs de sus usuarios/clientes.


El presente y futuro de la arquitectura

Volviendo a la realidad, ¿qué sigue después de que todos tengan modelos con test time computing? ¿Cuál será la siguiente técnica o tecnología que realmente rompa la nueva barrera cuando nos la volvamos a topar?

Personalmente, creía que habíamos llegado a un límite con los Transformers y tocaría cambiar a modelos como Mamba o buscar arquitecturas nuevas. Pero parece que aún hay cuerda para tirar de esta arquitectura.


Predicciones necesarias para 2025

No voy a hacer predicciones a largo plazo, pero estas son algunas tendencias que veremos:

  1. Mejores cadenas de razonamiento

Las cadenas de razonamiento de los pocos modelos que tenemos visibles y las pocas que se obtienen al hacer jailbreak poseen un razonamiento con bastante basura o poco útiles. No sería raro que se vean modificaciones o variaciones del TTC donde vemos al modelo tomar posiciones y generar soluciones opinadas para analizarlas y a partir de ellas generar una respuesta.

  1. Caché optimizado

En 2024 vimos implementación de KV cache en varios modelos y proveedores cerrados. La mayoría en beta y con muchos fallos. Probablemente en este 2025 veamos una evolución a un caché más efectivo a la hora de ahorrar tokens con menos alucinaciones y con ejecuciones más precisas, ya que no todo es solo predecir sino que a los clientes de las APIs también les interesa ahorrar costos además de que a los proveedores les interesa ahorrar cómputo para tener menores downtime y menos costos de ejecución.

  1. Modelos no razonadores más eficientes

DeepSeek sacudió el mercado con su modelo razonador. Pero algo que pasó muy por abajo del radar fueron las demostraciones que lanzaron de modelos destilados a partir del modelo razonador en modelos sin TTC que podían aumentar la calidad de sus respuestas a partir de la data de entrenamiento sintética generada por el modelo razonador, pasando en algunos casos mejoras en benchmarks de hasta un 40%.

  1. Agentes en el día a día

Los agentes no son nada nuevo en el campo. Prácticamente desde el 2022 se vienen saliendo papers de agentes que comenzaron a aparecer al poco tiempo de la salida de GPT-3 y posteriormente 3.5. Andrew Ng hace años viene hablando de agentes y de cómo estos pueden ser la próxima revolución en el campo.

El cambio comenzó a finales de 2024, cuando los grandes proveedores de modelos cerrados empezaron a ajustar sus modelos para funcionar más eficientemente como agentes. Un ejemplo claro fue Claude PC en diciembre, seguido por OpenAI en 2025 con su agente capaz de controlar un navegador virtualizado en la nube.

Todo esto llevará a que probablemente de aquí a 3 años veamos una explosión de agentes integrados en aplicaciones y servicios cotidianos, reemplazando a los chatbots y asistentes de voz actuales.

  1. Atención al cliente automatizada

Es cada vez más inminente la llegada de modelos que puedan atender a los clientes de forma totalmente autónoma, aprovechando los avances en agentes y arquitecturas especialmente diseñadas para el uso eficiente de herramientas.

Aunque la adopción es lenta, es inevitable que estos sistemas terminen reduciendo ampliamente o incluso reemplazando a los call centers y chatbots tradicionales, impulsados por su eficiencia y ahorro de costos a largo plazo.

  1. Multi modalidad en expansión

La multi modalidad aún no logró una velocidad de adopción masiva entre modelos cerrados y menos entre los abiertos.

Lamentablemente, los modelos con capacidades completas de audio multi modal son escasos. Sin embargo, 2025 promete cambios significativos, siguiendo la tendencia de 2024 donde varios modelos abiertos y cerrados avanzaron en modalidades de texto e imagen. Es cuestión de tiempo para que la multi modalidad se convierta en el estándar del campo.


Conclusión

2025 definitivamente será un año interesante para la IA y para el mundo en general. Rompiendo el estancamiento continuista en el que veníamos y sacudiendo la tierra de este campo que parecía estar estancado en un loop donde los grandes proveedores de modelos estaban lo suficientemente cómodos.

Los vientos están cambiando y es el momento ideal no solo para que los modelos abiertos se pongan a la par de los modelos cerrados sino que también para que los competidores atrasados tengan la oportunidad de ponerse al día y de competir en igualdad de condiciones pudiendo innovar con sus modelos.


Palabras clave: DeepSeek, IA, modelos abiertos, TTC, agentes IA, multi modalidad, futuro tecnológico