La china DeepSeek lanza un modelo de IA “intermedio” camino de su próxima generación

PEKÍN, 29 sep (Reuters) -El desarrollador chino de inteligencia artificial DeepSeek publicó su último modelo “experimental”, que dice que es más eficiente de entrenar y mejor para procesar secuencias largas de texto que las iteraciones anteriores de sus grandes modelos lingüísticos.

En una publicación en el foro de desarrolladores Hugging Face, la empresa de Hangzhou calificó DeepSeek-V3.2-Exp de “paso intermedio hacia nuestra arquitectura de próxima generación”.

La arquitectura será probablemente el lanzamiento de producto más importante de DeepSeek desde que V3 y R1 conmocionaron a Silicon Valley y a los inversores en tecnología de fuera de China.

El modelo V3.2-Exp incluye un mecanismo denominado DeepSeek Sparse Attention, que, según la empresa china, puede reducir los costos de computación y aumentar el rendimiento de algunos tipos de modelos. DeepSeek afirmó el lunes en una publicación en X que está reduciendo los precios de las API en “más de un 50%”.

Aunque es poco probable que la arquitectura de nueva generación de DeepSeek agite los mercados como lo hicieron las versiones anteriores en enero, podría ejercer una presión significativa sobre rivales nacionales como Qwen, de Alibaba, y competidores estadounidenses como OpenAI, si consigue repetir el éxito de DeepSeek R1 y V3.

Para ello tendría que demostrar una gran capacidad por una fracción de lo que cobran y gastan sus competidores en la formación de modelos.

(Reporte de Eduardo Baptista y redacción Pekín; Editado en Español por Ricardo Figueroa)

Read more