Ahora también los SSDs: Samsung propone descargar la "memoria" de los LLMs a los SSD

Cuando usas una IA como ChatGPT, esta tiene que "recordar" lo que has dicho antes para contestar bien. Guardar esos recuerdos consume mucha memoria de video (VRAM) de la GPU, que es carísima y limitada.

Samsung ha demostrado que, en lugar de comprar más GPUs costosas, se pueden usar SSDs para guardar esos "recuerdos" de forma temporal. Esto permite que la IA atienda a más personas al mismo tiempo, gaste la mitad de luz y no se bloquee ni se trabe.

El problema: La "falta de memoria" de la IA

Imagina que la IA es un estudiante muy inteligente pero con una mesa de trabajo (la memoria de la tarjeta de video) muy pequeña. Cada vez que le haces una pregunta larga, su mesa se llena de papeles con notas. Si se queda sin espacio, tiene que tirar las notas y volver a leer todo desde el principio, lo que lo hace muy lento.

Este "espacio" en modelos de IA se llama KV Cache. El problema hoy en día es que los modelos de IA son tan grandes que ya no caben en las mesas de trabajo estándar, lo que obliga a las empresas a gastar millones en más hardware (en GPUs con cantidades enormes de VRAM)

De hecho durante nuestra cobertura de CES 2026 nos enteramos de lo que va a traer NVIDIA con sus nuevos datacenters con "Vera-Rubin" que traerían 1TB de memoria VRAM por cada GPU y unos "racks" adicionales con hasta 16TB. Precisamente porque una de las limitaciones actuales de los LLMs es la ventana de contexto (la cual está ligada al tema del KV Cache pero no vamos a entrar en eso al menos en este artículo)

Entonces en lugar de intentar hacer la mesa más grande (lo cual es carísimo), Samsung propone poner una "memoria caché" justo al lado: con SSDs NVMe PCIe Gen5.

Para que esto funcione, el sistema hace lo siguiente:

Trabajo en equipo: En lugar de usar un solo disco, se usan 10 discos trabajando a la vez. Es como tener 10 cajeros en un supermercado en lugar de uno solo; así pueden mover muchísima información (hasta 37 GB por segundo) sin que el usuario note que se relentiza la respuesta.
Memoria compartida: Si una IA ya leyó un documento largo para un usuario, guarda esa "lectura" en el disco para que, si otro usuario pregunta lo mismo, no tenga que leerlo todo de nuevo.

Los beneficios: Más barato, más fresco y más rápido

Lo mejor de esta tecnología no es solo que la IA funcione, sino cómo mejora el lugar donde están los centros de datos:

Atiende a más personas: El mismo servidor ahora puede ayudar a casi el doble de usuarios al mismo tiempo.
Ahorro de energía: Como la tarjeta de video ya no tiene que trabajar tanto "releyendo" cosas, el consumo de luz baja casi a la mitad (47% menos).
Menos ruido: Al calentarse menos, los ventiladores no necesitan girar tan rápido. Es como si tu laptop dejara de sonar como una turbina de avión mientras trabajas.

¿Viejos conocidos? El RAID no ha muerto

De hecho, es muy curioso ver aparecer viejos conocidos, ya que 1 solo SSD (de momento) no es capaz de llegar a las velocidades pico necesarias para cubrir la carga de trabajo, el paper muestra el uso de un arreglo RAID en el setup, usando 10 SSDs NVME PM1753, alcanzando velocidades teóricas de hasta 140GB/s.

Y bien amigos, como podrán suponer esto también podría escalar como ya lo es con el tema de la memoria RAM hoy en día, sin embargo por otro lado, también podría significar un contrapeso, ya que de funcionar y ser tan económico como se menciona, podría bajar substancialmente la demanda de memoria en las fundiciones. Solo el tiempo dirá que ocurre.

Como siempre los estaré leyendo.

Galería de imágenes

blobid3.png

blobid5.png

blobid4.png

blobid2.png

Etiquetas

#Inteligencia Artificial #Almacenamiento #Samsung #Memoria

Comentarios

Los comentarios se cargarán automáticamente...

Artículos relacionados

La IA como infraestructura: la verdadera carrera tecnológica ya no es por el modelo, sino por el cómputo

Inteligencia Artificial

DESTACADO

La IA como infraestructura: la verdadera carrera tecnológica ya no es por el modelo, sino por el cómputo

La nueva carrera de la IA ya no es por el algoritmo, sino por la infraestructura que lo hace posible.

Ed Corsa•5 min

Sobre Ruedas

¿Autos o supercomputadoras? La carrera del software comienza

Según SANDISK los autos ya no se definen por su motor, sino por su software, ¿Necesidad de seguridad o desconexión total de la experiencia de manejo?

Ed Corsa•4 min

Drivers

El golpe de Intel con XeSS 3: Cuando el honor técnico vence al marketing de la escasez

Intel acaba de soltar una bomba en forma de driver. Con la versión WHQL 32.0.101.8509, la tecnología XeSS 3 Multi-Frame Generation (MFG) deja de ser una promesa para convertirse en una realidad para todo su ecosistema. Mientras otros te piden cambiar de gráfica o te dan soluciones a medias, Intel demuestra que con voluntad técnica se puede democratizar el rendimiento. Analizamos el despliegue técnico y por qué esto deja en evidencia a los "gigantes" de siempre.

Daniel Monty•3 min

Ver más artículos