El problema: La "falta de memoria" de la IA
Imagina que la IA es un estudiante muy inteligente pero con una mesa de trabajo (la memoria de la tarjeta de video) muy pequeña. Cada vez que le haces una pregunta larga, su mesa se llena de papeles con notas. Si se queda sin espacio, tiene que tirar las notas y volver a leer todo desde el principio, lo que lo hace muy lento.
Este "espacio" en modelos de IA se llama KV Cache. El problema hoy en día es que los modelos de IA son tan grandes que ya no caben en las mesas de trabajo estándar, lo que obliga a las empresas a gastar millones en más hardware (en GPUs con cantidades enormes de VRAM)
De hecho durante nuestra cobertura de CES 2026 nos enteramos de lo que va a traer NVIDIA con sus nuevos datacenters con "Vera-Rubin" que traerían 1TB de memoria VRAM por cada GPU y unos "racks" adicionales con hasta 16TB. Precisamente porque una de las limitaciones actuales de los LLMs es la ventana de contexto (la cual está ligada al tema del KV Cache pero no vamos a entrar en eso al menos en este artículo)
Entonces en lugar de intentar hacer la mesa más grande (lo cual es carísimo), Samsung propone poner una "memoria caché" justo al lado: con SSDs NVMe PCIe Gen5.
Para que esto funcione, el sistema hace lo siguiente:
-
Trabajo en equipo: En lugar de usar un solo disco, se usan 10 discos trabajando a la vez. Es como tener 10 cajeros en un supermercado en lugar de uno solo; así pueden mover muchísima información (hasta 37 GB por segundo) sin que el usuario note que se relentiza la respuesta.
-
Memoria compartida: Si una IA ya leyó un documento largo para un usuario, guarda esa "lectura" en el disco para que, si otro usuario pregunta lo mismo, no tenga que leerlo todo de nuevo.
Los beneficios: Más barato, más fresco y más rápido
Lo mejor de esta tecnología no es solo que la IA funcione, sino cómo mejora el lugar donde están los centros de datos:
-
Atiende a más personas: El mismo servidor ahora puede ayudar a casi el doble de usuarios al mismo tiempo.
-
Ahorro de energía: Como la tarjeta de video ya no tiene que trabajar tanto "releyendo" cosas, el consumo de luz baja casi a la mitad (47% menos).
-
Menos ruido: Al calentarse menos, los ventiladores no necesitan girar tan rápido. Es como si tu laptop dejara de sonar como una turbina de avión mientras trabajas.
¿Viejos conocidos? El RAID no ha muerto
De hecho, es muy curioso ver aparecer viejos conocidos, ya que 1 solo SSD (de momento) no es capaz de llegar a las velocidades pico necesarias para cubrir la carga de trabajo, el paper muestra el uso de un arreglo RAID en el setup, usando 10 SSDs NVME PM1753, alcanzando velocidades teóricas de hasta 140GB/s.
Y bien amigos, como podrán suponer esto también podría escalar como ya lo es con el tema de la memoria RAM hoy en día, sin embargo por otro lado, también podría significar un contrapeso, ya que de funcionar y ser tan económico como se menciona, podría bajar substancialmente la demanda de memoria en las fundiciones. Solo el tiempo dirá que ocurre.
Como siempre los estaré leyendo.








Comentarios
Los comentarios se cargarán automáticamente...