E025_Mamba: Nueva Arquitectura Eficiente para la IA
Impossibile aggiungere al carrello
Rimozione dalla Lista desideri non riuscita.
Non è stato possibile aggiungere il titolo alla Libreria
Non è stato possibile seguire il Podcast
Esecuzione del comando Non seguire più non riuscita
-
Letto da:
-
Di:
A proposito di questo titolo
🧠 ¿Es el fin del dominio absoluto de los Transformers? Aunque los modelos actuales son increíbles, tienen un talón de Aquiles: se vuelven ineficientes con textos muy largos. En este episodio, exploramos el revolucionario paper “Mamba”, una nueva arquitectura presentada por Albert Gu y Tri Dao que propone una alternativa fascinante: los Espacios de Estados Selectivos (SSMs). Descubre cómo este modelo logra realizar un razonamiento basado en el contenido —la pieza que faltaba en las alternativas anteriores— permitiendo propagar o descartar información selectivamente, todo sin necesidad de los costosos bloques de atención ni MLPs. 🚀 ⚡ Más rápido, más eficiente y con un alcance masivo. Analizamos los impresionantes resultados de Mamba: una inferencia 5 veces más rápida que los Transformers y un escalado lineal capaz de procesar secuencias de hasta un millón de longitud. Lo más sorprendente es que el modelo Mamba-3B no solo supera a Transformers de su mismo tamaño, sino que iguala el rendimiento de aquellos que son el doble de grandes. Si quieres entender el futuro de la IA en lenguaje, audio y genómica, dale al play para conocer la arquitectura que promete redefinir el Deep Learning. 🎧✨ Fuentes: • Mamba: Linear-Time Sequence Modeling with Selective State Spaces (arXiv:2312.00752)