Advanced LLM Optimization techniques
Impossibile aggiungere al carrello
Puoi avere soltanto 50 titoli nel carrello per il checkout.
Riprova più tardi
Riprova più tardi
Rimozione dalla Lista desideri non riuscita.
Riprova più tardi
Non è stato possibile aggiungere il titolo alla Libreria
Per favore riprova
Non è stato possibile seguire il Podcast
Per favore riprova
Esecuzione del comando Non seguire più non riuscita
-
Letto da:
-
Di:
A proposito di questo titolo
Welcome to another Data Architecture Elevator podcast! Today's discussion is hosted by Paolo Platter supported by our experts Antonino Ingargiola and Irene Donato.
In this episode, we explore effective strategies for optimizing large language models (LLMs) for inference tasks with multimodal data like audio, text, images, and video.
We discuss the shift from online APIs to hosted models, choosing smaller, task-specific models, and leveraging fine-tuning, distillation, quantization, and tensor fusion techniques. We also highlight the role of specialized inference servers such as Triton and Dynamo, and how Kubernetes helps manage horizontal scaling.
Don't forget to follow us on LinkedIn! Enjoy!
Ancora nessuna recensione