Big Data Hebdo | Podcasts su Audible

Episodi

Episode 227 : Starburst et Trino avec Victor Coustenoble

Mar 18 2026
Dans cet épisode du Big Data Hebdo, Vincent Heuschling et Nicolas Steinmetz accueillent Victor Coustenoble pour une discussion sur Trino, Starburst. Découvrez l'historique, les cas d'usage, et les différenciateurs de ces moteurs SQL distribués, ainsi que leur impact sur la fédération de données et la gouvernance.

## au menu :
Historique de Trino et Presto
Cas d'usage de Trino dans le monde réel
Différenciateurs de Starburst et Trino
Architecture et déploiement de Trino
Fédération de données et Data Mesh
Intégration avec cloud et on-prem
Fonctionnalités avancées de Starburst
Contributions open source et communauté
## Chapitres

00:00 Introduction au Big Data Hebdo
01:18 Présentation de Victor Coustenoble et de Starburst
03:49 Comprendre Trino et son historique
12:12 Fonctionnement de Trino et cas d'usage
23:17 Clients et déploiement de Trino et Starburst
25:47 Gestion des connexions et du cache dans Starburst
28:50 Fonctionnalités premium de Starburst
30:35 Développements et contributions à Trino
32:48 Évaluation des alternatives à Snowflake et BigQuery
34:11 Déploiement hybride et souveraineté des données
35:57 Évolution du concept de Data Mesh
38:59 Préparation à l'ère agentique et intégration des data products

## Le BigdataHebdo
Le BigdataHebdo est le podcast Francophone de la Data et de l'IA.
Retrouvez plus de 200 épisodes https://bigdatahebdo.com
Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
Mostra di più Mostra meno
46 min

Impossibile aggiungere al carrello

Puoi avere soltanto 50 titoli nel carrello per il checkout.

Riprova più tardi

Riprova più tardi

Rimozione dalla Lista desideri non riuscita.

Riprova più tardi

Non è stato possibile aggiungere il titolo alla Libreria

Per favore riprova

Non è stato possibile seguire il Podcast

Per favore riprova

Esecuzione del comando Non seguire più non riuscita

Ascolta gratuitamente
Episode 226 : Starlake.AI avec Hayssam Saleh

Feb 20 2026

Vincent Heuschling reçoit Hayssam Saleh, créateur de **Starlake**, une plateforme data open source française née de la factorisation de projets clients depuis 2017-2018. L'épisode intervient dans un contexte de consolidation du marché (rachat de DBT et de SQLMesh par Fivetran), qui invite à challenger les solutions établies.

Starlake se distingue par une approche **entièrement déclarative** (YAML + SQL natif, sans Jinja) couvrant toute la chaîne data engineering : ingestion, transformation, orchestration et qualité des données. L'outil s'appuie sur les moteurs sous-jacents des plateformes cibles (Snowflake, BigQuery, Spark) et génère automatiquement les DAGs pour les orchestrateurs du marché (Airflow, Dagster, Snowflake Tasks).

Parmi les fonctionnalités marquantes : le **data branching** (branches de données à la manière de Git), l'inférence automatique de schémas YAML à partir de fichiers sources, un **transpiler SQL** multi-plateformes, et l'extraction du lineage depuis du SQL brut sans annotation. L'intégration récente de **DuckLake** ouvre la voie à des architectures on-premise souveraines à coût maîtrisé (sous 300 €/mois sur OVH, Scaleway, Clever Cloud).

Le modèle économique repose sur le support, la formation, et le consulting : Starlake s'installe dans le cloud du client, avec mise à jour automatique gérée par l'équipe, sans accès aux données.

**Chapitres**
**00:00:27** – Introduction : consolidation du marché data (rachat de DBT et SQLMesh par Fivetran) et présentation de l'épisode
**00:03:13** – Hayssam et la genèse de Starlake : parcours Spark/Scala, POC à 4 000 formats de fichiers (2017-2018)
**00:09:51** – Architecture et philosophie : load, transform, orchestration unifiés en déclaratif (YAML + SQL natif, pas de Jinja)
**00:00:18:18** – Starlake vs DBT : différences philosophiques, composabilité, fonctionnalités 100 % open source
**00:00:22:20** – Data branching, Starlake Labs (pipe syntax, transpiler SQL, lineage) et expérience développeur (DuckDB local, UI point-and-click)
**00:36:35** – Modèle open source et économique : licence Apache, support, formation, marketplace cloud souveraine
**00:43:42** – DuckLake : alternative on-premise/cloud souverain (OVH, Scaleway, Clever Cloud) et comment contribuer / démarrer

**Le BigdataHebdo**
Le BigdataHebdo est le podcast Francophone de la Data et de l'IA.
Retrouvez plus de 200 épisodes https://bigdatahebdo.com
Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q

Mostra di più Mostra meno

56 min

Impossibile aggiungere al carrello

Puoi avere soltanto 50 titoli nel carrello per il checkout.

Riprova più tardi

Riprova più tardi

Rimozione dalla Lista desideri non riuscita.

Riprova più tardi

Non è stato possibile aggiungere il titolo alla Libreria

Per favore riprova

Non è stato possibile seguire il Podcast

Per favore riprova

Esecuzione del comando Non seguire più non riuscita

Ascolta gratuitamente
Episode 225 : La guerre des agents SDK

Nov 4 2025

Dans cet épisode du BigData Hebdo, Vincent Heuschling et Paul Peton explorent les dernières annonces d'OpenAI, d’Anthropic et de Google concernant les agents AI et leur monétisation. Au programme les SDK, les workflows, etc...

**A retenir dans cet épisode**
- Les dernières annonces d'OpenAI, Anthropic, et Google.
- Les agents ont de l’argent, il commencent à être monétisés.
- OpenAI vise à concurrencer Google et l'App Store d'Apple.
- Les SDK sont essentiels pour le développement d'agents AI.
- La capacité de prise de décision des agents est cruciale pour leur efficacité.
- La tarification des gros modèles AI est démesurée.
- Les navigateurs AI soulèvent des questions éthiques.
- La connectivité des agents est un enjeu majeur.

**Le BigdataHebdo** Le BigdataHebdo est le podcast Francophone de la Data et de l'IA.
Retrouvez plus de 200 épisodes https://bigdatahebdo.com
Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
Mostra di più Mostra meno

55 min

Impossibile aggiungere al carrello

Puoi avere soltanto 50 titoli nel carrello per il checkout.

Riprova più tardi

Riprova più tardi

Rimozione dalla Lista desideri non riuscita.

Riprova più tardi

Non è stato possibile aggiungere il titolo alla Libreria

Per favore riprova

Non è stato possibile seguire il Podcast

Per favore riprova

Esecuzione del comando Non seguire più non riuscita

Ascolta gratuitamente
Episode 224 : Données non structurées et modern OCR

Oct 28 2025

Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe du Bigdata Hebdo discute des promesses des éditeurs, des difficultés rencontrées par les utilisateurs, et des mécanismes d'IA nécessaires pour traiter efficacement les documents.

On parle des enjeux liés à l'OCR, au chunking, et à l'importance des modèles d'embeddings.

00:00 Introduction
03:06 La promesse des éditeurs
08:05 Comprendre le RAG et son fonctionnement
11:06 Difficultés liées à l'OCR et à l'extraction de données
19:05 Recommandations pour l'optimisation des documents
28:46 Mistral Document AI et ses fonctionnalités
33:49 Chunking et gestion des documents
40:55 Fine-tuning des modèles d'embeddings
43:00 Formats de documents et leur pérennité
47:23 Conclusion et perspectives

Notes et ressources
https://bigdatahebdo.com/podcast/episode-224-donnees-non-structurees-et-modern-ocr
Mostra di più Mostra meno

51 min

Impossibile aggiungere al carrello

Puoi avere soltanto 50 titoli nel carrello per il checkout.

Riprova più tardi

Riprova più tardi

Rimozione dalla Lista desideri non riuscita.

Riprova più tardi

Non è stato possibile aggiungere il titolo alla Libreria

Per favore riprova

Non è stato possibile seguire il Podcast

Per favore riprova

Esecuzione del comando Non seguire più non riuscita

Ascolta gratuitamente
Episode 223 : Aerospike

Oct 16 2025

Dans cet épisode du Big Data Hebdo, Vincent Heuschling et Nicolas Wlodarczyk discutent des caractéristiques et des avantages de la base de données NoSQL Aerospike. Nicolas partage son parcours dans le domaine de l'IT et explique comment Aerospike se distingue par sa rapidité et sa scalabilité, et sa capacité à optimiser les infrastructures.

Chapitres
00:00:00 Introduction
00:01:42 Présentation d'Aerospike
00:21:03 Use-Cases
00:27:25 Réduction de l'Infrastructure et Efficacité
00:30:22 Intégration et Interopérabilité avec d'autres Systèmes
00:41:53 Modèles de Consommation et Licensing
00:49:12 Transactions et cohérence
00:58:43 Ressources

Notes et ressources
https://bigdatahebdo.com/podcast/episode-223-aerospike

Mostra di più Mostra meno

1 ora e 3 min

Impossibile aggiungere al carrello

Puoi avere soltanto 50 titoli nel carrello per il checkout.

Riprova più tardi

Riprova più tardi

Rimozione dalla Lista desideri non riuscita.

Riprova più tardi

Non è stato possibile aggiungere il titolo alla Libreria

Per favore riprova

Non è stato possibile seguire il Podcast

Per favore riprova

Esecuzione del comando Non seguire più non riuscita

Ascolta gratuitamente
Episode 222 - Chemise hawaienne et GPT5 qui flop

Oct 10 2025

Dans cet épisode du Big Data Hebdo, Vincent Heuschling, Paul Peton, et Jérôme Mainaud discutent des événements marquants de l'été 2025 dans le domaine de l'IA et du Big Data, notamment le drama autour de Luc Julia, du lancement raté de GPT5, de l'importance des modèles open source, et les initiatives européennes en matière de souveraineté technologique.
Mostra di più Mostra meno

53 min

Impossibile aggiungere al carrello

Puoi avere soltanto 50 titoli nel carrello per il checkout.

Riprova più tardi

Riprova più tardi

Rimozione dalla Lista desideri non riuscita.

Riprova più tardi

Non è stato possibile aggiungere il titolo alla Libreria

Per favore riprova

Non è stato possibile seguire il Podcast

Per favore riprova

Esecuzione del comando Non seguire più non riuscita

Ascolta gratuitamente
Episode 221 : Data vibe coding avec NAO

Aug 6 2025

Avec Christophe Blefari (aka Blef) on discute des défis actuels des équipes data et de la réponse apportée par NAO.

Comment le “Data vide coding” peut accélérer la productivité des projets data ?

On évoque aussi le passage par YC qui a eu un impact significatif sur le produit et la société.

On termine cet épisode avec le regard averti de Christophe sur le marché de la Data, et l’impact des LLM.

Plus sur :
https://bigdatahebdo.com/podcast/episode-221-data-vibe-coding-avec-nao
Mostra di più Mostra meno

1 ora e 6 min

Impossibile aggiungere al carrello

Puoi avere soltanto 50 titoli nel carrello per il checkout.

Riprova più tardi

Riprova più tardi

Rimozione dalla Lista desideri non riuscita.

Riprova più tardi

Non è stato possibile aggiungere il titolo alla Libreria

Per favore riprova

Non è stato possibile seguire il Podcast

Per favore riprova

Esecuzione del comando Non seguire più non riuscita

Ascolta gratuitamente
Episode 220 : Databricks Data and AI Summit 2025

Jul 25 2025
Dans cet épisode du Big Data Hebdo, Vincent Heuschling et Quentin Ambard reviennent sur le Data and AI Summit 2025 de Databricks.

En autres on parle de :
L'acquisition de Néon pour avoir une BDD au dessus du Lakehouse
Lakeflow Designer pour avoir une approche low-code
L'intégration de l'IA
Databricks One pour rendre l'interface plus accessible
Les améliorations du moteur SQL de Databricks
Agent Bricks qui simplifie le développement d'agents AI.
La data-gouvernance avec Unity Catalog.
Le Vector Search au dessus du lakehouse
Les inevitables troll envers Snowflake 🤣🤣🤣
Mostra di più Mostra meno
1 ora e 7 min

Impossibile aggiungere al carrello

Puoi avere soltanto 50 titoli nel carrello per il checkout.

Riprova più tardi

Riprova più tardi

Rimozione dalla Lista desideri non riuscita.

Riprova più tardi

Non è stato possibile aggiungere il titolo alla Libreria

Per favore riprova

Non è stato possibile seguire il Podcast

Per favore riprova

Esecuzione del comando Non seguire più non riuscita

Ascolta gratuitamente

Episodi

Episode 227 : Starburst et Trino avec Victor Coustenoble

Impossibile aggiungere al carrello

Rimozione dalla Lista desideri non riuscita.

Non è stato possibile aggiungere il titolo alla Libreria

Non è stato possibile seguire il Podcast

Esecuzione del comando Non seguire più non riuscita

Episode 226 : Starlake.AI avec Hayssam Saleh

Impossibile aggiungere al carrello

Rimozione dalla Lista desideri non riuscita.

Non è stato possibile aggiungere il titolo alla Libreria

Non è stato possibile seguire il Podcast

Esecuzione del comando Non seguire più non riuscita

Episode 225 : La guerre des agents SDK

Impossibile aggiungere al carrello

Rimozione dalla Lista desideri non riuscita.

Non è stato possibile aggiungere il titolo alla Libreria

Non è stato possibile seguire il Podcast

Esecuzione del comando Non seguire più non riuscita

Episode 224 : Données non structurées et modern OCR

Impossibile aggiungere al carrello

Rimozione dalla Lista desideri non riuscita.

Non è stato possibile aggiungere il titolo alla Libreria

Non è stato possibile seguire il Podcast

Esecuzione del comando Non seguire più non riuscita

Episode 223 : Aerospike

Impossibile aggiungere al carrello

Rimozione dalla Lista desideri non riuscita.

Non è stato possibile aggiungere il titolo alla Libreria

Non è stato possibile seguire il Podcast

Esecuzione del comando Non seguire più non riuscita

Episode 222 - Chemise hawaienne et GPT5 qui flop

Impossibile aggiungere al carrello

Rimozione dalla Lista desideri non riuscita.

Non è stato possibile aggiungere il titolo alla Libreria

Non è stato possibile seguire il Podcast

Esecuzione del comando Non seguire più non riuscita

Episode 221 : Data vibe coding avec NAO

Impossibile aggiungere al carrello

Rimozione dalla Lista desideri non riuscita.

Non è stato possibile aggiungere il titolo alla Libreria

Non è stato possibile seguire il Podcast

Esecuzione del comando Non seguire più non riuscita

Episode 220 : Databricks Data and AI Summit 2025

Impossibile aggiungere al carrello

Rimozione dalla Lista desideri non riuscita.

Non è stato possibile aggiungere il titolo alla Libreria

Non è stato possibile seguire il Podcast

Esecuzione del comando Non seguire più non riuscita