When Clean Data Is Actually Dirty
Impossibile aggiungere al carrello
Puoi avere soltanto 50 titoli nel carrello per il checkout.
Riprova più tardi
Riprova più tardi
Rimozione dalla Lista desideri non riuscita.
Riprova più tardi
Non è stato possibile aggiungere il titolo alla Libreria
Per favore riprova
Non è stato possibile seguire il Podcast
Per favore riprova
Esecuzione del comando Non seguire più non riuscita
-
Letto da:
A proposito di questo titolo
We often treat data cleaning as a neutral step.
Delete missing rows. Fill gaps with the mean. Move on.
But cleaning is not neutral. It is a modeling decision.
In this episode, we unpack the statistical consequences of deletion and simple imputation, and why what looks “clean” can fundamentally alter your estimand, distort variance, and bias inference.
We walk through:
- The formal role of the missingness indicator
- The difference between MCAR, MAR, and MNAR
- Why complete-case analysis is rarely as safe as it seems
- How mean imputation collapses variance and attenuates regression slopes
- When multiple imputation and inverse probability weighting are appropriate
- Why sensitivity analysis becomes essential under MNAR
If you cannot defend MCAR, deletion and mean imputation are high-risk defaults.
Cleaning is not preprocessing.
Cleaning is inference.
This episode is for data scientists, statisticians, epidemiologists, and analysts who want to bring rigor back to real-world data.
StatHarbor Analytics
Episodi
-
Feb 16 20266 minImpossibile aggiungere al carrello
Puoi avere soltanto 50 titoli nel carrello per il checkout.Riprova più tardiRiprova più tardiRimozione dalla Lista desideri non riuscita.
Riprova più tardiNon è stato possibile aggiungere il titolo alla Libreria
Per favore riprovaNon è stato possibile seguire il Podcast
Per favore riprovaEsecuzione del comando Non seguire più non riuscita
Ancora nessuna recensione