Comment nettoyer les données avec Pandas : Guide complet et exemples pratiques en Python
Dans le monde de la data science, nettoyer les données avec Pandas est une compétence essentielle. Avant toute analyse, les données doivent être préparées, corrigées et structurées. Or, dans la réalité, les fichiers contiennent souvent des valeurs manquantes, des doublons ou des formats incohérents.
Grâce à la bibliothèque Pandas de Python, tu peux facilement nettoyer les données avec Pandas et transformer un jeu de données brut en une base propre et exploitable pour tes projets de machine learning, d’analyse ou de visualisation.
Dans ce guide complet, nous allons découvrir étape par étape comment nettoyer les données avec Pandas :
👉 identifier les erreurs,
👉 gérer les valeurs manquantes,
👉 supprimer les doublons,
👉 corriger les types,
👉 et transformer tes données efficacement à l’aide d’exemples réels.
Pourquoi nettoyer ses données est essentiel ?
Avant d’apprendre comment nettoyer les données avec Pandas, comprenons pourquoi c’est si important.
Un jeu de données non nettoyé peut fausser tes analyses, générer des erreurs dans ton code et même tromper tes modèles prédictifs.
Un nettoyage efficace permet de :
- Supprimer les erreurs et incohérences ;
- Gérer les valeurs manquantes intelligemment ;
- Améliorer la qualité et la fiabilité des résultats ;
- Accélérer les traitements analytiques.
💡 Astuce : 80 % du temps d’un data scientist est consacré à Nettoyer les données avec Pandas, et seulement 20 % à l’analyse proprement dite !
Chargement du jeu de données
Avant de nettoyer les données avec Pandas, chargeons un fichier CSV réel.
import pandas as pd
# Chargement du jeu de données
df = pd.read_csv('ventes.csv')
# Aperçu des premières lignes
print(df.head())
Supposons que notre fichier ventes.csv contienne :
| Date | Produit | Prix | Quantité | Ville |
|---|---|---|---|---|
| 2025-01-01 | Ordinateur | 850 | 3 | Paris |
| 2025-01-02 | Clavier | NaN | 5 | Marseille |
| 2025-01-02 | Souris | 20 | NaN | Paris |
| 2025-01-03 | Ordinateur | 850 | 3 | Paris |
| 2025-01-04 | Écran | 150 | 2 | Lyon |
Tu remarques déjà des valeurs manquantes (NaN) et des doublons. On va maintenant les corriger avec Pandas.
Identifier et traiter les valeurs manquantes
Identifier les valeurs manquantes
print(df.isnull().sum())
Résultat possible :
Date 0
Produit 0
Prix 1
Quantité 1
Ville 0
Supprimer ou remplacer les valeurs manquantes
Option 1 : Supprimer les lignes incomplètes
df_clean = df.dropna()
Option 2 : Remplacer par une valeur par défaut
df['Prix'].fillna(df['Prix'].mean(), inplace=True)
df['Quantité'].fillna(0, inplace=True)
Ici, on remplace les prix manquants par la moyenne et les quantités manquantes par zéro.
C’est une méthode classique pour nettoyer données Pandas sans perdre d’informations importantes.
Gérer les doublons
Les doublons peuvent fausser tes statistiques. Pour nettoyer les données avec Pandas efficacement :
print(df.duplicated().sum())
df.drop_duplicates(inplace=True)
Bon réflexe : Toujours vérifier les doublons après avoir importé un jeu de données, surtout s’il provient de plusieurs sources.
Corriger les types de données
Les types de colonnes peuvent être incorrects, ce qui rend les opérations impossibles.
print(df.dtypes)
Par exemple, si Prix ou Quantité sont considérés comme des chaînes de caractères, il faut les convertir :
df['Prix'] = pd.to_numeric(df['Prix'], errors='coerce')
df['Quantité'] = pd.to_numeric(df['Quantité'], errors='coerce')
Et pour convertir les dates :
df['Date'] = pd.to_datetime(df['Date'])
Cette étape est cruciale pour nettoyer les données avec Pandas et rendre ton DataFrame exploitable pour les calculs et les graphiques.
Créer de nouvelles colonnes utiles
Une fois les données propres, tu peux enrichir ton jeu en créant de nouvelles colonnes :
df['Total'] = df['Prix'] * df['Quantité']
Cette opération simple montre comment nettoyer données Pandas puis les transformer pour générer de nouvelles informations pertinentes.
Normaliser les noms de colonnes
Les noms de colonnes incohérents compliquent les analyses.
Exemple :
df.columns = df.columns.str.lower().str.replace(' ', '_')
Résultat : les noms sont standardisés (prix_total au lieu de Prix Total).
Une bonne pratique à adopter dès le début pour bien nettoyer données Pandas.
Nettoyer les chaînes de caractères
Les textes contiennent souvent des espaces, des majuscules inutiles ou des caractères spéciaux.
df['ville'] = df['ville'].str.strip().str.lower()
C’est une étape clé pour nettoyer les données avec Pandas lorsque tu veux regrouper ou filtrer par texte.
Exemple réel : préparation pour une analyse de ventes
Prenons un scénario concret : tu veux analyser les ventes totales par ville après avoir nettoyer les données avec Pandas.
ventes_par_ville = df.groupby('ville')['Total'].sum().reset_index()
print(ventes_par_ville)
Résultat :
| Ville | Total |
|---|---|
| lyon | 300 |
| marseille | 100 |
| paris | 2550 |
Grâce à Pandas, tu obtiens un tableau clair, prêt pour la visualisation ou l’intégration dans un dashboard.
Transformer et fusionner plusieurs jeux de données
Souvent, tu dois nettoyer les données avec Pandas avant de fusionner différents fichiers.
clients = pd.read_csv('clients.csv')
ventes = pd.read_csv('ventes.csv')
# Nettoyage rapide
clients.dropna(inplace=True)
ventes.dropna(inplace=True)
# Fusion
data_finale = pd.merge(ventes, clients, on='client_id', how='inner')
Cette approche te permet d’obtenir une base consolidée, propre, et exploitable pour des analyses plus avancées.
Automatiser le nettoyage de données
Tu peux créer une fonction pour automatiser le processus de nettoyer les données avec Pandas :
def nettoyer_donnees(df):
df = df.drop_duplicates()
df = df.fillna(0)
df.columns = df.columns.str.lower().str.replace(' ', '_')
return df
Appel :
df = nettoyer_donnees(df)
Cette approche rend ton code plus réutilisable et professionnel.
Liens utiles
- 🔗 Créer une mini IA avec Python et ChatGPT
- 🔗 Optimiser le SEO de ton site avec ChatGPT et Python
- 🔗 Documentation officielle de Pandas (lien externe)
Conclusion
Apprendre à nettoyer les données avec Pandas efficacement, c’est comme apprendre à cuisiner avant de servir : tu prépares la base de ton travail de data analyst ou de data scientist.
Grâce aux outils puissants de Pandas, tu peux transformer un chaos de données en un tableau clair, cohérent et exploitable.
Souviens-toi : chaque ligne de code que tu écris pour nettoyer les données avec Pandas te rapproche d’analyses plus justes et de modèles plus performants.
