Apprendre Pandas : Guide Complet, Exercices et Exemples pour Débutants
Tu viens de dompter Numpy, tu te sens déjà comme un data-ninja… et soudain, tout le monde te parle d’un certain “Pandas”.
Non, pas l’animal mignon qui mâche du bambou, mais la bibliothèque Python incontournable pour manipuler les données.
Alors, c’est quoi Pandas ? Pourquoi tout le monde l’adore ? Et comment apprendre Pandas sans perdre ses cheveux ?
Spoiler : c’est plus simple (et plus fun) que tu ne le crois.
Qu’est-ce que Pandas ?
Pandas est une bibliothèque Python dédiée à la manipulation et à l’analyse de données.
Le mot “Pandas” vient de Python Data Analysis Library.
Imagine Numpy comme une calculatrice ultra-rapide.
Eh bien, Pandas, c’est cette calculatrice… mais avec un écran géant, des colonnes bien nommées, et un carnet de notes intégré.
Grâce à Pandas, tu peux :
- Lire un fichier CSV en une ligne,
- Trier et filtrer des données,
- Calculer des moyennes,
- Supprimer les valeurs manquantes,
- Et même analyser des millions de lignes sans transpirer.
C’est la bibliothèque préférée des data scientists, ingénieurs IA, analystes, et même des curieux qui veulent comprendre leurs données.
Pourquoi apprendre Pandas ?
Voici pourquoi Pandas est un passage obligatoire dans ton apprentissage Python :
- Facilité d’utilisation : lire, filtrer et transformer les données est simple et lisible.
- Puissance : Pandas peut gérer des millions de lignes en mémoire.
- Compatibilité : il fonctionne main dans la main avec Numpy, Matplotlib, Scikit-learn, et bien d’autres.
- Gain de temps : finis les boucles “for” à rallonge — Pandas vectorise tout.
- Clarté : ton code ressemble à une recette de cuisine, pas à une équation quantique.
💡 En résumé :
Numpy te donne les chiffres, Pandas te raconte leur histoire.
Installation et importation de Pandas
Avant toute chose, installe Pandas avec :
pip install pandas
Ensuite, importe-le dans ton code :
import pandas as pd
👉 Le raccourci pd
est la convention universelle.
Si tu fais ça, tu fais partie de la “team Pandas” officielle. 🐼
Les bases de Pandas
Créer une Series
Une Series, c’est une colonne de données.
import pandas as pd
s = pd.Series([10, 20, 30, 40, 50])
print(s)
Résultat :
0 10
1 20
2 30
3 40
4 50
dtype: int64
Chaque valeur a un index automatique (0 à 4).
Tu peux aussi définir tes propres index :
s = pd.Series([100, 200, 300], index=["A", "B", "C"])
print(s)
Créer un DataFrame
Un DataFrame, c’est un tableau à deux dimensions (comme une feuille Excel).
data = {
"Nom": ["Alice", "Bob", "Charlie"],
"Âge": [25, 30, 35],
"Ville": ["Paris", "Lyon", "Toulouse"]
}
df = pd.DataFrame(data)
print(df)
Résultat :
Nom Âge Ville
0 Alice 25 Paris
1 Bob 30 Lyon
2 Charlie 35 Toulouse
Lire un fichier CSV
Tu peux importer un fichier CSV directement :
df = pd.read_csv("data.csv")
Et voir les 5 premières lignes :
print(df.head())
Accéder à des colonnes et des lignes
print(df["Nom"]) # colonne
print(df.iloc[0]) # première ligne
print(df.loc[1, "Ville"]) # cellule
Manipuler les données avec Pandas
Trier les données
df.sort_values("Âge", ascending=False)
Filtrer selon une condition
df[df["Âge"] > 28]
Ajouter une nouvelle colonne
df["Salaire"] = [3000, 4000, 5000]
Supprimer une colonne
df = df.drop("Ville", axis=1)
Gérer les valeurs manquantes
df.dropna() # supprimer les lignes vides
df.fillna(0) # remplacer par zéro
Exercice 1 : Créons un DataFrame et analysons-le
Objectif : créer une table de ventes et calculer le total.
import pandas as pd
data = {
"Produit": ["PC", "Souris", "Clavier", "Écran"],
"Prix": [800, 25, 40, 150],
"Quantité": [5, 20, 10, 7]
}
df = pd.DataFrame(data)
df["Total"] = df["Prix"] * df["Quantité"]
print(df)
print("Chiffre d’affaires total :", df["Total"].sum())
✅ Résultat attendu : un mini-tableau de ventes avec calcul automatique du total.
Exercice 2 : Filtrer et grouper
Imaginons une table de ventes par région :
data = {
"Région": ["Nord", "Sud", "Nord", "Sud", "Est"],
"Ventes": [2000, 1500, 3000, 1200, 1800]
}
df = pd.DataFrame(data)
Afficher les ventes moyennes par région :
print(df.groupby("Région")["Ventes"].mean())
Résultat :
Est 1800
Nord 2500
Sud 1350
Name: Ventes, dtype: int64
Exercice 3 : Nettoyage de données
Un peu de données “sales” :
data = {
"Nom": ["Alice", "Bob", "Charlie", None],
"Âge": [25, None, 35, 40]
}
df = pd.DataFrame(data)
Nettoyons ça :
df = df.fillna({"Nom": "Inconnu", "Âge": df["Âge"].mean()})
print(df)
Pandas vs Numpy
Fonctionnalité | Numpy | Pandas |
---|---|---|
Structure principale | Array | DataFrame / Series |
Indexation | Positionnelle | Nominale + Positionnelle |
Lisibilité du code | Mathématique | Tabulaire et intuitive |
Manipulation de données | Numérique | Mixte (texte, nombres, dates) |
Objectif principal | Calcul scientifique | Analyse de données |
Support de fichiers | Non | Oui (CSV, Excel, SQL) |
Quand utiliser quoi ?
- Si tu fais du calcul pur : choisis Numpy.
- Si tu analyses un jeu de données : Pandas est ton meilleur ami.
Pandas dans le monde réel
Pandas est partout :
- En Data Science, pour nettoyer et analyser des jeux de données.
- En IA, pour préparer les données avant l’entraînement des modèles.
- En SIG (Système d’Information Géographique), pour traiter des données spatiales avec
GeoPandas
. - En marketing, pour explorer les ventes, comportements ou campagnes publicitaires.
Pour aller plus loin :
👉 Pourquoi Pandas (et Numpy) sont utiles en SIG
FAQ — Questions fréquentes sur Pandas
1. Quelle est la différence entre Pandas et Numpy ?
Numpy manipule des tableaux numériques.
Pandas va plus loin : il ajoute des colonnes nommées, des index, et la lecture/écriture de fichiers.
2. Pandas est-il difficile à apprendre ?
Pas du tout ! Avec un peu de pratique, Pandas devient naturel. Son approche “tableur + Python” aide les débutants à s’y retrouver facilement.
3. Pandas est-il utile en Data Science ?
Oui, c’est la base de toute analyse de données. Aucun data scientist ne travaille sans Pandas.
4. Quelle version de Python utiliser ?
Pandas fonctionne parfaitement à partir de Python 3.8+.
5. Peut-on utiliser Pandas pour le Machine Learning ?
Oui ! Pandas sert à préparer les données, étape essentielle avant d’entraîner un modèle IA avec Scikit-learn ou TensorFlow.
Conclusion : Pandas, la clé de la data moderne
En résumé, Pandas, c’est bien plus qu’une simple bibliothèque Python — c’est une révolution dans la manière dont les développeurs, chercheurs et entreprises manipulent leurs données. Grâce à ses DataFrames puissants, son intégration fluide avec Numpy, et sa simplicité d’utilisation, Pandas a redéfini la data analysis moderne.
Aujourd’hui, certaines des plus grandes entreprises américaines s’appuient sur Pandas pour analyser des volumes massifs de données :
- Google, pour la recherche et le machine learning,
- Netflix, pour recommander le bon film au bon moment,
- Airbnb, pour comprendre le comportement des voyageurs,
- Tesla, pour traiter les données issues des véhicules connectés,
- et Amazon, pour optimiser sa logistique et ses ventes mondiales.
Autrement dit, si tu maîtrises Pandas, tu parles le langage des plus grands. Que tu sois débutant ou futur data scientist, chaque ligne de code écrite avec Pandas te rapproche du monde passionnant de la data intelligence.
Alors, à ton clavier — et que le panda du Python soit avec to!
Souviens-toi : le secret de la maîtrise, c’est la régularité.
Et si tu veux aller encore plus loin, explore aussi Matplotlib ou Seaborn pour visualiser tes données.