Dans cet article, nous avons rassemblé les informations qui vont vous permettre de vous familiariser avec les principales bibliothèques utilisées en data science.
Elles sont regroupées selon les domaines pour lesquels chaque bibliothèque est conçue : Notions de base, bases de données, manipulation de données, visualisation de données, analyse, apprentissage automatique, apprentissage profond et traitement du langage naturel (NLP).
Notions de base
Si vous débutez dans le monde de la data science, il est important de comprendre le fonctionnement d'au moins deux des bibliothèques de base : Python et NumPy. Ces deux bibliothèques sont utilisées tout au long du processus de développement. La troisième bibliothèque, Scipy, est un outil mathématique qui peut gérer des calculs plus complexes que NumPy.
Notions de base de Python
Niveau: Débutant - Intermédiaire
Domaine: Notions de base
Description: Python est une bibliothèque standard sur laquelle la méthodologie de la science des données a été développée. La manière d'aborder et de structurer un projet est héritée de la façon dont nous travaillons sur Python.
Source: DataQuest
Notions de base de NumPy
Niveau: Débutant - Intermédiaire
Domaine: Notions de base
Description: NumPy est la bibliothèque mathématique Python par excellence (son nom est tiré de Numerical Python). Il nous permet de travailler plus efficacement avec les vecteurs et les matrices.
Source: DataCamp
Antisèches: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf
SciPy
Niveau: Avancé
Domaine: Notions de base
Description: La bibliothèqueSciPy a été développée pour fonctionner avec NumPy et est conçue pour des calculs numériques plus complexes, plus étroitement liés au calcul scientifique.
Source: DataCamp
Antisèches: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_SciPy_Cheat_Sheet_Linear_Algebra.pdf
Base de données
Les données peuvent être stockées dans des ensembles ou, parfois, dans des bases de données relationnelles ou non relationnelles qui sont importées dans la plateforme de travail.
SQL
Niveau: Débutant - Intermédiaire
Domaine: Bases de données relationnelles
Description: les bases de données relationnelles utilisent une structure de tableaux séparées qui stockent les données de manière plus efficace et créent des relations entre elles à l'aide de clés. SQL est le meilleur langage pour interroger les données stockées dans ces tableaux, grâce à sa polyvalence.
Source:sqltutorial
Antisèches: https://www.sqltutorial.org/sql-cheat-sheet/
MongoDB
Niveau: Débutant - Intermédiaire
Domaine: Bases de données non relationnelles
Description: les bases de données non relationnelles sont de plus en plus populaires, notamment en raison de l'essor des entreprises et des applications de big data, car elles permettent de surmonter les obstacles des structures de données que posent les bases de données relationnelles. MongoDB est le leader des bases de données distribuées.
Source: codecentric
Antisèche: https://blog.codecentric.de/files/2012/12/MongoDB-CheatSheet-v1_0.pdf
Manipulation des données
Avant de se lancer dans l'analyse des données, il est essentiel d'organiser les informations de l'ensemble des données afin de faciliter les opérations d'analyse nécessaires. Ce processus est connu sous le nom de manipulation des données.
Pandas
Niveau: Débutant - Intermédiaire
Domaine: Manipulation des données
Description: Pandas est la bibliothèque par excellence pour le traitement des données dans les DataFrames, en d’autres termes, elle nous permet de lire des enregistrements, de manipuler des données, de les regrouper et de les organiser de manière à faciliter notre analyse. Cette antisèche vous montre quelques étapes essentielles pour vous aider à utiliser la bibliothèque.
Source: DataCamp
Antisèche http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3
Enrichissement de données
Niveau: Débutant - Intermédiaire
Domaine: Manipulation des données
Description: Avant de procéder à une analyse, il est important de nettoyer le DataFrame et d'organiser nos données, car nous trouvons parfois des enregistrements en double, nuls ou invalides. Le processus de nettoyage du DataFrame afin de pouvoir l'utiliser pour notre analyse est connu sous le nom de Data Cleaning ou Data Wrangling.
Source: pandas
Visualisation des données
La visualisation des données est la représentation graphique des données et est particulièrement importante pour effectuer des analyses ou présenter les résultats d'analyse, ce qui peut nous aider à découvrir des tendances, des valeurs aberrantes et des modèles dans les données.
Matplotlib
Niveau: Débutant
Domaine: Visualisation des données
Description: matplotlib est la première bibliothèque développée pour le traçage et les projections de cartes avec Python. Il offre un large éventail d'options pour dessiner des graphiques et les personnaliser, de la visualisation la plus simple à la plus complexe.
Source: DataCamp
Antisèche: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf
Seaborn
Niveau: Intermédiaire
Domaine: Visualisation des données
Description: La bibliothèque Seaborn est plus avancée que matplotlib et a été développée pour faciliter l'analyse statistique des données directement sur des graphiques.
Source: DataCamp
Antisèche: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf
Folium
Niveau: Intermédiaire
Domaine: Visualisation des données
Description: Dans le domaine de la visualisation, les cartes sont une forme de représentation très utile qui nous permet de décrire le positionnement et les distances géospatiales. Folium est une bibliothèque qui nous permet de générer des cartes et de représenter facilement des données à partir d'un ensemble de données, en rendant une représentation telle qu'une mapbox ou OpenStreetMap et en ajoutant des couches de données visuelles comme des points groupés ou une carte thermique.
Source: AndrewChallis
Apprentissage automatique
Les algorithmes d'apprentissage automatique nous permettent de faire des prédictions sur la base des données disponibles. Ils sont connus sous le nom d'algorithmes de régression ou de classification, selon le type de données en question. Ces processus peuvent être supervisés ou non supervisés, selon que le modèle d'apprentissage automatique est entraîné ou non à l'aide de données étiquetées, connues sous le nom de «ground truth».
Scikit-Learn
Niveau: Avancé
Domaine: Apprentissage automatique
Description: Scikit-Learn est une bibliothèque développée sur SciPy et conçue pour la modélisation de données: regroupement, manipulation de fonctionnalités, détection de valeurs aberrantes, sélection et validation de modèles. Elle est connue pour être robuste et facile à intégrer à d'autres bibliothèques Python.
Source: DataCamp
Antisèche: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf
Deep learning
Dans le domaine de l'apprentissage automatique, il existe un domaine plus spécifique appelé deep learning, qui utilise des réseaux neuronaux artificiels pour faire des prédictions.
Keras
Niveau: Avancé
Domaine: Apprentissage profond
Description: La bibliothèqueKeras est écrite en Python et peut fonctionner au-dessus de CNTK, TensorFlow et Theano, ce qui permet de générer et d'évaluer des modèles de réseaux neuronaux.
Source: DataCamp
Antisèche:
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf
Tensorflow
Niveau: Avancé
Domaine: Apprentissage profond
Description: Il s'agit d'une bibliothèque d'apprentissage profond de deuxième génération développée par Google. Il permet aux utilisateurs de créer des modèles à l'aide d'une API avec une couche d'abstraction inférieure ou supérieure, décrivant des opérations mathématiques ou des réseaux neuronaux, selon la préférence de l'utilisateur.
Source: Altoros
Antisèche
https://cdn-images-1.medium.com/max/2000/1*dtOZSuYDonyyBvEULpJALw.png
PyTorch
Niveau: Avancé
Domaine: Apprentissage profond
Description: PyTorch est une bibliothèque d’apprentissage profond développée par Facebook. C'est l'une des bibliothèques les plus récentes du marché et elle offre une interface pour travailler avec les tenseurs à un prix plus abordable que TensorFlow ou Keras, par exemple.
Source: PyTorch
Antisèche: https://pytorch.org/tutorials/beginner/ptcheat.html
Traitement du langage naturel (NLP)
Dans le domaine de la science des données, l'analyse du langage est un domaine qui gagne de plus en plus de terrain, avec des algorithmes qui ont été développés pour nous aider à analyser le texte.
NLTK
Niveau: Débutant - Intermédiaire
Domaine: NLP
Description: NLTK est l'une des premières bibliothèques développées pour l'analyse du langage naturel et permet aux utilisateurs d'effectuer des processus tels que la tokénisation, le stemming (analyse des lemmes), le comptage des caractères ou des mots, afin de lire et de comprendre le texte analysé.
Source: Cheatography
Antisèche: https://cheatography.com/murenei/cheat-sheets/natural-language-processing-with-python-and-nltk/
spaCy
Niveau: Avancé
Domaine: NLP
Description: spaCy est une bibliothèque de traitement du langage naturel qui analyse les textes à différents niveaux : NER (reconnaissance de noms, d'entités), analyse syntaxique ou similarité, à partir d'un modèle formé dans une langue. Elle nous permet également de créer des modèles à partir de zéro avec nos propres exemples qui reconnaissent les entités que nous définissons.
Source: DataCamp
Antisèche: http://datacamp-community-prod.s3.amazonaws.com/29aa28bf-570a-4965-8f54-d6a541ae4e06
Ces antisèches contiennent les fonctions et les méthodes de travail les plus utiles de chaque bibliothèque pour vous aider dans vos tâches de développement quotidiennes. Bon codage!
Et si vous souhaitez en savoir plus sur notre formation Data Analyst, n'hésitez pas à cliquer juste en dessous !