Tout savoir sur la data science

Dans cet article, nous avons rassemblé les informations qui vont vous permettre de vous familiariser avec les principales bibliothèques utilisées en data science.

Elles sont regroupées selon les domaines pour lesquels chaque bibliothèque est conçue : Notions de base, bases de données, manipulation de données, visualisation de données, analyse, apprentissage automatique, apprentissage profond et traitement du langage naturel (NLP).

Notions de base

Si vous débutez dans le monde de la data science, il est important de comprendre le fonctionnement d'au moins deux des bibliothèques de base : Python et NumPy. Ces deux bibliothèques sont utilisées tout au long du processus de développement. La troisième bibliothèque, Scipy, est un outil mathématique qui peut gérer des calculs plus complexes que NumPy.

Notions de base de Python

Niveau: Débutant - Intermédiaire
Domaine: Notions de base
Description: Python est une bibliothèque standard sur laquelle la méthodologie de la science des données a été développée. La manière d'aborder et de structurer un projet est héritée de la façon dont nous travaillons sur Python.
Source: DataQuest

Notions de base de NumPy

Niveau: Débutant - Intermédiaire
Domaine: Notions de base
Description: NumPy est la bibliothèque mathématique Python par excellence (son nom est tiré de Numerical Python). Il nous permet de travailler plus efficacement avec les vecteurs et les matrices.
Source: DataCamp
Antisèches: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf

SciPy

Niveau: Avancé
Domaine: Notions de base
Description: La bibliothèqueSciPy a été développée pour fonctionner avec NumPy et est conçue pour des calculs numériques plus complexes, plus étroitement liés au calcul scientifique.
Source: DataCamp
Antisèches: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_SciPy_Cheat_Sheet_Linear_Algebra.pdf

Base de données

Les données peuvent être stockées dans des ensembles ou, parfois, dans des bases de données relationnelles ou non relationnelles qui sont importées dans la plateforme de travail.

SQL

Niveau: Débutant - Intermédiaire
Domaine: Bases de données relationnelles
Description: les bases de données relationnelles utilisent une structure de tableaux séparées qui stockent les données de manière plus efficace et créent des relations entre elles à l'aide de clés. SQL est le meilleur langage pour interroger les données stockées dans ces tableaux, grâce à sa polyvalence.
Source:sqltutorial
Antisèches: https://www.sqltutorial.org/sql-cheat-sheet/

MongoDB

Niveau: Débutant - Intermédiaire
Domaine: Bases de données non relationnelles
Description: les bases de données non relationnelles sont de plus en plus populaires, notamment en raison de l'essor des entreprises et des applications de big data, car elles permettent de surmonter les obstacles des structures de données que posent les bases de données relationnelles. MongoDB est le leader des bases de données distribuées.
Source: codecentric
Antisèche: https://blog.codecentric.de/files/2012/12/MongoDB-CheatSheet-v1_0.pdf

Manipulation des données

Avant de se lancer dans l'analyse des données, il est essentiel d'organiser les informations de l'ensemble des données afin de faciliter les opérations d'analyse nécessaires. Ce processus est connu sous le nom de manipulation des données.

Pandas

Niveau: Débutant - Intermédiaire
Domaine: Manipulation des données
Description: Pandas est la bibliothèque par excellence pour le traitement des données dans les DataFrames, en d’autres termes, elle nous permet de lire des enregistrements, de manipuler des données, de les regrouper et de les organiser de manière à faciliter notre analyse. Cette antisèche vous montre quelques étapes essentielles pour vous aider à utiliser la bibliothèque.
Source: DataCamp
Antisèche http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3

Enrichissement de données

Niveau: Débutant - Intermédiaire
Domaine: Manipulation des données
Description: Avant de procéder à une analyse, il est important de nettoyer le DataFrame et d'organiser nos données, car nous trouvons parfois des enregistrements en double, nuls ou invalides. Le processus de nettoyage du DataFrame afin de pouvoir l'utiliser pour notre analyse est connu sous le nom de Data Cleaning ou Data Wrangling.
Source: pandas
Antisèche: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Visualisation des données

La visualisation des données est la représentation graphique des données et est particulièrement importante pour effectuer des analyses ou présenter les résultats d'analyse, ce qui peut nous aider à découvrir des tendances, des valeurs aberrantes et des modèles dans les données.

Matplotlib

Niveau: Débutant
Domaine: Visualisation des données
Description: matplotlib est la première bibliothèque développée pour le traçage et les projections de cartes avec Python. Il offre un large éventail d'options pour dessiner des graphiques et les personnaliser, de la visualisation la plus simple à la plus complexe.
Source: DataCamp
Antisèche: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf

Seaborn

Niveau: Intermédiaire
Domaine: Visualisation des données
Description: La bibliothèque Seaborn est plus avancée que matplotlib et a été développée pour faciliter l'analyse statistique des données directement sur des graphiques.
Source: DataCamp
Antisèche: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf

Folium

Niveau: Intermédiaire
Domaine: Visualisation des données
Description: Dans le domaine de la visualisation, les cartes sont une forme de représentation très utile qui nous permet de décrire le positionnement et les distances géospatiales. Folium est une bibliothèque qui nous permet de générer des cartes et de représenter facilement des données à partir d'un ensemble de données, en rendant une représentation telle qu'une mapbox ou OpenStreetMap et en ajoutant des couches de données visuelles comme des points groupés ou une carte thermique.
Source: AndrewChallis

Apprentissage automatique

Les algorithmes d'apprentissage automatique nous permettent de faire des prédictions sur la base des données disponibles. Ils sont connus sous le nom d'algorithmes de régression ou de classification, selon le type de données en question. Ces processus peuvent être supervisés ou non supervisés, selon que le modèle d'apprentissage automatique est entraîné ou non à l'aide de données étiquetées, connues sous le nom de «ground truth».

Scikit-Learn

Niveau: Avancé
Domaine: Apprentissage automatique
Description: Scikit-Learn est une bibliothèque développée sur SciPy et conçue pour la modélisation de données: regroupement, manipulation de fonctionnalités, détection de valeurs aberrantes, sélection et validation de modèles. Elle est connue pour être robuste et facile à intégrer à d'autres bibliothèques Python.
Source: DataCamp
Antisèche: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf

Deep learning

Dans le domaine de l'apprentissage automatique, il existe un domaine plus spécifique appelé deep learning, qui utilise des réseaux neuronaux artificiels pour faire des prédictions.

Keras

Niveau: Avancé
Domaine: Apprentissage profond
Description: La bibliothèqueKeras est écrite en Python et peut fonctionner au-dessus de CNTK, TensorFlow et Theano, ce qui permet de générer et d'évaluer des modèles de réseaux neuronaux.
Source: DataCamp
Antisèche:
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf

Tensorflow

Niveau: Avancé
Domaine: Apprentissage profond
Description: Il s'agit d'une bibliothèque d'apprentissage profond de deuxième génération développée par Google. Il permet aux utilisateurs de créer des modèles à l'aide d'une API avec une couche d'abstraction inférieure ou supérieure, décrivant des opérations mathématiques ou des réseaux neuronaux, selon la préférence de l'utilisateur.
Source: Altoros
Antisèche
https://cdn-images-1.medium.com/max/2000/1*dtOZSuYDonyyBvEULpJALw.png

PyTorch

Niveau: Avancé
Domaine: Apprentissage profond
Description: PyTorch est une bibliothèque d’apprentissage profond développée par Facebook. C'est l'une des bibliothèques les plus récentes du marché et elle offre une interface pour travailler avec les tenseurs à un prix plus abordable que TensorFlow ou Keras, par exemple.
Source: PyTorch
Antisèche: https://pytorch.org/tutorials/beginner/ptcheat.html

Traitement du langage naturel (NLP)

Dans le domaine de la science des données, l'analyse du langage est un domaine qui gagne de plus en plus de terrain, avec des algorithmes qui ont été développés pour nous aider à analyser le texte.

NLTK

Niveau: Débutant - Intermédiaire
Domaine: NLP
Description: NLTK est l'une des premières bibliothèques développées pour l'analyse du langage naturel et permet aux utilisateurs d'effectuer des processus tels que la tokénisation, le stemming (analyse des lemmes), le comptage des caractères ou des mots, afin de lire et de comprendre le texte analysé.
Source: Cheatography
Antisèche: https://cheatography.com/murenei/cheat-sheets/natural-language-processing-with-python-and-nltk/

spaCy

Niveau: Avancé
Domaine: NLP
Description: spaCy est une bibliothèque de traitement du langage naturel qui analyse les textes à différents niveaux : NER (reconnaissance de noms, d'entités), analyse syntaxique ou similarité, à partir d'un modèle formé dans une langue. Elle nous permet également de créer des modèles à partir de zéro avec nos propres exemples qui reconnaissent les entités que nous définissons.
Source: DataCamp
Antisèche: http://datacamp-community-prod.s3.amazonaws.com/29aa28bf-570a-4965-8f54-d6a541ae4e06

Ces antisèches contiennent les fonctions et les méthodes de travail les plus utiles de chaque bibliothèque pour vous aider dans vos tâches de développement quotidiennes. Bon codage!
Et si vous souhaitez en savoir plus sur notre formation Data Analyst, n'hésitez pas à cliquer juste en dessous !

Notions de base

Notions de base de Python

Notions de base de NumPy

SciPy

Base de données

SQL

MongoDB

Manipulation des données

Pandas

Enrichissement de données

Visualisation des données

Matplotlib

Seaborn

Folium

Apprentissage automatique

Scikit-Learn

Deep learning

Keras

Tensorflow

PyTorch

Traitement du langage naturel (NLP)

NLTK

spaCy

Articles Similaires

Data engineer, data scientist ou data analyst

Data Science vs. Data Analytics

Libérer le potentiel de l’intelligence artificielle : machine learning et deep learning

Machine Learning vs Deep Learning

Qu’est-ce que l’apprentissage machine ?

Qu’est-ce que Python? Découvrez les 3 meilleures utilisations de la programmation Python

Recommandé pour vous

ChatGPT pour les développeurs Web

Qu'est-ce qu'un·e Tech Lead ?

Qu’est-ce que le pentesting et comment se lancer ?

Qu'est-ce que l'UX/UI design ?

JavaScript, HTML et CSS pour les nuls

5 raisons d’étudier en alternance chez Ironhack

Financer sa formation Ironhack : le guide complet

Le CV parfait pour les professionnels de la cybersécurité

Data : Business Intelligence et Business Analytics - kézako ?

Qu’est-ce qu’un Coding Bootcamp?

Comment la Tech influe le monde positivement

Comment débuter une carrière dans la cybersécurité en étant débutant

Prêt à rejoindre ?