Dernières places pour nos sessions de janvier, postulez vite !
Retour à tous les articles

5 juin 2020 - 4 minutes

Ce qu'il faut savoir sur la data science

Des notions de bases aux différentes façons de traiter la donnée.

Ironhack

Changing The Future of Tech Education

Articles by Ironhack

Data Science & Machine Learning

Dans cet article, nous avons rassemblé les informations qui vont vous permettre de vous familiariser avec les principales bibliothèques utilisées en data science.

Elles sont regroupées selon les domaines pour lesquels chaque bibliothèque est conçue : Notions de base, bases de données, manipulation de données, visualisation de données, analyse, apprentissage automatique, apprentissage profond et traitement du langage naturel (NLP).

Notions de base

Si vous débutez dans le monde de la data science, il est important de comprendre le fonctionnement d'au moins deux des bibliothèques de base : Python et NumPy. Ces deux bibliothèques sont utilisées tout au long du processus de développement. La troisième bibliothèque, Scipy, est un outil mathématique qui peut gérer des calculs plus complexes que NumPy.

Notions de base de Python

  • Niveau: Débutant - Intermédiaire

  • Domaine: Notions de base

  • Description: Python est une bibliothèque standard sur laquelle la méthodologie de la science des données a été développée. La manière d'aborder et de structurer un projet est héritée de la façon dont nous travaillons sur Python.

  • Source: DataQuest

Notions de base de NumPy

SciPy

Base de données

Les données peuvent être stockées dans des ensembles ou, parfois, dans des bases de données relationnelles ou non relationnelles qui sont importées dans la plateforme de travail.

SQL

  • Niveau: Débutant - Intermédiaire

  • Domaine: Bases de données relationnelles

  • Description: les bases de données relationnelles utilisent une structure de tableaux séparées qui stockent les données de manière plus efficace et créent des relations entre elles à l'aide de clés. SQL est le meilleur langage pour interroger les données stockées dans ces tableaux, grâce à sa polyvalence.

  • Source:sqltutorial

  • Antisèches: https://www.sqltutorial.org/sql-cheat-sheet/

MongoDB

  • Niveau: Débutant - Intermédiaire

  • Domaine: Bases de données non relationnelles

  • Description: les bases de données non relationnelles sont de plus en plus populaires, notamment en raison de l'essor des entreprises et des applications de big data, car elles permettent de surmonter les obstacles des structures de données que posent les bases de données relationnelles. MongoDB est le leader des bases de données distribuées.

  • Source: codecentric

  • Antisèche: https://blog.codecentric.de/files/2012/12/MongoDB-CheatSheet-v1_0.pdf

Manipulation des données

Avant de se lancer dans l'analyse des données, il est essentiel d'organiser les informations de l'ensemble des données afin de faciliter les opérations d'analyse nécessaires. Ce processus est connu sous le nom de manipulation des données.

Pandas

  • Niveau: Débutant - Intermédiaire

  • Domaine: Manipulation des données

  • Description: Pandas est la bibliothèque par excellence pour le traitement des données dans les DataFrames, en d’autres termes, elle nous permet de lire des enregistrements, de manipuler des données, de les regrouper et de les organiser de manière à faciliter notre analyse. Cette antisèche vous montre quelques étapes essentielles pour vous aider à utiliser la bibliothèque.

  • Source: DataCamp

  • Antisèche http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3

Enrichissement de données

  • Niveau: Débutant - Intermédiaire

  • Domaine: Manipulation des données

  • Description: Avant de procéder à une analyse, il est important de nettoyer le DataFrame et d'organiser nos données, car nous trouvons parfois des enregistrements en double, nuls ou invalides. Le processus de nettoyage du DataFrame afin de pouvoir l'utiliser pour notre analyse est connu sous le nom de Data Cleaning ou Data Wrangling.

  • Source: pandas

  • Antisèche: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Visualisation des données

La visualisation des données est la représentation graphique des données et est particulièrement importante pour effectuer des analyses ou présenter les résultats d'analyse, ce qui peut nous aider à découvrir des tendances, des valeurs aberrantes et des modèles dans les données.

Matplotlib

Seaborn

Folium

  • Niveau: Intermédiaire

  • Domaine: Visualisation des données

  • Description: Dans le domaine de la visualisation, les cartes sont une forme de représentation très utile qui nous permet de décrire le positionnement et les distances géospatiales. Folium est une bibliothèque qui nous permet de générer des cartes et de représenter facilement des données à partir d'un ensemble de données, en rendant une représentation telle qu'une mapbox ou OpenStreetMap et en ajoutant des couches de données visuelles comme des points groupés ou une carte thermique.

  • Source: AndrewChallis

Apprentissage automatique

Les algorithmes d'apprentissage automatique nous permettent de faire des prédictions sur la base des données disponibles. Ils sont connus sous le nom d'algorithmes de régression ou de classification, selon le type de données en question. Ces processus peuvent être supervisés ou non supervisés, selon que le modèle d'apprentissage automatique est entraîné ou non à l'aide de données étiquetées, connues sous le nom de «ground truth».

Scikit-Learn

Deep learning

Dans le domaine de l'apprentissage automatique, il existe un domaine plus spécifique appelé deep learning, qui utilise des réseaux neuronaux artificiels pour faire des prédictions.

Keras

Tensorflow

  • Niveau: Avancé

  • Domaine: Apprentissage profond

  • Description: Il s'agit d'une bibliothèque d'apprentissage profond de deuxième génération développée par Google. Il permet aux utilisateurs de créer des modèles à l'aide d'une API avec une couche d'abstraction inférieure ou supérieure, décrivant des opérations mathématiques ou des réseaux neuronaux, selon la préférence de l'utilisateur.

  • Source: Altoros

  • Antisèche
    https://cdn-images-1.medium.com/max/2000/1*dtOZSuYDonyyBvEULpJALw.png

PyTorch

  • Niveau: Avancé

  • Domaine: Apprentissage profond

  • Description: PyTorch est une bibliothèque d’apprentissage profond développée par Facebook. C'est l'une des bibliothèques les plus récentes du marché et elle offre une interface pour travailler avec les tenseurs à un prix plus abordable que TensorFlow ou Keras, par exemple.

  • Source: PyTorch

  • Antisèche: https://pytorch.org/tutorials/beginner/ptcheat.html

Traitement du langage naturel (NLP)

Dans le domaine de la science des données, l'analyse du langage est un domaine qui gagne de plus en plus de terrain, avec des algorithmes qui ont été développés pour nous aider à analyser le texte.

NLTK

spaCy

  • Niveau: Avancé

  • Domaine: NLP

  • Description: spaCy est une bibliothèque de traitement du langage naturel qui analyse les textes à différents niveaux : NER (reconnaissance de noms, d'entités), analyse syntaxique ou similarité, à partir d'un modèle formé dans une langue. Elle nous permet également de créer des modèles à partir de zéro avec nos propres exemples qui reconnaissent les entités que nous définissons.

  • Source: DataCamp

  • Antisèche: http://datacamp-community-prod.s3.amazonaws.com/29aa28bf-570a-4965-8f54-d6a541ae4e06

 Ces antisèches contiennent les fonctions et les méthodes de travail les plus utiles de chaque bibliothèque pour vous aider dans vos tâches de développement quotidiennes. Bon codage!
Et si vous souhaitez en savoir plus sur notre formation Data Analyst, n'hésitez pas à cliquer juste en dessous !

  

Articles Similaires

Recommandé pour vous

Prêt à rejoindre ?

Plus de 10,000 personnes en réorientation professionnelle et entrepreneurs ont lancé leur carrière dans le secteur des technologies grâce aux bootcamps d'Ironhack. Commencez votre nouveau parcours professionnel et rejoignez la révolution technologique!