Wir haben eine Sammlung von Spickzetteln zusammengestellt, damit Sie sich mit den wichtigsten in der Datenwissenschaft verwendeten Bibliotheken auseinandersetzen können.
Sie sind nach den Bereichen gruppiert, für die jede Bibliothek konzipiert ist: Grundlagen, Datenbanken, Datenbearbeitung, Datenvisualisierung, Analyse, maschinelles Lernen, Deep Learning und Natural Language Processing (NLP).
Grundlagen
Wenn Sie gerade erst in die Welt der Datenwissenschaft einsteigen, ist es wichtig zu verstehen, wie mindestens zwei der grundlegenden Bibliotheken funktionieren: Python und NumPy. Diese beiden Bibliotheken werden während des gesamten Entwicklungsprozesses verwendet. Die dritte Bibliothek, Scipy, ist ein mathematisches Werkzeug, das komplexere Berechnungen als NumPy verarbeiten kann.
Python-Grundlagen
Ebene: Anfänger — Fortgeschrittene
Bereich: Grundlagen
Beschreibung: Python ist eine Standardbibliothek, auf der die Methodik der Datenwissenschaft entwickelt wurde. Die Art und Weise, wie wir ein Projekt angehen und strukturieren, haben wir von unserer Arbeitsweise in Python übernommen.
Quelle: DataQuest
NumPy Basics
Ebene: Anfänger — Fortgeschrittene
Bereich: Grundlagen
Beschreibung: NumPy ist die mathematische Python-Bibliothek schlechthin (ihr Name stammt von Numerical Python). Sie ermöglicht uns, effizienter mit Vektoren und Matrizen zu arbeiten.
Quelle: DataCamp
Spickzettel: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf
SciPy
Ebene: Fortgeschritten
Bereich: Grundlagen
Beschreibung: Die SciPy-Bibliothek wurde für die Arbeit mit NumPy entwickelt und ist für komplexere numerische Berechnungen konzipiert, die enger mit dem wissenschaftlichen Rechnen verwandt sind.
Quelle: DataCamp
Spickzettel: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_SciPy_Cheat_Sheet_Linear_Algebra.pdf
Datenbank
Daten können in Datensätzen oder manchmal in relationalen oder nicht relationalen Datenbanken gespeichert werden, die in die Arbeitsplattform importiert werden.
SQL
Ebene: Anfänger — Fortgeschrittene
Bereich: Relationale Datenbanken
Beschreibung: Relationale Datenbanken verwenden eine Struktur aus separaten Tabellen, die Daten effizienter speichern und mithilfe von Schlüsseln Beziehungen zwischen ihnen herstellen. SQL ist dank seiner Vielseitigkeit die beste Sprache für die Abfrage von Daten, die in diesen Tabellen gespeichert sind.
Quelle: sqltutorial
Spickzettel: https://www.sqltutorial.org/sql-cheat-sheet/
MongoDB
Ebene: Anfänger — Fortgeschrittene
Bereich: Nicht-relationale Datenbanken
Beschreibung: Nicht relationale Datenbanken werden immer beliebter, insbesondere aufgrund des Anstiegs von Big-Data-Unternehmen und Apps, da sie es ermöglichen, die Barrieren der Datenstrukturen relationaler Datenbanken zu überwinden. MongoDB ist führend bei verteilten Datenbanken.
Quelle: codecentric
Spickzettel: https://blog.codecentric.de/files/2012/12/MongoDB-CheatSheet-v1_0.pdf
Datenbearbeitung
Bevor Sie mit der Datenanalyse beginnen, ist es wichtig, die Informationen des Datensatzes so zu organisieren, dass die erforderlichen Analysevorgänge einfacher durchgeführt werden können. Dieser Vorgang wird als Datenbearbeitung (Data Manipulation) bezeichnet.
Pandas
Ebene: Anfänger — Fortgeschrittene
Bereich: Datenbearbeitung
Beschreibung: Pandas ist die Bibliothek schlechthin für die Verarbeitung von Daten in DataFrames. Mit anderen Worten, sie ermöglicht uns, Datensätze zu lesen, Daten zu bearbeiten, zu gruppieren und sie so zu organisieren, dass unsere Analyse erleichtert wird. Dieser Spickzettel zeigt Ihnen einige wichtige Schritte, die Ihnen helfen, die Bibliothek zu benutzen.
Quelle: DataCamp
Spickzettel: http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3
Data Wrangling
Ebene: Anfänger — Fortgeschrittene
Bereich: Datenbearbeitung
Beschreibung: Vor der Durchführung einer Analyse ist es wichtig, den DataFrame zu bereinigen und unsere Daten zu organisieren, da wir manchmal doppelte, leere oder ungültige Datensätze finden. Das Bereinigen des DataFrame, damit wir ihn für unsere Analyse verwenden können, wird als Data Cleaning (Datenbereinigung) oder Data Wrangling (Datenaufbereitung) bezeichnet.
Quelle: pandas
Spickzettel: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
Datenvisualisierung
Datenvisualisierung ist die grafische Darstellung von Daten und ist besonders wichtig für die Durchführung von Analysen oder die Darstellung von Analyseergebnissen, die uns helfen können, Trends, Ausreißer und Muster in den Daten zu erkennen.
Matplotlib
Ebene: Anfänger
Bereich: Datenvisualisierung
Beschreibung: matplotlib ist die erste Bibliothek, die für die Darstellung von Karten und für Projektionen in Python entwickelt wurde. Sie bietet eine Vielzahl von Möglichkeiten, Diagramme zu zeichnen und anzupassen, von den einfachsten bis zu den kompliziertesten Visualisierungen.
Quelle: DataCamp
Spickzettel: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf
Seaborn
Ebene: Fortgeschritten
Bereich: Datenvisualisierung
Beschreibung: Die Seaborn-Bibliothek ist weiter fortgeschritten als Matplotlib und wurde entwickelt, um die statistische Analyse von Daten direkt auf Diagramme zu ermöglichen.
Quelle: DataCamp
Spickzettel: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf
Folium
Ebene: Fortgeschritten
Bereich: Datenvisualisierung
Beschreibung: Im Bereich der Visualisierung sind Karten eine sehr nützliche Darstellungsform, mit der wir die georäumliche Positionierung und Entfernungen darstellen können. Folium ist eine Bibliothek, die es uns ermöglicht, Karten zu generieren und Daten aus einem Datensatz einfach darzustellen, indem wir eine Darstellung wie eine Mapbox oder OpenStreetMap rendern und Ebenen visueller Daten wie Clusterpunkte oder eine Heatmap hinzufügen.
Quelle: AndrewChallis
Maschinelles Lernen
Algorithmen für maschinelles Lernen ermöglichen es uns, Vorhersagen auf der Grundlage verfügbarer Daten zu treffen. Diese sind entweder als Regressions- oder Klassifizierungsalgorithmen bekannt, abhängig von der Art der betreffenden Daten. Diese Prozesse können überwacht oder nicht überwacht werden, je nachdem, ob das Modell des maschinellen Lernens mit markierten Daten trainiert wird oder nicht, was als „Grundwahrheit“ bezeichnet wird.
Scikit-Learn
Ebene: Fortgeschritten
Bereich: Maschinelles Lernen
Beschreibung: Scikit-Learn ist eine auf SciPy aufbauende Bibliothek, die für die Datenmodellierung entwickelt wurde: Clustering, Feature Manipulation, Ausreißererkennung, Modellauswahl und Validierung. Sie ist dafür bekannt, sich robust und einfach in andere Python-Bibliotheken zu integrieren.
Quelle: DataCamp
Spickzettel: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf
Deep Learning
Im Bereich des maschinellen Lernens gibt es ein spezifischeres Gebiet, das als Deep Learning bekannt ist und künstliche neuronale Netze verwendet, um Vorhersagen zu treffen.
Keras
Ebene: Fortgeschritten
Bereich: Deep Learning
Beschreibung: Die Keras-Bibliothek ist in Python geschrieben und kann auf CNTK, TensorFlow und Theano ausgeführt werden, wodurch neuronale Netzwerkmodelle generiert und ausgewertet werden können.
Quelle: DataCamp
Spickzettel: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf
Tensorflow
Ebene: Fortgeschritten
Bereich: Deep Learning
Beschreibung: Dies ist eine Deep-Learning-Bibliothek der zweiten Generation, die von Google entwickelt wurde. Sie ermöglicht den Nutzern die Erstellung von Modellen über eine API mit einer unteren oder oberen Abstraktionsschicht, die je nach Vorliebe des Nutzers mathematische Operationen oder neuronale Netze skizziert.
Quelle: Altoros
Spickzettel: https://cdn-images-1.medium.com/max/2000/1*dtOZSuYDonyyBvEULpJALw.png
PyTorch
Ebene: Fortgeschritten
Bereich: Deep Learning
Beschreibung: PyTorch ist eine von Facebook entwickelte Deep-Learning-Bibliothek. Sie ist eine der neuesten Bibliotheken auf dem Markt und bietet eine Schnittstelle für die Arbeit mit Tensoren zu einem günstigeren Preis als TensorFlow oder Keras.
Quelle: PyTorch
Spickzettel: https://pytorch.org/tutorials/beginner/ptcheat.html
Natural Language Processing (NLP)
Im Bereich der Datenwissenschaft gewinnt die Sprachanalyse zunehmend an Boden, mit Algorithmen, die entwickelt wurden, um uns bei der Analyse von Text zu helfen.
NLTK
Ebene: Anfänger — Fortgeschrittene
Bereich: NLP
Beschreibung: NLTK ist eine der ersten Bibliotheken, die für die Analyse natürlicher Sprache entwickelt wurde, und ermöglicht es Benutzern, Prozesse wie Tokenisierung, Stemming (Lemma-Analyse), Zeichen- oder Wortzählung durchzuführen, um den zu analysierenden Text zu lesen und zu verstehen.
Quelle: Cheatographie
Spickzettel: https://cheatography.com/murenei/cheat-sheets/natural-language-processing-with-python-and-nltk/
spaCy
Ebene: Fortgeschritten
Bereich: NLP
Beschreibung: spacY ist eine Bibliothek zur Verarbeitung natürlicher Sprache, die Texte auf unterschiedlichen Ebenen analysiert: NER (Name, Entität, Erkennung), Parser (syntaktische Analyse) oder Ähnlichkeit, aus einem in einer Sprache trainierten Modell. Sie ermöglicht uns auch, Modelle von Grund auf mit unseren eigenen Beispielen zu erstellen, die die von uns definierten Entitäten erkennen.
Quelle: DataCamp
Spickzettel: http://datacamp-community-prod.s3.amazonaws.com/29aa28bf-570a-4965-8f54-d6a541ae4e06
Diese Spickzettel enthalten die nützlichsten Funktionen und Arbeitsmethoden jeder Bibliothek, die Sie bei Ihren täglichen Entwicklungsaufgaben unterstützen. Frohes Programmieren!