Hallo zusammen,
gibt es hier welche, die etwas über die TOK DBA24 berichten können?
Aufgabenstellungen etc.
Ich danke euch und viele Grüße
DBA24 Einführung in Data Science
Okay, habe heute geschrieben. Alles reiner Fließtext. Im großen und ganzen ist man gut damit getan, die Kontrollfragen aus dem Klausurvorbereitungszettel (und dem Begleitheft) zu lernen. ich hab auch mal meine Anki Karteikarten hochgeladen.
Für die Komplexaugaben wird aber auch Verständnis und nicht nur auswendig lernen vorausgesetzt.
1. Beschreibe die wesentlichen Unterschiede zwischen überwachtem und unüberwachtem Lernen. Nenne je drei Algorithmen und drei beispielhafte Anwendungsfälle (5 Punkte)
2. Erläutere die Precision und Recall Metriken. (4 Punkte)
3. Erläutere die Unterschiede zwischen Trainings-Sets, Test-Sets, und Validation-Sets. (6 Punkte)
4. Was ist TF-IDF in der Data Science und wofür wird es eingesetzt? (5 Punkte)
Komplexaufgaben (2 von 3; je 20 Punkte)
5.
a. Erläutere ein Standardvorgehen für ein Data Science Projekt anhand des CRISP-DM-Modells. (12 Punkte)
b. Erläutere Overfitting und Underfitting (2 Punkte)
c. Wie geht man mit fehlenden Datensätzen um? (6 Punkte)
6.
a. Erläutere k-Means Algorithmus. Was ist das, wie ist er aufgebaut, wie funktioniert er? Nenne Vor- und Nachteile. (12 Punkte)
b. PCA wird angewendet um einen Datensatz auf k Dimensionen zu reduzieren. Man will die Regularisierung reduzieren. Eignet sich dafür ein kleines oder hohes k besser? Warum? (2 Punkte)
c. Man hat eine Aufgabe bei der 1000 Spalten und mehrere tausend Zeilen vorhanden sind. Ziel ist es die Dimensionen zu reduzieren. Der Computer hat Speicherbeschränkungen. Wie geht man hier vor? (6 Punkte)
7. Alles Codefragen zu Python, NumPy, Pandas, etc.
Für die Komplexaugaben wird aber auch Verständnis und nicht nur auswendig lernen vorausgesetzt.
1. Beschreibe die wesentlichen Unterschiede zwischen überwachtem und unüberwachtem Lernen. Nenne je drei Algorithmen und drei beispielhafte Anwendungsfälle (5 Punkte)
2. Erläutere die Precision und Recall Metriken. (4 Punkte)
3. Erläutere die Unterschiede zwischen Trainings-Sets, Test-Sets, und Validation-Sets. (6 Punkte)
4. Was ist TF-IDF in der Data Science und wofür wird es eingesetzt? (5 Punkte)
Komplexaufgaben (2 von 3; je 20 Punkte)
5.
a. Erläutere ein Standardvorgehen für ein Data Science Projekt anhand des CRISP-DM-Modells. (12 Punkte)
b. Erläutere Overfitting und Underfitting (2 Punkte)
c. Wie geht man mit fehlenden Datensätzen um? (6 Punkte)
6.
a. Erläutere k-Means Algorithmus. Was ist das, wie ist er aufgebaut, wie funktioniert er? Nenne Vor- und Nachteile. (12 Punkte)
b. PCA wird angewendet um einen Datensatz auf k Dimensionen zu reduzieren. Man will die Regularisierung reduzieren. Eignet sich dafür ein kleines oder hohes k besser? Warum? (2 Punkte)
c. Man hat eine Aufgabe bei der 1000 Spalten und mehrere tausend Zeilen vorhanden sind. Ziel ist es die Dimensionen zu reduzieren. Der Computer hat Speicherbeschränkungen. Wie geht man hier vor? (6 Punkte)
7. Alles Codefragen zu Python, NumPy, Pandas, etc.
Du hast keine ausreichende Berechtigung, um die Dateianhänge dieses Beitrags anzusehen.
Zuletzt geändert von dergamler am 06.09.25 12:50, insgesamt 1-mal geändert.
Habe nochmal neugeschrieben und es war fast die gleiche Klausur. Teilaufgaben bei den Komplexaufgaben waren etwas anders angeordnet/gepunktet, sonst identisch.
Komplexaufgaben (2 von 3; je 20 Punkte)
5.
a. Erläutere ein Standardvorgehen für ein Data Science Projekt anhand des CRISP-DM-Modells. (12 Punkte)
b. PCA wird angewendet um einen Datensatz auf k Dimensionen zu reduzieren. Man will die Regularisierung reduzieren. Eignet sich dafür ein kleines oder hohes k besser? Warum? (2 Punkte)
c. Man hat eine Aufgabe bei der 1000 Spalten und mehrere tausend Zeilen vorhanden sind. Ziel ist es die Dimensionen zu reduzieren. Der Computer hat Speicherbeschränkungen. Wie geht man hier vor? (6 Punkte)
6.
a. Erläutere Overfitting und Underfitting. (6 Punkte)
b. Erläutere k-Means Algorithmus. Was ist das, wie ist er aufgebaut, wie funktioniert er? Wie wählt man k? Nenne Vor- und Nachteile. (8 Punkte)
c. Wie geht man mit fehlenden Datensätzen um? (6 Punkte)
7. (Python-Aufgaben; es werden Code-Schnipsel gegeben auf die sich zu beziehen ist)
a. Wie kann man den Index der Serie einen Namen zuweisen?
b. Wie bestimmt man die Häufigkeit der einzelnen Elemente der Serie?
c. Wie konvertiert man ein gegebenes Numpy-Array in Data-Frame Objekte mit x Zielen und y Spalten?
d. Führe die zwei Serien vertikal/Horizontal zusammen.
e. Wie bestimmt man den Mittelwert einer Reihe, die durch eine andere Reihen gruppiert ist?
Komplexaufgaben (2 von 3; je 20 Punkte)
5.
a. Erläutere ein Standardvorgehen für ein Data Science Projekt anhand des CRISP-DM-Modells. (12 Punkte)
b. PCA wird angewendet um einen Datensatz auf k Dimensionen zu reduzieren. Man will die Regularisierung reduzieren. Eignet sich dafür ein kleines oder hohes k besser? Warum? (2 Punkte)
c. Man hat eine Aufgabe bei der 1000 Spalten und mehrere tausend Zeilen vorhanden sind. Ziel ist es die Dimensionen zu reduzieren. Der Computer hat Speicherbeschränkungen. Wie geht man hier vor? (6 Punkte)
6.
a. Erläutere Overfitting und Underfitting. (6 Punkte)
b. Erläutere k-Means Algorithmus. Was ist das, wie ist er aufgebaut, wie funktioniert er? Wie wählt man k? Nenne Vor- und Nachteile. (8 Punkte)
c. Wie geht man mit fehlenden Datensätzen um? (6 Punkte)
7. (Python-Aufgaben; es werden Code-Schnipsel gegeben auf die sich zu beziehen ist)
a. Wie kann man den Index der Serie einen Namen zuweisen?
b. Wie bestimmt man die Häufigkeit der einzelnen Elemente der Serie?
c. Wie konvertiert man ein gegebenes Numpy-Array in Data-Frame Objekte mit x Zielen und y Spalten?
d. Führe die zwei Serien vertikal/Horizontal zusammen.
e. Wie bestimmt man den Mittelwert einer Reihe, die durch eine andere Reihen gruppiert ist?