Skip to content
Snippets Groups Projects
Commit 708d13b0 authored by Christof Kaufmann's avatar Christof Kaufmann
Browse files

Notebooks from applied-cs/data-science@37de694d

parent 4e8a31d9
Branches
No related tags found
No related merge requests found
%% Cell type:markdown id:0008-807056fbb7dc9180c1cef92d674cbb5d4cbfcaa19fc89cabde2b2821b8c tags:
# Old Faithful Geysir
![](attachment:old-faithful.jpg "Gemälde des Old Faithful Geysir")
Der Old Faithful Geysir ist ein Geysir im Yellowstone-Nationalpark in
den USA. Er ist bekannt für seine regelmäßigen Ausbrüche, die alle 34
bis 125 Minuten auftreten und 1.5 bis 5 min andauern. Der Geysir kann
Wasser bis zu einer Höhe von 56 Metern ausstoßen.
## a) Einlesen und einfache Statistik
In der Datei `old-faithful-1938.csv` sind 272 aufeinanderfolgende Daten
von 1938 zu Eruptionen des Old Faithful Geysirs gespeichert. Die Spalten
sind:
- `eruption_duration`: Dauer des Ausbruchs in Minuten
- `waiting_time`: Zeit bis zum nächsten Ausbruch in Minuten
Lesen Sie die Daten mit Pandas ein und ermitteln Sie die kürzeste,
längste und mittlere Wartezeit bis zur nächsten Eruption.
### Lösung zu a)
Wir laden zunächst die Daten:
%% Cell type:code id:0009-b55382a5d67a7d482fceb0474f9df51e36848047f1fd89b487ae10cdd03 tags:
```
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
df1 = pd.read_csv('old-faithful-1938.csv')
```
%% Cell type:markdown id:0010-0e9af1d0355bcff4f08204299d01a4f4d0a305729d374a1e85ab8e97d48 tags:
Nun können wir die Werte mit `min`, `max` und `mean` ermitteln:
%% Cell type:code id:0011-46bbabe4d35d2f1fe47dc7062500f23e6553edba827c1f11a9ed93e81d6 tags:
```
shortest = df1['waiting_time'].min()
longest = df1['waiting_time'].max()
average = df1['waiting_time'].mean()
```
%% Cell type:markdown id:0013-a201a2eb23ee94cf852ac27a8e841d0555ed7620cd8a5851967c742baba tags:
### Tests zu a)
Hier eine Ausgabe mit den statischen Werten:
%% Cell type:code id:0014-9138aae2c7a798439e7af9c10aaea671af179a5f4494248d429f09101f0 tags:
```
print("Old Faithful bricht alle", shortest, "bis", longest, "min und alle", average, "min im Mittel aus.")
```
%% Output
Old Faithful bricht alle 43 bis 96 min und alle 70.8970588235294 min im Mittel aus.
%% Cell type:markdown id:0021-e2cf21287fd774120df13b7ccb89959512a5f8e6cd4e5c083b174637554 tags:
## b) Messdauer
<p><img
src="" /></p>
Die Messungen fanden alle nacheinander statt. Wenn Sie davon ausgehen,
dass die Wartezeit jeweils direkt bis zum nächste Ausbruch geht und nach
dem Ausbruch direkt die nächste Wartezeit beginnt, wie lange hat es
gedauert den gesamten Datensatz aufzunehmen? Geben Sie die Zeitdauer in
Tagen, Stunden und Minuten an.
### Lösung zu b)
Wir summieren zunächst alles auf. Das machen wir hier mit zwei Aufrufen
von `sum`. Der erste Aufruf summiert spaltenweise auf, also jeweils alle
Eruptionsdauern und alle Wartezeiten. Der zweite Aufruf addiert die
beiden Werte.
Anschließend teilen wir die Summe durch 60 um die Zeit in Minuten zu
erhalten. Dann teilen wir durch 24 um die Zeit in Tagen zu erhalten. Da
wir nur ganze Tage zählen wollen (weil wir ja noch kleine Einheiten
haben), nehmen wir direkt die Integer-Division mittels `//`. Für die
Stunden bestimmen wir erst mittels `// 60` die ganzen Stunden und
ermitteln dann mit `% 24` die übrig gebliebenen Stunden, wenn man durch
24 teilen würde. Für die Minuten müssen wir die Restlichen Minuten
haben, die nicht in den Stunden enthalten sind.
Zum Schluss fügen wir noch eine Probe hinzu, ob die Werte ungefähr (bis
auf 7 Nachkommastellen) gleich sind.
%% Cell type:code id:0022-8de0ea7526873d5e4bd97141b36dc9231fed3d09bfeb817b6c5021b9bbc tags:
```
total_duration_min = df1.sum().sum()
total_days = total_duration_min // (60 * 24)
total_hours = total_duration_min // 60 % 24
total_minutes = total_duration_min % 60
np.testing.assert_almost_equal(total_duration_min, total_days * 60 * 24 + total_hours * 60 + total_minutes)
```
%% Cell type:markdown id:0023-5c06a410812f3c83669b96e7f3d60a66cf144d3e8242a7f8b32dba0b906 tags:
Nun geben wir die Werte aus:
%% Cell type:code id:0024-760c2dfab162bda32f34a5271a5a2635a7fa672bed6cda7bcc1a8825bf9 tags:
```
print("Die Messung dauerte", total_days, "Tage,", total_hours, "Stunden und", total_minutes, "Minuten.")
```
%% Output
Die Messung dauerte 14.0 Tage, 1.0 Stunden und 12.67699999999968 Minuten.
%% Cell type:markdown id:0029-416a1d039c0c2ab3e9216049a939e3ac5e81cbb503c17db2f9d24fb8f51 tags:
## c) Differenz der Wartezeiten
Berechnen Sie die Differenzen der Wartezeiten. Zum Beispiel beträgt die
erste Wartezeit 79 min und die zweite 54 min. Die Differenz ist also -25
min. Geben Sie die größte Abnahme und die größte Zunahme der Wartezeiten
als Absolutzahlen aus.
Plotten Sie anschließend das Histogramm der Differenzen um zu sehen, ob
sich die Wartezeiten vielleicht nur langsam verändern oder langsame
Änderungen zumindest wahrscheinlicher als schnelle Änderungen sind.
### Lösung zu c)
Wir verwenden hier die Methode `diff` um die Differenzen zu berechnen.
Diese Methode gibt uns die Differenz des aktuellen Wertes mit dem
vorherigen Wert zurück. Das erste Element ist immer `NaN`, weil es
keinen vorherigen Wert gibt. Alternativ hätte man auch `np.diff` oder
`df1['waiting_time'].iloc[1:] - df1['waiting_time'].iloc[:-1].to_numpy()`
(Vorsicht: Ohne \`to_numpy() tritt Alignment auf) verwenden können.
%% Cell type:code id:0030-5e54e3b321c98f109a79559471203fec83cb4ddd0fe78f9ad4094820cb9 tags:
```
diff = df1['waiting_time'].diff()
max_decrease = abs(diff.min())
max_increase = diff.max()
```
%% Cell type:markdown id:0031-a8d9b30204e7d23cda4faf21aed3f18a4f3d119edae04f3dc950e68a845 tags:
Wir geben die größte Abnahme und die größte Zunahme der Wartezeiten aus:
%% Cell type:code id:0032-d7b56d7413bf5af0c5995e70d3d20a689b96a25e117d3d60dd155714b18 tags:
```
print("Die größte Abnahme der Wartezeiten beträgt", max_decrease, "min und die größte zunahme", max_increase, "min.")
```
%% Output
Die größte Abnahme der Wartezeiten beträgt 45.0 min und die größte zunahme 47.0 min.
%% Cell type:markdown id:0033-89b9c6a0d707d92e5aa62c4d01d46b20b48df425cbc54abd7dde0e45f9e tags:
Da `diff` eine Pandas Series ist, können wir einfach die Methode `hist`
oder `plot.hist` aufrufen um das Histogramm zu plotten:
%% Cell type:code id:0034-86a0bd19c284b2d3344bb726a5942fe1e0f3d428a3a8b08f733a07c1262 tags:
```
diff.hist(bins=15)
```
%% Cell type:markdown id:0039-3f6fa9a68f5102f22bcf39cf650fb1a099818131783672880cd19d606e3 tags:
Bei so wenigen Daten ist die Interpretation des Plots nicht eindeutig.
Man sieht aber fast eine gleichmäßige Verteilung. Die Ränder kommen
weniger häufig vor, was aber auch klar ist, weil die Wartezeiten ja
einen kleinsten und größten Wert haben und nur von diesen die
größtmöglichen Differenzen kommen können, während die anderen
Differenzen auch von vielen anderen Werten kommen können. Allerdings
erkennt man keine klare Häufung um 0 herum. Also gibt es durchaus große
Sprünge in den Wartezeiten.
## d) Modellierung
Wenn man ein Modell erstellt, will man auch wissen, wie gut es ist.
Daher macht man oft ein triviales Modell, damit man einen Vergleichswert
hat. Als triviales Modell für die Wartezeit nehmen wir zunächst eine
konstante Vorhersage und zwar den Mittelwert der Wartezeiten. Wie hoch
ist der mittlere absolute Fehler (MAE) und die Wurzel aus dem mittleren
quadratischen Fehler (RMSE) für das triviale Modell? Berechnen Sie die
Werte ohne Schleifen.
$$MAE = \frac 1 n \sum_{i=0}^{n-1} |y - \hat y| = \frac{1}{272} \cdot (|54 - 70.9| + |74 - 70.9| + \dots + |74 - 70.9|)$$
$$RMSE = \sqrt{\frac 1 n \sum_{i=0}^{n-1} (y - \hat y)^2}$$
Dabei ist $\hat y$ die Vorhersage, also zunächst die mittlere
Wartedauer.
%% Cell type:code id:0040-44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855 tags:
```
```
%% Cell type:markdown id:0042-1314ebc28c0c6337a876c6bd3e8c27e6be258572fb9e604a2eaca71f30b tags:
Als nächstes betrachten wir als Modell als nächste Wartezeit die
vorherige Wartezeit vorherzusagen. Wie hoch wären die Fehlerwerte dann?
Die Berechnung des MAE wäre also
$$MAE = \frac{1}{271} \cdot (|54 - 79| + |74 - 54| + \dots + |74 - 46|)$$
%% Cell type:code id:0043-44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855 tags:
```
```
%% Cell type:markdown id:0046-1e5c2934b1940cf84478bfd1fb46024b3cb859d8a2560b75aa40dad6944 tags:
Wenn man die Fehlerwerte verschiedener Modelle vergleicht, kriegt man
ein Gefühl dafür, wie gut ein Modell ist.
Schauen Sie sich nun die Daten mit einem Pairplot mit Kernel Density
Estimation (KDE) Plots auf der Diagonalen (`diag_kind`) an (siehe
[Doku](https://seaborn.pydata.org/generated/seaborn.pairplot.html)).
*Bonus: Versuchen Sie ein besseres Modell zu entwickeln! Sie dürfen auch
die aktuelle Eruptionsdauer verwenden. Denken Sie daran nur einen Teil
der Daten für das Training und einen Teil als Test zu verwenden. Streng
genommen hätten wir vorhin den Mittelwert auch nur auf der Trainingmenge
bilden und auf der Testmenge den Fehler ermitteln dürfen.*
%% Cell type:code id:0047-44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855 tags:
```
```
%% Cell type:markdown id:0049-4795a7dcddb40541fbeaae65108031f38bfa3a6627064153e12223b7d08 tags:
### Lösung zu d)
Den Mittelwert haben wir in `average` abgelegt und wir können ihn für
die Fehlerberechnung verwenden:
%% Cell type:code id:0050-00c55c0abc106a9ad5ac0ac32e11aae24656f89b882f1d8582fa0469f38 tags:
```
avg_err = (df1['waiting_time'] - average)
avg_mae = avg_err.abs().mean()
avg_rmse = np.sqrt((avg_err ** 2).mean())
```
%% Cell type:code id:0051-4478840585df093490445e59c5ccf24eda25d0d3b27a51c145430efee69 tags:
```
print(f'Mittelwertmodell. MAE: {avg_mae:.2f}, RMSE: {avg_rmse:.2f}')
```
%% Output
Mittelwertmodell. MAE: 11.95, RMSE: 13.57
%% Cell type:markdown id:0052-a044d32a03db5f17e9ff2d070681ae4f072c0b3637218db14e62e703e81 tags:
Für die Berechnung des Fehlers des Modells, das die letzte Wartezeit als
Vorhersage verwendet, können wir `diff` verwenden, wo ja schon die
Differenzen zur jeweils letzten Wartezeit berechnet sind:
%% Cell type:code id:0053-bd8c089f3966459bfa34576d28c9ad516465013f51e8efc48a8b5198e4d tags:
```
diff_mae = diff.abs().mean()
diff_rmse = np.sqrt((diff ** 2).mean())
```
%% Cell type:code id:0054-db2c4202bfb4831517feefb877a6d812bf8dbf87198d83bf968f45183e8 tags:
```
print(f'Letzte-Wert-Modell. MAE: {diff_mae:.2f}, RMSE: {diff_rmse:.2f}')
```
%% Output
Letzte-Wert-Modell. MAE: 20.52, RMSE: 23.85
%% Cell type:markdown id:0055-be44853a9b6976808192db735ad24190d023eb9e284633973adc0d2afb6 tags:
Nun schauen wir uns den Pairplot an und erkennen, dass es einen
Zusammenhang zwischen der Eruptionsdauer und der Wartezeit gibt:
%% Cell type:code id:0056-7fca65c15a5eee1266e38df1f400bb0699906b618fcfb1262cde78d893c tags:
```
sns.pairplot(df1, diag_kind='kde', plot_kws=dict(alpha=0.5))
```
%% Cell type:markdown id:0057-563be423d1d87141d2abb93a055369c6c982d0b0860e3aa7ce27b2ba1a7 tags:
Es ist also naheliegend ein Modell zu bauen, dass die Wartezeit aus der
aktuellen Eruption vorhersagt. Dazu nehmen wir einfach eine lineare
Regression eins Polynom ersten Grades:
%% Cell type:code id:0058-4f11d068e818a45992ff1d2f9655db761f4a49d930796085e9d3f384f63 tags:
```
x_train = df1['eruption_duration'].iloc[:200]
y_train = df1['waiting_time'].iloc[:200]
x_test = df1['eruption_duration'].iloc[200:]
y_test = df1['waiting_time'].iloc[200:]
p = np.polynomial.Polynomial.fit(x_train, y_train, deg=1).convert()
```
%% Cell type:markdown id:0059-4dc58f257323c22bd484e7af4083ecf6212d54910425984d6aab554ffee tags:
Den Fehler ermitteln wir jetzt aus der Vorhersage der Testdaten:
%% Cell type:code id:0060-4dd7b0cfa418382f44a529d35c009cf52cf1c18d11752718d4c8e0687ad tags:
```
y_pred = p(x_test)
linreg_diff = y_test - y_pred
linreg_mae = linreg_diff.abs().mean()
linreg_rmse = np.sqrt((linreg_diff ** 2).mean())
```
%% Cell type:code id:0061-9b8d038b883d47e0bc123b28e34a70f0569a2c93439365e2c45092df31c tags:
```
print(f'Regressionsmodell. MAE: {linreg_mae:.2f}, RMSE: {linreg_rmse:.2f}')
```
%% Output
Regressionsmodell. MAE: 4.69, RMSE: 5.82
%% Cell type:markdown id:0073-ca96affb40213b63dd4c7c0149650711a1676067611b985280b5bc26ade tags:
Mit etwas Mühe wären hier vermutlich noch Verbesserungen möglich.
## e) Weitere Datensätze
Es gibt noch weitere Datensätze aus anderen Jahren zum Old Faithful
Geysir. Lesen Sie diese ein und bringen Sie sie in die Form des
Datensatzes von 1938, sodass sie gemeinsam geplottet werden können.
Starten Sie am besten mit einem Scatter-Plot des Datensatzes von 1938,
in dem auf der x-Achse die `eruption_duration` und auf der y-Achse die
`waiting_time` liegen soll.
`old-faithful-1978.txt`:
- Die Daten stammen vom 1. August bis zum 8. August, 1978. Der Tag
steht in der ersten Spalte.
- Es ist nicht klar, welche Eruptionen aufeinanderfolgend sind.
- Das Format ist nicht wirklich CSV, da es mit Leerzeichen gefüllt
ist, sodass sich Spalten fester breite ergeben. Verwenden Sie
[`pd.read_fwf`](https://pandas.pydata.org/docs/reference/api/pandas.read_fwf.html)
anstatt `pd.read_csv` um die Datei einzulesen.
- Ändern Sie die Spaltennamen der entsprechenden Spalten zu
`eruption_duration` und `waiting_time`.
Plotten Sie die Daten in den bestehenden Scatter Plot.
`old-faithful-1985.csv`:
- Die Daten stammen vom 1. August bis zum 15. August, 1985.
- Es ist eine kontinuierliche Messung.
- Einige nächtliche Eruptionsdauermesswerte wurden nur als *kurz*,
*mittel* oder *lang* eingetragen. Diese Werte sind wurden auf 2, 3
bzw. 4 Minuten geschätzt.
- Die Spalte `waiting` gibt die Wartezeit **auf** diese Eruption an.
Sie müssen hier vorverarbeiten, damit dieser Datensatz zu den
anderen passt.
Plotten Sie auch diesen Datensatz gemeinsam mit den anderen.
`old-faithful-2018.csv`:
- Die Daten wurden von freiwilligen im Rahmen eines Citizen Science
Projekts aufgezeichnet.
- Es können Fehler enthalten sein. Filtern Sie ggf. offensichtliche
Ausreißer weg.
- Die Zeiteinheiten sind jeweils Sekunden.
Wenn Sie den Datensatz hinzugefügt haben, schauen Sie nach
Auffälligkeiten. Sind Anpassungen im Modell notwendig?
%% Cell type:code id:0074-44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855 tags:
```
```
%% Cell type:markdown id:0079-2ae859c1cf9c4b41739525347611ec719266fe284422493bea23d2cbd2f tags:
### Lösung zu e)
Hier in der Lösung wird nur der Plot mit allen Datensätzen gezeigt.
Aber zunächst lesen wir den Datensatz von 1978 ein. Hier die ersten
Zeilen in der Datei:
D Y X
1 78 4.4
1 74 3.9
1 68 4.0
Wir verwerfen die Spalte `D` (Day). Von den Werten erkennen wir, dass
`X` der `eruption_duration` entspricht und `Y` der `waiting_time`.
Dementsprechend setzen wir die Spaltennamen.
%% Cell type:code id:0080-228608610beda35fe30f3e721d40f09fac21bdb1298bc38c0f770a0500b tags:
```
df2 = pd.read_fwf('old-faithful-1978.txt')[['X', 'Y']]
df2.columns = ['eruption_duration', 'waiting_time']
```
%% Cell type:markdown id:0083-915c7798bfb8a99d08209a0de5c08722c3d20ce1d02f31d9ae9367d7e8a tags:
%% Cell type:markdown id:0083-8ce26d6d32b588e1fe10fa6e5f04b19b66593db1d9a5e85a9c740dfd5e0 tags:
Die Datei für 1985 sieht so aus:
waiting,duration
80,4.0167
71,2.15
57,4
Die Spaltennamen müssen wieder geändert werden. Zusätzlich haben wir
aber die Information, dass `waiting` die Wartezeit vor einer Eruption
ist. Da es sich aber um eine kontinuierliche Messung handelt, können wir
das leicht durch Verschiebung der Spalte um eine Zeile nach oben lösen.
Um Alignment zu vermeiden, verwenden wir `to_numpy`. Die letzte Zeile
verwerfen wir, weil wir dort keine Wartezeit nach der Eruption kennen.
Um Alignment zu vermeiden, verwenden wir `to_numpy`. Alternativ hätte
man auch einfach `df3['waiting'] = df3['waiting'].shift(-1)` verwenden
können. Die letzte Zeile verwerfen wir, weil wir dort keine Wartezeit
nach der Eruption kennen.
%% Cell type:code id:0084-80bbe335df8442a6886304ac6ae394e9d385f11b14bbdfdbadce88af351 tags:
```
df3 = pd.read_csv('old-faithful-1985.csv')
df3.columns = ['waiting_time', 'eruption_duration']
df3.iloc[:-1, 0] = df3.iloc[1:, 0].to_numpy()
df3 = df3.iloc[:-1]
```
%% Cell type:markdown id:0087-994b767d70b2cb783ce9eea954d232f876c3a69b35e7bc6e72c0c66b508 tags:
Die Datei für 2018 enthält jeweils einen Zeitstempel und die Daten sind
in Sekunden:
time,duration,waiting
2018-01-01 00:08:00,236,5520
2018-01-02 22:55:00,236,5460
2018-01-06 00:18:00,200,5700
Es gibt einen offensichtlichen fehlerhaften Datensatz mit einer
Eruptionsdauer von 1 sec. Das sieht man spätestens im Plot. Weiterhin
nennen wir die Spalten wieder um und teilen durch 60 um auf Minuten zu
kommen.
%% Cell type:code id:0088-7f366659d82dd25a0c2da7bd49082739b67fb68d317f79c3a87b3df4179 tags:
%% Cell type:code id:0088-f0aecc148065884c85ec80c15954b4e581dde2d58e693acfec3e89411db tags:
```
df4 = pd.read_csv('old-faithful-2018.csv')[['duration', 'waiting']]
df4.columns = ['eruption_duration', 'waiting_time']
df4 = df4[df4['eruption_duration'] < 10] # filter eruption_duration with less than 10 sec
df4 = df4[df4['eruption_duration'] > 10] # only keep eruption_durations with more than 10 sec
df4 /= 60
```
%% Cell type:markdown id:0089-a4e4f1b9ac428aeeb01e0369bdc9a2b7a9198d0842fd2255d8ff16c8813 tags:
Erstellen wir nun den Plot mit verschiedenen Farben und Labels:
%% Cell type:code id:0090-98c722f31a92a07eaac042dc857d266c5463cde6978d860b60f07594588 tags:
```
ax = df1.plot.scatter(x='eruption_duration', y='waiting_time', c='b', label='1938', alpha=0.7)
df2.plot.scatter(x='eruption_duration', y='waiting_time', c='r', label='1978', ax=ax, alpha=0.5)
df3.plot.scatter(x='eruption_duration', y='waiting_time', c='g', label='1985', ax=ax, alpha=0.5)
df4.plot.scatter(x='eruption_duration', y='waiting_time', c='y', label='2018', ax=ax, alpha=0.4)
```
%% Cell type:markdown id:0091-545c2250c3e26b244c3612b96d0a7a4a5dd479e9d62fe937605e56ef4e4 tags:
Bei dem Datensatz von 2018 fällt auf, dass die Wartezeiten sich erhöht
haben und die kurzen Eruptionsdauern mit weniger als drei Minuten kaum
noch vorkommen. Die Verteilung der langen Eruptionsdauern hat sich etwas
stärker um vier Minuten konzentriert. Es gibt Untersuchungen, die
vermuten, dass ein lokales Erdbeben 1998 diese Veränderung ausgelöst
hat. Bis 2008 gab es noch deutlich weniger Eruptionsdauern mit weniger
als drei Minuten.
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment