Skip to content
Snippets Groups Projects
Commit db0b9b67 authored by Christof Kaufmann's avatar Christof Kaufmann
Browse files

Notebooks from applied-cs/data-science@7318d552

parent 60bf8bc2
No related branches found
No related tags found
No related merge requests found
%% Cell type:markdown id:0003-aaa5ddb6637d60757bd46091f1a2eca1cc7f981da853b1aa1465e25d06b tags:
%% Cell type:markdown id:0003-70f0a6f0520e15b69826b38de72cdcaab8bc2c340308e4121e7ec5c4142 tags:
# Information im Rauschen
Man kann Bilder so manipulieren, dass sie Informationen enthalten, die
man beim Betrachten höchstens als Rauschen wahrnehmen kann.
<figure>
<figure>
<img
src=""
alt="Prinzipbild einer in einem Bild versteckten Nachricht mit einem Bit pro Farbwert" />
<figcaption aria-hidden="true">Prinzipbild einer in einem Bild
versteckten Nachricht mit einem Bit pro Farbwert</figcaption>
</figure>
<figcaption>Prinzipbild einer in einem Bild versteckten Nachricht mit
einem Bit pro Farbwert</figcaption>
</figure>
<p><img
src="" /></p>
Versuchen Sie aus dem Bild `zwinkersmiley.bmp` eine Nachricht zu
extrahieren und sie auszugeben! Das Bild wird schon als 3D-NumPy-Array
geladen (Höhe x Breite x Kanäle).
%% Cell type:code id:0004-8154792f1920f755c9dc3fb7a02c024aa0338feb6e6a9a02bc89046131b tags:
```
import numpy as np
import matplotlib.pyplot as plt
img = plt.imread('zwinkersmiley.bmp')
```
%% Cell type:markdown id:0009-b75d348f38b280c8c55fe4d45568a528fff1d6a5a2cadd717770563464f tags:
*Bonus: Schaffen Sie es auch umgekehrt, also eine Nachricht in einem
Bild zu verstecken?*
*Hinweis: Folgende Funktionen bzw. Methoden könnten nützlich sein:*
- [`np.ravel`](https://numpy.org/doc/stable/reference/generated/numpy.ravel.html)
formt ein Array in 1D um.
- [`np.reshape`](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html#numpy.reshape)
bringt ein Array in eine beliebige Form, z. B. auch in 1D.
- [`np.astype`](https://numpy.org/doc/stable/reference/generated/numpy.astype.html#numpy-astype)
ändert den Typ eines Arrays, z. B. ein Array mit `int`s in `str`ings
oder in `'uint8'`.
- [`np.resize`](https://numpy.org/doc/stable/reference/generated/numpy.resize.html#numpy-resize)
erweitert ein Array auf eine bestimmte Größe und füllt es ggf. mit
0en auf.
- [`np.tile`](https://numpy.org/doc/stable/reference/generated/numpy.tile.html#numpy-tile)
pflastert ein Array eine bestimmte Anzahl aneinander, z. B. erzeugt
np.tile(\[1, 2, 3\], reps=\[2, 1\]) ein Array mit zwei Reihen \[1,
2, 3\].
- [`np.sum`](https://numpy.org/doc/stable/reference/generated/numpy.sum.html#numpy-sum)
summert ein Array entweder komplett oder entlang vorgegebner Achsen
auf, z. B. erzeugt np.sum(a, axis=1) die Zeilensummen eines
2D-Arrays `a`.
- [`np.fromstring`](https://numpy.org/doc/stable/reference/generated/numpy.fromstring.html#numpy-fromstring)
erzeugt ein NumPy-Array aus einem String, z. B.
`np.fromstring('1,2,3', dtype=int, sep=',')`
- [`np.full`](https://numpy.org/doc/stable/reference/generated/numpy.full.html#numpy.full)
erzeugt ein Array mit einem bestimmten Wert, Typ und Größe.
- [`str.join`](https://docs.python.org/3/library/stdtypes.html#str.join)
erlaubt eine Liste mit Strings zu vereinen, z. B. ohne Trenner mit
`''.join(['b', 'e']) == 'be'`
- [`range`](https://docs.python.org/3/library/stdtypes.html#range) zum
Iterieren mit `range(start, stop, step)`
- [`format`](https://docs.python.org/3/library/functions.html#format)
wandelt z. B. eine Ganzzahl in einen String entsprechend dem
Formatspezifizierer um, z. B. `format(5, '08b') == '00000101'`
- [`int`](https://docs.python.org/3/library/functions.html#int)
wandelt einen String in eine Ganzzahl um, z. B. `int('5') == 5` oder
mit `base=2` in Binärschreibweise: `int('101', base=2) == 5`.
- [`chr`](https://docs.python.org/3/library/functions.html#chr)
wandelt eine Ganzzahl in ein Zeichen um, z. B. `chr(101) == 'e'`
- [`ord`](https://docs.python.org/3/library/functions.html#ord)
wandelt ein Zeichen in eine Ganzzahl um, z. B. `ord('e') == 101`
## Lösung
Zunächst machen wir aus dem 3D-NumPy-Array mittels `ravel` ein
1D-NumPy-Array. Anschließend sind wir an dem jeweils letzten Bit
interessiert. Das bekommen wir ganz einfach indem wir Modulo 2 (Restwert
der Division mit 2) des Arrays berechnen. Für gerade Zahlen ist der Rest
0 für ungerade 1.
%% Cell type:code id:0010-e7b7b5fc735282ad62b19bd1dd49586d2badba14201e8892f69dc74b210 tags:
```
noise = img.ravel() % 2
```
%% Cell type:markdown id:0011-f2af408fef45d452cf03b6d6350eb996166adff3483f48e8359b3b46753 tags:
Jetzt haben wir ein 1D-NumPy-Array mit 0en und 1en. Man kann von hier
sicherlich auf vielerlei Art weiter kommen. Wir wandeln die Zahlen in
ihre String-Repräsentation um und führen Sie dann zu einem langen String
aus 0en und 1en zusammen.
%% Cell type:code id:0012-e8769af5f0f93b3d790101ef11b2f35ea21b325ff38815ebcd95b599854 tags:
```
stream = ''.join(noise.astype(str))
```
%% Cell type:markdown id:0013-5d8bed03128d27cfac6b23b3a86e06ddd10625b715c3526d1a204e3646b tags:
Als nächstes trennen wir den String per Slicing in (max.) 8er-Ketten und
wandeln diese in Ganzzahlen um.
%% Cell type:code id:0014-67ba02814a1f1e523f41beb62ed02df65f0643041dc2a73023a4a168abb tags:
```
ints = [int(stream[start:start + 8], base=2) for start in range(0, len(stream) - 8, 8)]
```
%% Cell type:markdown id:0015-d39a8023abaeed6595c34bbe08c8e78cbbf35b47f8f5fab3f9664d3d2d9 tags:
Jede Ganzzahl, die nicht 0 ist, wandeln wir als nächstes mit `chr` zu
einem Zeichen um und diese führen wir zu einem String – der versteckten
Nachricht – zusammen.
%% Cell type:code id:0016-21242ff5249eb22c1ce72b43f4f9d24512b7f2f3d928213c7d8d4098948 tags:
```
chars = [chr(i) for i in ints if i]
msg = ''.join(chars)
```
%% Cell type:code id:0017-2417d4e0a8b2829fba586d0a4c0d5ae48b73fc7ffd6f4bf6da7324894af tags:
```
print(msg)
```
%% Output
Yay! Sie haben die Aufgabe geschafft. War gar nicht so einfach, oder? Naja... viel Spaß noch mit den anderen Aufgaben! ;)
%% Cell type:markdown id:0018-b2c2f1aa5ab516501c202b92deac6c65ed8e7b622c3e112e7e423d85619 tags:
Hier noch eine Alternative Lösung, die erst jeweils 8 0en und 1en in
eine Zeile schreibt. Dabei wird `resize` gebraucht, falls die Länge
nicht durch 8 teilbar ist. So werden fehlende Werte mit 0 aufgefüllt.
Das Array wird dann mit den Bitwertigkeiten (128, 64, 32, 16, 8, 4,
2, 1) multipliziert. Anschließend werden die Zeilensummen gebildet um
die Ganzzahlen zu erhalten. Es kann sein, dass am Ende nur 0en stehen,
um auf Bildgröße aufzufüllen, daher entfernen wir 0en. Das sind ohnehin
keine gültigen Zeichen. Die Zahlen werden dann mittels `chr` in Zeichen
umgewandelt und zu einem String zusammengefügt.
%% Cell type:code id:0019-8d445a46f0cea5dba0c3730fe53ecdaebdc8bf826467df070f406447057 tags:
```
noise.resize((int(np.ceil(noise.size / 8)), 8))
bit_values = noise * 2 ** np.arange(7, -1, -1)
ints = np.sum(bit_values, axis=1)
ints = ints[ints != 0]
msg = ''.join(map(chr, ints))
```
......
This diff is collapsed.
This diff is collapsed.
%% Cell type:markdown id: tags:
# Code zu Folien
Dieses Skript bzw. Jupyter-Notebook enthält den Code, der auch auf den Folien "Skalierung & Optimierung" enthalten ist. Zum Vorbereiten, Mitmachen oder Nacharbeiten.
%% Cell type:code id: tags:
```
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import display
import seaborn as sns
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler
rng = np.random.default_rng()
df = pd.read_csv('autos.csv')
X = df.drop(columns=['Marke', 'Modell', 'Fahrzeugklasse'])
y = df['Fahrzeugklasse']
def plot_split(y_train, y_test):
y = pd.concat((y_train, y_test), axis='index')
counts = pd.concat((y.value_counts(), y_train.value_counts(), y_test.value_counts()), axis='columns').sort_index()
counts.columns = ['full', 'train', 'test']
ax = (counts * 100 / counts.max()).plot.bar(ylim=(0, 100))
for container, col in zip(ax.containers, counts):
ax.bar_label(container, counts[col].astype(str), rotation=70)
ax.yaxis.set_ticklabels([])
ax.yaxis.set_ticks([])
plt.legend(loc='center')
```
%% Cell type:code id: tags:
```
abs_test_size = int(round(len(df) * 0.2)) # 20% entsprechen 123 samples
df_idx = df.index
test_idx = df_idx[:abs_test_size] # erste 20% der Daten
train_idx = df_idx[abs_test_size:] # letzte 80% der Daten
X_train, X_test = X.loc[train_idx], X.loc[test_idx] # kein Zufall!
y_train, y_test = y.loc[train_idx], y.loc[test_idx]
```
%% Cell type:code id: tags:
```
abs_test_size = int(round(len(df) * 0.2)) # 20% entsprechen 123 samples
df_idx_shuffled = rng.permutation(df.index) # rng: random number generator
test_idx = df_idx_shuffled[:abs_test_size] # zufällige 20% der Daten
train_idx = df_idx_shuffled[abs_test_size:] # zufällige 80% der Daten
X_train, X_test = X.loc[train_idx], X.loc[test_idx]
y_train, y_test = y.loc[train_idx], y.loc[test_idx]
```
%% Cell type:code id: tags:
```
np.random.seed(8264) # wähle richtig schlechte "zufällige" Aufteilung
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
plot_split(y_train=y_train, y_test=y_test)
```
%% Cell type:code id: tags:
```
np.random.seed(8264)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y)
plot_split(y_train=y_train, y_test=y_test)
```
%% Cell type:code id: tags:
```
model = KNeighborsClassifier(weights='uniform')
# model = KNeighborsClassifier(weights='distance')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
```
%% Cell type:code id: tags:
```
fig = plt.figure()
sns.set_theme()
con = pd.crosstab(y_test, y_pred) # absolute Zahlen
# con = pd.crosstab(y_test, y_pred, normalize='index') # normalisiert über Spalten
con.index.name = 'Testdaten'
con.columns.name = 'Vorhergesagt'
ax = sns.heatmap(con, cmap='YlGn', annot=True, cbar=False)
ax.xaxis.set_label_position('top')
ax.xaxis.set_ticks_position('top')
```
%% Cell type:code id: tags:
```
fig = plt.figure()
sns.reset_orig()
cmd = ConfusionMatrixDisplay.from_predictions(y_test, y_pred, cmap='YlGn',
colorbar=False, normalize='true')
cmd.ax_.xaxis.set_label_position('top')
cmd.ax_.xaxis.set_ticks_position('top')
```
%% Cell type:code id: tags:
```
# unskaliert:
df = pd.DataFrame(columns=['unskaliert', 'normiert', 'standardisiert', 'robust skaliert'], index=['d(x_29, x_200)', 'd(x_29, x_540)', 'd(x_200, x_540)'])
d29_200 = np.linalg.norm(X.loc[29] - X.loc[200], ord=1)
d29_540 = np.linalg.norm(X.loc[29] - X.loc[540], ord=1)
d200_540 = np.linalg.norm(X.loc[200] - X.loc[540], ord=1)
df['unskaliert'] = [d29_200, d29_540, d200_540]
# normiert:
X_scaled = (X - X.min()) / (X.max() - X.min())
# oder:
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)
d29_200 = np.linalg.norm(X_scaled[29] - X_scaled[200], ord=1)
d29_540 = np.linalg.norm(X_scaled[29] - X_scaled[540], ord=1)
d200_540 = np.linalg.norm(X_scaled[200] - X_scaled[540], ord=1)
df['normiert'] = [d29_200, d29_540, d200_540]
# standardisiert:
X_scaled = (X - X.mean()) / X.std()
# oder:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
d29_200 = np.linalg.norm(X_scaled[29] - X_scaled[200], ord=1)
d29_540 = np.linalg.norm(X_scaled[29] - X_scaled[540], ord=1)
d200_540 = np.linalg.norm(X_scaled[200] - X_scaled[540], ord=1)
df['standardisiert'] = [d29_200, d29_540, d200_540]
# robust skaliert:
iqr = X.quantile(0.75) - X.quantile(0.25)
X_scaled = (X - X.median()) / iqr
# oder:
scaler = RobustScaler()
X_scaled = scaler.fit_transform(X)
d29_200 = np.linalg.norm(X_scaled[29] - X_scaled[200], ord=1)
d29_540 = np.linalg.norm(X_scaled[29] - X_scaled[540], ord=1)
d200_540 = np.linalg.norm(X_scaled[200] - X_scaled[540], ord=1)
df['robust skaliert'] = [d29_200, d29_540, d200_540]
display(df)
```
%% Cell type:code id: tags:
```
xmin, xmax = X_train.min(), X_train.max() # Pandas DataFrames
# xmin, xmax = X_train.min(axis=0), X_train.max(axis=0) # NumPy Arrays
X_train_scaled = (X_train - xmin) / (xmax - xmin)
X_test_scaled = (X_test - xmin) / (xmax - xmin)
scaler = MinMaxScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)
```
%% Cell type:code id: tags:
```
from sklearn.model_selection import cross_val_score, KFold
folds = KFold(5, shuffle=True) # zufällig mischen
scores = cross_val_score(model, X, y, cv=folds, scoring='accuracy')
print(100 * scores.round(3), end=' ')
print(f'mean: {scores.mean():.2%}, std.dev.: {scores.std():.2%}')
```
%% Cell type:code id: tags:
```
score_records = []
for k in range(1, 9):
for p in (1, 2, 4, float('inf')):
# model = KNeighborsClassifier(n_neighbors=k, p=p, weights='distance')
model = KNeighborsClassifier(n_neighbors=k, p=p, weights='uniform')
scores_cv = cross_val_score(model, X_train_scaled, y_train, cv=folds,
scoring='accuracy')
score_cv = scores_cv.mean()
score_records.append((k, p, score_cv))
scores = pd.DataFrame.from_records(score_records, columns=['k', 'p', 'score'])
# display(scores)
display(scores.sort_values('score'))
scr2d = scores.pivot(index='k', columns='p', values='score')
display(scr2d)
sns.heatmap(scr2d, annot=True, cbar=False)
```
%% Cell type:code id: tags:
```
score_records = []
for trial in range(30): # 30 Durchläufe
k = rng.integers(1, 9) # Integer zwischen 1 und 9
p = rng.choice([1, 2, 4, float('inf')]) # einer der Werte
model = KNeighborsClassifier(n_neighbors=k, p=p, weights='distance')
scores_cv = cross_val_score(model, X_train_scaled, y_train, cv=folds, scoring='accuracy')
score_cv = scores_cv.mean()
score_records.append((k, p, score_cv))
scores = pd.DataFrame.from_records(score_records, columns=['k', 'p', 'score'])
display(scores.sort_values('score'))
```
%% Cell type:code id: tags:
```
import optuna
from plotly.offline import plot
def objective(trial): # Zielfunktion (Genauigkeit) soll maximiert werden
k = trial.suggest_int('k', 1, 9) # Zielfunktion hängt von Hyperparametern ab
p = trial.suggest_categorical('p', [1, 2, 4, float('inf')])
model = KNeighborsClassifier(n_neighbors=k, p=p, weights='distance')
scores_cv = cross_val_score(model, X_train_scaled, y_train, cv=folds, scoring='accuracy')
return scores_cv.mean()
study = optuna.create_study(direction='maximize') # maximieren, nicht minimieren (default)
study.optimize(objective, n_trials=30) # Anzahl Parameterkombinationen
scores = study.trials_dataframe(attrs=('params', 'value'))
scores = scores.rename(columns={'params_k': 'k', 'params_p': 'p', 'value': 'score'})
scores = scores.groupby(['k', 'p']).mean().reset_index()
scr2d = scores.pivot(index='k', columns='p', values='score')
# heatmap
sns.heatmap(scr2d, annot=True, cbar=False)
# parallel coordinates plot
fig = optuna.visualization.plot_parallel_coordinate(study)
fig.show()
plot(fig, auto_open=True)
```
# %% [markdown]
# # Code zu Folien
#
# Dieses Skript bzw. Jupyter-Notebook enthält den Code, der auch auf den Folien "Skalierung & Optimierung" enthalten ist. Zum Vorbereiten, Mitmachen oder Nacharbeiten.
# %% imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import display
import seaborn as sns
from sklearn.metrics import ConfusionMatrixDisplay
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler
rng = np.random.default_rng()
df = pd.read_csv('autos.csv')
X = df.drop(columns=['Marke', 'Modell', 'Fahrzeugklasse'])
y = df['Fahrzeugklasse']
def plot_split(y_train, y_test):
y = pd.concat((y_train, y_test), axis='index')
counts = pd.concat((y.value_counts(), y_train.value_counts(), y_test.value_counts()), axis='columns').sort_index()
counts.columns = ['full', 'train', 'test']
ax = (counts * 100 / counts.max()).plot.bar(ylim=(0, 100))
for container, col in zip(ax.containers, counts):
ax.bar_label(container, counts[col].astype(str), rotation=70)
ax.yaxis.set_ticklabels([])
ax.yaxis.set_ticks([])
plt.legend(loc='center')
# %% Daten in Trainings- und Testmenge aufteilen, kein Zufall
abs_test_size = int(round(len(df) * 0.2)) # 20% entsprechen 123 samples
df_idx = df.index
test_idx = df_idx[:abs_test_size] # erste 20% der Daten
train_idx = df_idx[abs_test_size:] # letzte 80% der Daten
X_train, X_test = X.loc[train_idx], X.loc[test_idx] # kein Zufall!
y_train, y_test = y.loc[train_idx], y.loc[test_idx]
# %% Daten in Trainings- und Testmenge aufteilen, mit Zufall
abs_test_size = int(round(len(df) * 0.2)) # 20% entsprechen 123 samples
df_idx_shuffled = rng.permutation(df.index) # rng: random number generator
test_idx = df_idx_shuffled[:abs_test_size] # zufällige 20% der Daten
train_idx = df_idx_shuffled[abs_test_size:] # zufällige 80% der Daten
X_train, X_test = X.loc[train_idx], X.loc[test_idx]
y_train, y_test = y.loc[train_idx], y.loc[test_idx]
# %% Daten in Trainings- und Testmenge aufteilen, mit Zufall per Scikit-Learn
np.random.seed(8264) # wähle richtig schlechte "zufällige" Aufteilung
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
plot_split(y_train=y_train, y_test=y_test)
# %% Daten in Trainings- und Testmenge aufteilen, mit Zufall und Stratifikation
np.random.seed(8264)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y)
plot_split(y_train=y_train, y_test=y_test)
# %% Vorhersage mit k-NN Modell für Konfusionsmatrix
model = KNeighborsClassifier(weights='uniform')
# model = KNeighborsClassifier(weights='distance')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
# %% Konfusionsmatrix mit Pandas und Seaborn
fig = plt.figure()
sns.set_theme()
con = pd.crosstab(y_test, y_pred) # absolute Zahlen
# con = pd.crosstab(y_test, y_pred, normalize='index') # normalisiert über Spalten
con.index.name = 'Testdaten'
con.columns.name = 'Vorhergesagt'
ax = sns.heatmap(con, cmap='YlGn', annot=True, cbar=False)
ax.xaxis.set_label_position('top')
ax.xaxis.set_ticks_position('top')
# %% Konfusionsmatrix mit Scikii-Learn
fig = plt.figure()
sns.reset_orig()
cmd = ConfusionMatrixDisplay.from_predictions(y_test, y_pred, cmap='YlGn',
colorbar=False, normalize='true')
cmd.ax_.xaxis.set_label_position('top')
cmd.ax_.xaxis.set_ticks_position('top')
# %% Skalierung
# unskaliert:
df = pd.DataFrame(columns=['unskaliert', 'normiert', 'standardisiert', 'robust skaliert'], index=['d(x_29, x_200)', 'd(x_29, x_540)', 'd(x_200, x_540)'])
d29_200 = np.linalg.norm(X.loc[29] - X.loc[200], ord=1)
d29_540 = np.linalg.norm(X.loc[29] - X.loc[540], ord=1)
d200_540 = np.linalg.norm(X.loc[200] - X.loc[540], ord=1)
df['unskaliert'] = [d29_200, d29_540, d200_540]
# normiert:
X_scaled = (X - X.min()) / (X.max() - X.min())
# oder:
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)
d29_200 = np.linalg.norm(X_scaled[29] - X_scaled[200], ord=1)
d29_540 = np.linalg.norm(X_scaled[29] - X_scaled[540], ord=1)
d200_540 = np.linalg.norm(X_scaled[200] - X_scaled[540], ord=1)
df['normiert'] = [d29_200, d29_540, d200_540]
# standardisiert:
X_scaled = (X - X.mean()) / X.std()
# oder:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
d29_200 = np.linalg.norm(X_scaled[29] - X_scaled[200], ord=1)
d29_540 = np.linalg.norm(X_scaled[29] - X_scaled[540], ord=1)
d200_540 = np.linalg.norm(X_scaled[200] - X_scaled[540], ord=1)
df['standardisiert'] = [d29_200, d29_540, d200_540]
# robust skaliert:
iqr = X.quantile(0.75) - X.quantile(0.25)
X_scaled = (X - X.median()) / iqr
# oder:
scaler = RobustScaler()
X_scaled = scaler.fit_transform(X)
d29_200 = np.linalg.norm(X_scaled[29] - X_scaled[200], ord=1)
d29_540 = np.linalg.norm(X_scaled[29] - X_scaled[540], ord=1)
d200_540 = np.linalg.norm(X_scaled[200] - X_scaled[540], ord=1)
df['robust skaliert'] = [d29_200, d29_540, d200_540]
display(df)
# %% Skalierung durchführen
xmin, xmax = X_train.min(), X_train.max() # Pandas DataFrames
# xmin, xmax = X_train.min(axis=0), X_train.max(axis=0) # NumPy Arrays
X_train_scaled = (X_train - xmin) / (xmax - xmin)
X_test_scaled = (X_test - xmin) / (xmax - xmin)
scaler = MinMaxScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)
# %% Kreuzvalidierung
from sklearn.model_selection import cross_val_score, KFold
folds = KFold(5, shuffle=True) # zufällig mischen
scores = cross_val_score(model, X, y, cv=folds, scoring='accuracy')
print(100 * scores.round(3), end=' ')
print(f'mean: {scores.mean():.2%}, std.dev.: {scores.std():.2%}')
# %% Manueller Grid Search
score_records = []
for k in range(1, 9):
for p in (1, 2, 4, float('inf')):
# model = KNeighborsClassifier(n_neighbors=k, p=p, weights='distance')
model = KNeighborsClassifier(n_neighbors=k, p=p, weights='uniform')
scores_cv = cross_val_score(model, X_train_scaled, y_train, cv=folds,
scoring='accuracy')
score_cv = scores_cv.mean()
score_records.append((k, p, score_cv))
scores = pd.DataFrame.from_records(score_records, columns=['k', 'p', 'score'])
# display(scores)
display(scores.sort_values('score'))
scr2d = scores.pivot(index='k', columns='p', values='score')
display(scr2d)
sns.heatmap(scr2d, annot=True, cbar=False)
# %% Manueller Random Search
score_records = []
for trial in range(30): # 30 Durchläufe
k = rng.integers(1, 9) # Integer zwischen 1 und 9
p = rng.choice([1, 2, 4, float('inf')]) # einer der Werte
model = KNeighborsClassifier(n_neighbors=k, p=p, weights='distance')
scores_cv = cross_val_score(model, X_train_scaled, y_train, cv=folds, scoring='accuracy')
score_cv = scores_cv.mean()
score_records.append((k, p, score_cv))
scores = pd.DataFrame.from_records(score_records, columns=['k', 'p', 'score'])
display(scores.sort_values('score'))
# %% Hyperparameteroptimierung mit Optuna
import optuna
from plotly.offline import plot
def objective(trial): # Zielfunktion (Genauigkeit) soll maximiert werden
k = trial.suggest_int('k', 1, 9) # Zielfunktion hängt von Hyperparametern ab
p = trial.suggest_categorical('p', [1, 2, 4, float('inf')])
model = KNeighborsClassifier(n_neighbors=k, p=p, weights='distance')
scores_cv = cross_val_score(model, X_train_scaled, y_train, cv=folds, scoring='accuracy')
return scores_cv.mean()
study = optuna.create_study(direction='maximize') # maximieren, nicht minimieren (default)
study.optimize(objective, n_trials=30) # Anzahl Parameterkombinationen
scores = study.trials_dataframe(attrs=('params', 'value'))
scores = scores.rename(columns={'params_k': 'k', 'params_p': 'p', 'value': 'score'})
scores = scores.groupby(['k', 'p']).mean().reset_index()
scr2d = scores.pivot(index='k', columns='p', values='score')
# heatmap
sns.heatmap(scr2d, annot=True, cbar=False)
# parallel coordinates plot
fig = optuna.visualization.plot_parallel_coordinate(study)
fig.show()
plot(fig, auto_open=True)
%% Cell type:markdown id:0001-f51edf4079cb1b470c271c788df582594acbcaaaaa1ec62e3286ad082e3 tags:
# Mosaic
In dieser Aufgabe soll ein Bild `target` aus vielen kleinen Bildern
zusammengesetzt werden. Dazu werden im Startcode bereits die
CIFAR100-Bilder geladen und in der Variable `imgs` gespeichert.
%% Cell type:code id:0002-6e8318925ecf9f50d56d73b2ed5ffb3d3ba92762c1fbfa2ad105e6b65fe tags:
%% Cell type:code id:0002-a43f4956ced121f01ca3eb39b2e6ddc8401d6838f37a1e7845c63020e34 tags:
```
import matplotlib.pyplot as plt
import numpy as np
from sklearn.neighbors import NearestNeighbors
from tensorflow import keras
import keras
rng = np.random.default_rng()
(x_train, y_train), (x_test, y_test) = keras.datasets.cifar100.load_data()
imgs = np.vstack((x_train, x_test))
target = plt.imread('frochte.webp')
```
%% Cell type:markdown id:0003-941da6218559043f35279a4c335f50e5b68c0c514e67ffbd4322530f8f5 tags:
Es sind 60000 32x32 RGB-Bilder, was man an der Shape schön erkennt:
%% Cell type:code id:0004-1229e2d8dc8e1728d3048fefc550fc060b1f1de9193f0f5a46dca3238ec tags:
```
imgs.shape
```
%% Output
(60000, 32, 32, 3)
%% Cell type:markdown id:0005-22c3afb3e0a561db8a3de73e91fd6bcc6390eaf182dee0c35bf37ed31ce tags:
Das Zielbild hat hier folgende Dimensionen:
%% Cell type:code id:0006-2d221d7ec0ae34f32bfa5ed8787519ea66338bd40130f2f54827c73740d tags:
```
target.shape
```
%% Output
(68, 50, 3)
%% Cell type:markdown id:0009-de978f4ff20b8c801097dd510fc91fbafff5599b0738a4427307471b77a tags:
Bilden Sie von jedem Bild den Mittelwert, aber nur über die Pixel, nicht
über die Farben. Ihr Ziel ist also eine Shape von (60000, 3). Suchen Sie
anschließend zu jedem Pixel von `target` das Bild mit den ähnlichsten
Farben. *Bonus: Suchen Sie z. B. die 10 Bilder mit den ähnlichsten
Farben und wählen Sie ein zufälliges aus.* Setzen Sie anschließend die
gefundenen Bilder als `mosaic` zusammen, sodass ein großes Bild 32-mal
so groß wie das ursprüngliche `target`-Bild erhalten, also hier
$(68 \cdot 32, 50 \cdot 32, 3)$.
## Lösung
Leider noch ohne Erklärung, sorry!
%% Cell type:code id:0010-1af355aab8dd3341d7a01273fc3536afcd2422c84d1688ecc9b968450a4 tags:
```
X = imgs.mean(axis=(1, 2))
# # just the single nearest neighbor (lots of repetition)
ind = NearestNeighbors(n_neighbors=1).fit(X).kneighbors(target.reshape((-1, 3)), return_distance=False)
# select one out of the ten nearest neighbors
ind = NearestNeighbors(n_neighbors=12).fit(X).kneighbors(target.reshape((-1, 3)), return_distance=False)
ind = ind[np.arange(ind.shape[0]), rng.choice(ind.shape[1], size=ind.shape[0])]
ind2d = ind.reshape(target.shape[:2])
tiles = imgs[ind2d]
mosaic = np.hstack(np.hstack(tiles)) # this is hard to understand! First dimension vanishes and third is buffed. Inner call uses the vertical tiles and stacks them vertically, second used the horizontal tiles and stacks them horizontally...
# This is more straightforward:
mosaic = np.vstack([np.hstack(tiles[row]) for row in range(tiles.shape[0])])
```
%% Cell type:markdown id:0012-c5712a3895bf6d089e3023df66a35ce6cdebc2bb919c5f5b7fd3bae4f27 tags:
## Tests
Die Dimensionen von `mosaic` sind:
%% Cell type:code id:0013-6117ace787b35b15ec90c0b04bef2dee6442176716271b8bdf9775313cc tags:
```
mosaic.shape
```
%% Output
(2176, 1600, 3)
%% Cell type:markdown id:0014-63c76eaa9d35584bc36e3f2ca577bfc94f8834910dab8da4a980df5f86c tags:
und sollten sein:
%% Cell type:code id:0015-0516c0ef5eb482707621327f31354b03bfd194cf6e37a97de4db231e3b4 tags:
```
target.shape[0] * 32, target.shape[1] * 32, 3
```
%% Output
(2176, 1600, 3)
%% Cell type:markdown id:0016-7fe0b7441cce862b7e35b9f32c45195a35b532bd6aaa1f6d82bcefec760 tags:
Hier lässt sich das Mosaic-Bild plotten:
%% Cell type:code id:0017-c81f1b00d2217b3ef3a541a3bf0969c691e633f1c550f30d84efc918327 tags:
```
plt.figure(figsize=(16, 10))
plt.imshow(mosaic)
```
......
%% Cell type:markdown id:0001-f51edf4079cb1b470c271c788df582594acbcaaaaa1ec62e3286ad082e3 tags:
# Mosaic
In dieser Aufgabe soll ein Bild `target` aus vielen kleinen Bildern
zusammengesetzt werden. Dazu werden im Startcode bereits die
CIFAR100-Bilder geladen und in der Variable `imgs` gespeichert.
%% Cell type:code id:0002-6e8318925ecf9f50d56d73b2ed5ffb3d3ba92762c1fbfa2ad105e6b65fe tags:
%% Cell type:code id:0002-a43f4956ced121f01ca3eb39b2e6ddc8401d6838f37a1e7845c63020e34 tags:
```
import matplotlib.pyplot as plt
import numpy as np
from sklearn.neighbors import NearestNeighbors
from tensorflow import keras
import keras
rng = np.random.default_rng()
(x_train, y_train), (x_test, y_test) = keras.datasets.cifar100.load_data()
imgs = np.vstack((x_train, x_test))
target = plt.imread('frochte.webp')
```
%% Cell type:markdown id:0003-941da6218559043f35279a4c335f50e5b68c0c514e67ffbd4322530f8f5 tags:
Es sind 60000 32x32 RGB-Bilder, was man an der Shape schön erkennt:
%% Cell type:code id:0004-1229e2d8dc8e1728d3048fefc550fc060b1f1de9193f0f5a46dca3238ec tags:
```
imgs.shape
```
%% Output
(60000, 32, 32, 3)
%% Cell type:markdown id:0005-22c3afb3e0a561db8a3de73e91fd6bcc6390eaf182dee0c35bf37ed31ce tags:
Das Zielbild hat hier folgende Dimensionen:
%% Cell type:code id:0006-2d221d7ec0ae34f32bfa5ed8787519ea66338bd40130f2f54827c73740d tags:
```
target.shape
```
%% Output
(68, 50, 3)
%% Cell type:markdown id:0008-ed2a543c286667ee3711dcf37d5ebf4923818e7172044500e2e1aef94f4 tags:
Bilden Sie von jedem Bild den Mittelwert, aber nur über die Pixel, nicht
über die Farben. Ihr Ziel ist also eine Shape von (60000, 3). Suchen Sie
anschließend zu jedem Pixel von `target` das Bild mit den ähnlichsten
Farben. *Bonus: Suchen Sie z. B. die 10 Bilder mit den ähnlichsten
Farben und wählen Sie ein zufälliges aus.* Setzen Sie anschließend die
gefundenen Bilder als `mosaic` zusammen, sodass ein großes Bild 32-mal
so groß wie das ursprüngliche `target`-Bild erhalten, also hier
$(68 \cdot 32, 50 \cdot 32, 3)$.
Hier Ihr Code:
%% Cell type:code id:0009-44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855 tags:
```
```
%% Cell type:markdown id:0011-c5712a3895bf6d089e3023df66a35ce6cdebc2bb919c5f5b7fd3bae4f27 tags:
## Tests
Die Dimensionen von `mosaic` sind:
%% Cell type:code id:0012-6117ace787b35b15ec90c0b04bef2dee6442176716271b8bdf9775313cc tags:
```
mosaic.shape
```
%% Output
(2176, 1600, 3)
%% Cell type:markdown id:0013-63c76eaa9d35584bc36e3f2ca577bfc94f8834910dab8da4a980df5f86c tags:
und sollten sein:
%% Cell type:code id:0014-0516c0ef5eb482707621327f31354b03bfd194cf6e37a97de4db231e3b4 tags:
```
target.shape[0] * 32, target.shape[1] * 32, 3
```
%% Output
(2176, 1600, 3)
%% Cell type:markdown id:0015-7fe0b7441cce862b7e35b9f32c45195a35b532bd6aaa1f6d82bcefec760 tags:
Hier lässt sich das Mosaic-Bild plotten:
%% Cell type:code id:0016-c81f1b00d2217b3ef3a541a3bf0969c691e633f1c550f30d84efc918327 tags:
```
plt.figure(figsize=(16, 10))
plt.imshow(mosaic)
```
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment