diff --git a/Dokumentation/3_2_Datenauslagerung_Generator.tex b/Dokumentation/3_2_Datenauslagerung_Generator.tex
index b71c793278938057ac3d6970b03c58f73e5f2f3e..c3c7285fa0f57022e6dfab8d9934ee6a95c487a3 100644
--- a/Dokumentation/3_2_Datenauslagerung_Generator.tex
+++ b/Dokumentation/3_2_Datenauslagerung_Generator.tex
@@ -1,7 +1,8 @@
 \subsection{Datenauslagerung / Generator
 \label{subsec:Generator}}
 %Problemstellung
-Spätestens wenn mit etwas größeren Datenmengen trainiert wird stellt sich bei einer unserer Methoden ein neues Problem dar. Während die mean-Methode ohne Probleme durchläuft beschwert sich die CNN-Methode, dass nicht genug Arbeitsspeicher vorhanden ist. Dies lässt sich auch ganz leicht nach folgender Formel nachrechnen:
+Spätestens wenn mit etwas größeren Datenmengen trainiert wird stellt sich bei einer unserer Methoden ein neues Problem dar. Während die mean-Methode ohne Probleme durchläuft bricht die CNN-Methode aufgrund mangelnden Arbeitsspeicher ab. %beschwert sich die CNN-Methode, dass nicht genug Arbeitsspeicher vorhanden ist. 
+Dies lässt sich auch ganz leicht nach folgender Formel nachrechnen:
 %Vlt mit Formelzeichen, welche vorher im text definiert werden?
 % => Kürzere Formel & Mehr Text
 \begin{equation}
diff --git a/Dokumentation/Herausforderungen.tex b/Dokumentation/Herausforderungen.tex
index f2c004c5b0f4f47433429d29351de684a80238fa..e7af929275d166816147b168ec956a1a86a9de6e 100644
--- a/Dokumentation/Herausforderungen.tex
+++ b/Dokumentation/Herausforderungen.tex
@@ -19,7 +19,14 @@ Wissend wie Word2Vec funktioniert lassen sich verschiedene Probleme bei diesem D
 
 \subsubsection{Distribution
 \label{subsubsec:Dist}}
-\wip{Ansatz: viele 5* reviews = Infos die behalten werden sollen vs ausgeglichenen Datensatz}
+Eine generelle Voraussetzung für Algorithmen des maschinellen Lernens ist, dass mit einem ausgeglichenen Datensatz gearbeitet wird. Unausgeglichene Datensätze, wie der \noteable{Yelp} Datensatz, verleiten dazu, dass
+neuronale Netze eben genau diesen Bias lernen. 
+Wenn der Datensatz jedoch die Realität relativ gut darstellt ist es gerade für Anfänger schwierig zu entscheiden wie damit umgegangen werden soll. Schließlich ist es prinzipiell eine hilfreiche Information wenn es bekannt ist, dass z.\,B. Bewertungen eine Verteilung wie in \ref{fig::DST} besitzen. 
+Der entwickelte Algorithmus soll die Kategorisierung aber nicht an fundiertem Raten ausmachen, sondern anhand von selbst erarbeiteten Kriterien und damit unabhängig der ursprünglichen Distribution.
+
+Generell gibt es zwei Ansätze, um diesen Effekt zu bekämpfen. Zum Einem gibt es die Möglichkeit, den \noteable{Near-Miss-Algorithm} zu benutzen. Mit Hilfe diesem werden im Grunde Einträge von zu oft vertretenen Klassen aus dem Datensatz entfernt, bis dieser ausgeglichen ist. Dadurch wird zwar verhindert, dass eine Klasse bei der Kategorisierung bevorzugt wird, aber man verringert auch den zu Grunde liegenden Datensatz. Je nach ursprünglicher Verteilung und gesamter Menge kann dies zu einem zu kleinen Datensatz und somit weiteren Problemen führen.
+Zum Anderen gibt es die Möglichkeit, die Klassen beim Trainieren zu gewichten. Hier werden selten auftretende Klassen stärker gewertet, um so für das Programm den Anschein zu erwecken, als ob diese häufiger vorkommen. \wip{Dies kann dazu führen, dass ausgemachte Kriterien für bestimmte Klassen als aussagekräftiger gelten, als sie eigentlich sind, da sie vermeintlich bei vielen Trainingsdaten so vorkamen}
+Im Rahmen dieser Arbeit wurde der zweite Ansatz gewählt.
 
 \subsubsection{Zeichensatz}
 Zuerst sollte der Datensatz in lowercase konvertiert werden, da bei den Wordvektoren sonst ein Unterschied zwischen z.B. \noteable{good} und \noteable{Good} besteht. Dabei könnte sogar zufallsbedingt durch die Anwendung in leicht verschiedenen Kontexten und die generelle unterschiedliche Häufigkeit die Interpretation dieser Wörter auseinandergehen.
diff --git a/Dokumentation/silas/w2vMean.tex b/Dokumentation/silas/w2vMean.tex
index 26f460da0121a8ef234a80f425ecedc889e922ac..0e5fd3affebec1052f6648006f172f1e8f37f26e 100644
--- a/Dokumentation/silas/w2vMean.tex
+++ b/Dokumentation/silas/w2vMean.tex
@@ -155,13 +155,8 @@ beschleunigen. Eine kleinere \lstinline{batch_size} hat beim Experimentieren in
 geführt.
 
 
-Unausgeglichene Datensätze wie der \noteable{Yelp} Datensatz, verleiten dazu das, dass 
-neuronale Netze eben genau diesen Bias lernen. Generell gibt es zwei Ansätze, um diesen 
-Effekt zu bekämpfen. Zu einem gibt es die Möglichkeit, den \noteable{Near-Miss-Algorithm} zu benutzen, 
-welcher im Grunde Einträge von zu oft vertretenen Klassen aus dem Datensatz entfernt, bis dieser 
-ausgeglichen ist. Zum anderen gibt es die Möglichkeit, die Klassen beim Trainieren zu gewichten. 
-Im Rahmen dieser Arbeit wurde der zweite Ansatz gewählt. Hier zu erkennen an der an 
-die Methode \lstinline{fit} Übergebenen Klassengewichte.
+Wie in Kapitel \ref{subsubsec:Dist} diskutiert gibt es verschiedene Umgänge mit unausgeglichenen Datensätzen. Die für diese Arbeit gewählte Methode der Gewichtung ist hier zu erkennen an den, an 
+die Methode \lstinline{fit} Übergebenen, Klassengewichte.
 \wip{vll noch erklären wie die Gewichte entstehen}
 \begin{lstlisting}[caption={Neuronales Netz - Evaluieren},label={list:mean5},firstnumber=60]
 modelNN.evaluate(X_test,Y_test)