@@ -9,7 +9,8 @@ Die Klassifikation von Dokumenten ist eine NLP-Aufgabe mit mittlerer Komplexitä
\subsubsection{Vorverarbeitung der Sprachdaten
\label{subsec:vorverarbeitung}}
Die Vorverarbeitung eines Datensatzes spielt bei der linguistischen Datenverarbeitung eine wichtige Rolle. Thematisch ist diese Vorverarbeitung an dieser Stelle, also vor der Umwandlung in eine für den Computer nutzbare Form, einzuordnen. Bei den Veranschaulichungen der nächsten Abschnitte des Grundlagenteils werden die Techniken jedoch nur teilweise bis gar nicht angewendet. Erst in Abschnitt \ref{sec:Datenaufbereitung} kommen die nachfolgend vorgestellten Methoden am eigentlichen Datensatz zum Einsatz.
Die Vorverarbeitung eines Datensatzes spielt bei der linguistischen Datenverarbeitung eine wichtige Rolle. Thematisch ist diese Vorverarbeitung an dieser Stelle, also vor der Umwandlung in eine für den Computer nutzbare Form, einzuordnen. Bei den Veranschaulichungen der nächsten Abschnitte des Grundlagenteils werden die Techniken jedoch nur teilweise bis gar nicht angewendet. %Erst in Abschnitt \ref{subsec:Datenaufbereitung} kommen die nachfolgend vorgestellten Methoden am eigentlichen Datensatz zum Einsatz.
Erst in dem verwendeten Word2Vec-Modell, welches in Abschnitt \ref{subsection:gensim} beschrieben wird, kommen die nachfolgend vorgestellten Methoden am eigentlichen Datensatz zum Einsatz.
Für den Anfang gilt es, die Wörter eines Textes einzeln und unabhängig voneinander abzuspeichern. Dieser Prozess heißt \textbf{Tokenisierung}, da jedes Wort als ein \textbf{Token} gesehen wird. Im \textbf{Textkorpus} befinden sich demnach die tokenisierten Wörter des Rohtextes \cite[S.\,241]{krohn_beyleveld_bassens_2020}.
%Dabei entspricht jede Zeile ein solches JSON-Objekt, welche nicht Teil einer übergeordneten Liste sind, wodurch das Arbeiten mit den gesplitteten Daten erleichtert wird. Die wichtigen Felder für unseren Anwendungszweck sind jedoch lediglich der \lstinline{text}{} und die Anzahl der \lstinline{stars}{}.
\subsection{Herausforderungen
\label{subsec:Herausforderungen}}
%\subsection{Herausforderungen
%\label{subsec:Herausforderungen}}
\subsection{Datenaufbereitung
\label{subsec:Datenaufbereitung}}
Durch das Wissen, wie Word2Vec funktioniert, lassen sich verschiedene Probleme bei diesem Datensatz feststellen. Dabei sind einige davon generisch und annähernd in jedem Word2Vec- oder machine-learning-Projekt vertreten. Andere jedoch sind verhältnismäßig speziell für einen Datensatz wie diesen.