diff --git a/Dokumentation/2_grundlagen.tex b/Dokumentation/2_grundlagen.tex index 06bb9e696976ca5502826c6e883b080e5ee341af..2c061ce81667fd2414840614927c3b6b4d7b2213 100644 --- a/Dokumentation/2_grundlagen.tex +++ b/Dokumentation/2_grundlagen.tex @@ -9,7 +9,8 @@ Die Klassifikation von Dokumenten ist eine NLP-Aufgabe mit mittlerer Komplexitä \subsubsection{Vorverarbeitung der Sprachdaten \label{subsec:vorverarbeitung}} -Die Vorverarbeitung eines Datensatzes spielt bei der linguistischen Datenverarbeitung eine wichtige Rolle. Thematisch ist diese Vorverarbeitung an dieser Stelle, also vor der Umwandlung in eine für den Computer nutzbare Form, einzuordnen. Bei den Veranschaulichungen der nächsten Abschnitte des Grundlagenteils werden die Techniken jedoch nur teilweise bis gar nicht angewendet. Erst in Abschnitt \ref{sec:Datenaufbereitung} kommen die nachfolgend vorgestellten Methoden am eigentlichen Datensatz zum Einsatz. +Die Vorverarbeitung eines Datensatzes spielt bei der linguistischen Datenverarbeitung eine wichtige Rolle. Thematisch ist diese Vorverarbeitung an dieser Stelle, also vor der Umwandlung in eine für den Computer nutzbare Form, einzuordnen. Bei den Veranschaulichungen der nächsten Abschnitte des Grundlagenteils werden die Techniken jedoch nur teilweise bis gar nicht angewendet. %Erst in Abschnitt \ref{subsec:Datenaufbereitung} kommen die nachfolgend vorgestellten Methoden am eigentlichen Datensatz zum Einsatz. +Erst in dem verwendeten Word2Vec-Modell, welches in Abschnitt \ref{subsection:gensim} beschrieben wird, kommen die nachfolgend vorgestellten Methoden am eigentlichen Datensatz zum Einsatz. Für den Anfang gilt es, die Wörter eines Textes einzeln und unabhängig voneinander abzuspeichern. Dieser Prozess heißt \textbf{Tokenisierung}, da jedes Wort als ein \textbf{Token} gesehen wird. Im \textbf{Textkorpus} befinden sich demnach die tokenisierten Wörter des Rohtextes \cite[S.\,241]{krohn_beyleveld_bassens_2020}. diff --git a/Dokumentation/Herausforderungen.tex b/Dokumentation/Herausforderungen.tex index 99813f3d008fe851f6e8f0fefb60044e7faf8adf..2dc3dcac3c42cb468a6c4cc1e5cf675fc41223d9 100644 --- a/Dokumentation/Herausforderungen.tex +++ b/Dokumentation/Herausforderungen.tex @@ -13,8 +13,10 @@ %\end{lstlisting} %Dabei entspricht jede Zeile ein solches JSON-Objekt, welche nicht Teil einer übergeordneten Liste sind, wodurch das Arbeiten mit den gesplitteten Daten erleichtert wird. Die wichtigen Felder für unseren Anwendungszweck sind jedoch lediglich der \lstinline{text}{} und die Anzahl der \lstinline{stars}{}. -\subsection{Herausforderungen -\label{subsec:Herausforderungen}} +%\subsection{Herausforderungen +%\label{subsec:Herausforderungen}} +\subsection{Datenaufbereitung +\label{subsec:Datenaufbereitung}} Durch das Wissen, wie Word2Vec funktioniert, lassen sich verschiedene Probleme bei diesem Datensatz feststellen. Dabei sind einige davon generisch und annähernd in jedem Word2Vec- oder machine-learning-Projekt vertreten. Andere jedoch sind verhältnismäßig speziell für einen Datensatz wie diesen. \subsubsection{Distribution