Skip to content
Snippets Groups Projects
Commit 2a6d8f7f authored by Joel Vongehr's avatar Joel Vongehr
Browse files

fixed reference

parent 6b5902c6
No related branches found
No related tags found
No related merge requests found
......@@ -9,7 +9,8 @@ Die Klassifikation von Dokumenten ist eine NLP-Aufgabe mit mittlerer Komplexitä
\subsubsection{Vorverarbeitung der Sprachdaten
\label{subsec:vorverarbeitung}}
Die Vorverarbeitung eines Datensatzes spielt bei der linguistischen Datenverarbeitung eine wichtige Rolle. Thematisch ist diese Vorverarbeitung an dieser Stelle, also vor der Umwandlung in eine für den Computer nutzbare Form, einzuordnen. Bei den Veranschaulichungen der nächsten Abschnitte des Grundlagenteils werden die Techniken jedoch nur teilweise bis gar nicht angewendet. Erst in Abschnitt \ref{sec:Datenaufbereitung} kommen die nachfolgend vorgestellten Methoden am eigentlichen Datensatz zum Einsatz.
Die Vorverarbeitung eines Datensatzes spielt bei der linguistischen Datenverarbeitung eine wichtige Rolle. Thematisch ist diese Vorverarbeitung an dieser Stelle, also vor der Umwandlung in eine für den Computer nutzbare Form, einzuordnen. Bei den Veranschaulichungen der nächsten Abschnitte des Grundlagenteils werden die Techniken jedoch nur teilweise bis gar nicht angewendet. %Erst in Abschnitt \ref{subsec:Datenaufbereitung} kommen die nachfolgend vorgestellten Methoden am eigentlichen Datensatz zum Einsatz.
Erst in dem verwendeten Word2Vec-Modell, welches in Abschnitt \ref{subsection:gensim} beschrieben wird, kommen die nachfolgend vorgestellten Methoden am eigentlichen Datensatz zum Einsatz.
Für den Anfang gilt es, die Wörter eines Textes einzeln und unabhängig voneinander abzuspeichern. Dieser Prozess heißt \textbf{Tokenisierung}, da jedes Wort als ein \textbf{Token} gesehen wird. Im \textbf{Textkorpus} befinden sich demnach die tokenisierten Wörter des Rohtextes \cite[S.\,241]{krohn_beyleveld_bassens_2020}.
......
......@@ -13,8 +13,10 @@
%\end{lstlisting}
%Dabei entspricht jede Zeile ein solches JSON-Objekt, welche nicht Teil einer übergeordneten Liste sind, wodurch das Arbeiten mit den gesplitteten Daten erleichtert wird. Die wichtigen Felder für unseren Anwendungszweck sind jedoch lediglich der \lstinline{text}{} und die Anzahl der \lstinline{stars}{}.
\subsection{Herausforderungen
\label{subsec:Herausforderungen}}
%\subsection{Herausforderungen
%\label{subsec:Herausforderungen}}
\subsection{Datenaufbereitung
\label{subsec:Datenaufbereitung}}
Durch das Wissen, wie Word2Vec funktioniert, lassen sich verschiedene Probleme bei diesem Datensatz feststellen. Dabei sind einige davon generisch und annähernd in jedem Word2Vec- oder machine-learning-Projekt vertreten. Andere jedoch sind verhältnismäßig speziell für einen Datensatz wie diesen.
\subsubsection{Distribution
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment