Skip to content
Snippets Groups Projects
Commit 7f16773b authored by Joel Vongehr's avatar Joel Vongehr
Browse files

cleanup

parent c7d1f3d7
No related branches found
No related tags found
No related merge requests found
this
\ No newline at end of file
alles lower case (unterschied good vs Good sonst)
Sonderzeichen
- Satzzeichen = Ignorieren? Ersetzen? ("good" & "good," verschieden)
- bsp: didn't oder auch L'ambiance
!!NEW!! -> ' entfernen; problem bei its vs it's
-> ' durch anderes Zeichen oder auffälligen Buchstaben ersetzen, bsp: didnWt
- Sonderbuchstaben: à
- Spezielle Zeichen: Jap, etc...
Menge an Klassifizierung
- Ganze review
- In Sätzen
- +-3 Wörter
Unterschiedliche Länge der Reviews
- Wie tranieren & evaluieren?
- 1 Wort 1 Ergebnis?
andere Sprachen behalten?
- jap
-nicht einfach wann wörter enden
-beeinflusst andere sprachen eher nicht, aber bringt auch nix innerhalb der sprache
-nimmt also eher nur trainingszeit ein
- leicht zu entfernen
- andere ähnliche sprachen (fr, de, ...)
- ggf. edge cases
-> nicht sinnvoll
- schwer zu entfernen
- könnte durch ähnlichkeit andere sprache beeinflussen
Trainiertes Modell runteladen vs selbst trainieren
\ No newline at end of file
Nur Englisch (lookup in dictionary?)
Apostroph durch UpperCase Buchstabe ersetzen um Bedeutung zu behalten (it's vs its)
Filtern nach kleiner utf8 reichweite (für nur Englisch)
Satzzeichen raus -> durch Leerzeichen ersetzen
Stop words - Entfernen von häufigen wörtern, welche geringe Bedeutung haben um Datensatz relevanter zu halten
Doku:
- Vergleich w2v mit html farben (black = #000) als Einstieg
- Bedenken, weil "good" & "bad" sind oft 1:1 ersetzbar
Worträume eig sehr nah für diesen Kontext
\ No newline at end of file
Klasse in der Datenaufbereitung stattfindet
Text & Stars in extra Datei speichern für X & Y ?
Review Verteilung nachschauen & plotten für Doku (Wenn 90% 5 Sterne, schlechter Datensatz)
\ No newline at end of file
- pre trained model Vergleichen
- parameter konfigurieren (minCount, windowSize)
- ab welcher dimension verlieren wir zu viele infos?
- ausgleich des datensatzes
- Near Miss Algorithm (Wegwerfen von zu vielen)
- parameter für Gewichtung möglich?
- Einfluss analysieren
- Methode aus dem Buch (feste Länge, ggf. abschneiden/mit 0 auffüllen) und dann z.B. CNN
\ No newline at end of file
Datenmenge:
- Datei laden über Generator (Es werden nur einige Zeilen geladen, die man gerade braucht)
-> Entlastet Arbeitsspeicher
-> Erhöht Zeitaufwand
Maßnahme gegen unbalanced Dataset:
- Gewichtung der Kategorien (z.B. 1 Neutrale review zählt wie 10 positive reviews)
-> Kein Datenverlust durch droppen der "zu vielen"
Validierungs- & Testmenge:
- In 2 extra Dateien ausgelagert und aus der Hauptdatei gelöscht
-> Um auch hier über Generator laden zu können
Generator:
- Speichern der Datenmengen als w2v Vektoren, anstatt raw Data
-> Laden & Processing der Daten war viel zu lang
->
\ No newline at end of file
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment