diff --git a/notes/NoAsianLanguage.txt b/notes/NoAsianLanguage.txt deleted file mode 100644 index 26d3b38cdd9900e142e427ec8ab83eca0b0693ca..0000000000000000000000000000000000000000 --- a/notes/NoAsianLanguage.txt +++ /dev/null @@ -1 +0,0 @@ -this \ No newline at end of file diff --git a/notes/Notizen.txt b/notes/Notizen.txt deleted file mode 100644 index 57592193d92161e1d746ac7650beacdc4398e570..0000000000000000000000000000000000000000 --- a/notes/Notizen.txt +++ /dev/null @@ -1,32 +0,0 @@ -alles lower case (unterschied good vs Good sonst) - -Sonderzeichen - - Satzzeichen = Ignorieren? Ersetzen? ("good" & "good," verschieden) - - bsp: didn't oder auch L'ambiance - !!NEW!! -> ' entfernen; problem bei its vs it's - -> ' durch anderes Zeichen oder auffälligen Buchstaben ersetzen, bsp: didnWt - - Sonderbuchstaben: à - - Spezielle Zeichen: Jap, etc... - -Menge an Klassifizierung - - Ganze review - - In Sätzen - - +-3 Wörter - -Unterschiedliche Länge der Reviews - - Wie tranieren & evaluieren? - - 1 Wort 1 Ergebnis? - -andere Sprachen behalten? - - jap - -nicht einfach wann wörter enden - -beeinflusst andere sprachen eher nicht, aber bringt auch nix innerhalb der sprache - -nimmt also eher nur trainingszeit ein - - leicht zu entfernen - - andere ähnliche sprachen (fr, de, ...) - - ggf. edge cases - -> nicht sinnvoll - - schwer zu entfernen - - könnte durch ähnlichkeit andere sprache beeinflussen - -Trainiertes Modell runteladen vs selbst trainieren \ No newline at end of file diff --git a/notes/Notizen0228.txt b/notes/Notizen0228.txt deleted file mode 100644 index 552e0fb96ad6a8ff7eaeaa39320fdccfbe69ab89..0000000000000000000000000000000000000000 --- a/notes/Notizen0228.txt +++ /dev/null @@ -1,10 +0,0 @@ -Nur Englisch (lookup in dictionary?) -Apostroph durch UpperCase Buchstabe ersetzen um Bedeutung zu behalten (it's vs its) -Filtern nach kleiner utf8 reichweite (für nur Englisch) -Satzzeichen raus -> durch Leerzeichen ersetzen -Stop words - Entfernen von häufigen wörtern, welche geringe Bedeutung haben um Datensatz relevanter zu halten - -Doku: - - Vergleich w2v mit html farben (black = #000) als Einstieg - - Bedenken, weil "good" & "bad" sind oft 1:1 ersetzbar - Worträume eig sehr nah für diesen Kontext \ No newline at end of file diff --git a/notes/Notizen0301.txt b/notes/Notizen0301.txt deleted file mode 100644 index 7e38bfddcafbc4dcea0ff95daa692be8ec6f4291..0000000000000000000000000000000000000000 --- a/notes/Notizen0301.txt +++ /dev/null @@ -1,4 +0,0 @@ -Klasse in der Datenaufbereitung stattfindet - Text & Stars in extra Datei speichern für X & Y ? - -Review Verteilung nachschauen & plotten für Doku (Wenn 90% 5 Sterne, schlechter Datensatz) \ No newline at end of file diff --git a/notes/Notizen0310.txt b/notes/Notizen0310.txt deleted file mode 100644 index bac2b2fde184abe8691f05f2e04a74d58e64ecf0..0000000000000000000000000000000000000000 --- a/notes/Notizen0310.txt +++ /dev/null @@ -1,8 +0,0 @@ -- pre trained model Vergleichen -- parameter konfigurieren (minCount, windowSize) - - ab welcher dimension verlieren wir zu viele infos? -- ausgleich des datensatzes - - Near Miss Algorithm (Wegwerfen von zu vielen) - - parameter für Gewichtung möglich? - - Einfluss analysieren -- Methode aus dem Buch (feste Länge, ggf. abschneiden/mit 0 auffüllen) und dann z.B. CNN \ No newline at end of file diff --git a/notes/Notizen0326.txt b/notes/Notizen0326.txt deleted file mode 100644 index 8cb1d67dc400093669668fc5966ced661fd91334..0000000000000000000000000000000000000000 --- a/notes/Notizen0326.txt +++ /dev/null @@ -1,17 +0,0 @@ -Datenmenge: - - Datei laden über Generator (Es werden nur einige Zeilen geladen, die man gerade braucht) - -> Entlastet Arbeitsspeicher - -> Erhöht Zeitaufwand - -Maßnahme gegen unbalanced Dataset: - - Gewichtung der Kategorien (z.B. 1 Neutrale review zählt wie 10 positive reviews) - -> Kein Datenverlust durch droppen der "zu vielen" - -Validierungs- & Testmenge: - - In 2 extra Dateien ausgelagert und aus der Hauptdatei gelöscht - -> Um auch hier über Generator laden zu können - -Generator: - - Speichern der Datenmengen als w2v Vektoren, anstatt raw Data - -> Laden & Processing der Daten war viel zu lang - -> \ No newline at end of file