2

2025-12-06 13:50:19 +02:00
parent bddef39f9c
commit 9c3e92b4f8
3 changed files with 111 additions and 3 deletions
@@ -0,0 +1,98 @@
 from tensorflow.keras import layers as kl
 from tensorflow.keras import models as km
 from tensorflow.keras import losses as ks
 from tensorflow.keras import optimizers as ko
 from tensorflow.keras import callbacks as kc
 from tensorflow.keras.preprocessing.text import Tokenizer as kT
 from tensorflow.keras.utils import pad_sequences as kps
 import re
 import numpy as np
 import pandas as pd
 import nltk
 from nltk.corpus import stopwords
 from nltk.tokenize import word_tokenize
 from nltk.stem import WordNetLemmatizer
 from tqdm import tqdm
 tqdm.pandas()
 print("I")
 t = pd.read_csv("yelp_review_polarity_csv/train.csv",
                header = None,
                names = ['c', 'r'])
 print("R")
 y = t['c'] - 1
 r = t['r']
 #nltk.download("stopwords")
 #nltk.download("punkt_tab")
 #nltk.download("wordnet")
 def fr(r):
    r = r.lower()
    r = " ".join(tuple(re.findall(r'\w+', r)))
    for i in ['\n', '\r', ',', '.', '-', ';', ':', '\'', '"']:
        r = r.replace(i, "")
    sw = set(stopwords.words("english"))
    l = WordNetLemmatizer()
    return " ".join([l.lemmatize(i.strip(), pos = 'v') for i in word_tokenize(r) if i.strip() not in sw])
 r = r.progress_apply(fr)
 #print(r)
 print("A")
 tk = kT(num_words = 6000)
 tk.fit_on_texts(r)
 print("F")
 #print(tk.word_index)
 s = tk.texts_to_sequences(r)
 #print(s)
 print("T")
 ts = kps(s, maxlen = 100)
 print("P")
 m = km.Sequential([
    kl.Input(shape = (None, ), dtype = 'int32'),
    kl.Embedding(6000, 96),
    kl.Dropout(0.2),
    kl.Conv1D(128, 5, activation = 'relu'),
    kl.LSTM(128, return_sequences = True),
    kl.LSTM(64),
    kl.Dense(64),
    kl.Dropout(0.5),
    kl.Dense(1, activation = 'sigmoid')
 ])
 m.compile(optimizer = ko.Lion(learning_rate = 0.0005),
          loss = 'binary_crossentropy',
          metrics = ['accuracy'])
 #m.summary()
 ckpt = kc.ModelCheckpoint('model1.keras',
                          monitor = 'val_accuracy',
                          save_best_only = True,
                          verbose = 1)
 history = m.fit(ts,
                y,
                epochs = 3,
                batch_size = 256,
                validation_split = 0.1,
                callbacks = [ckpt])
@@ -19,7 +19,7 @@ t = pd.read_csv("yelp_review_polarity_csv/train.csv",
 print("R")
-y = t['c'] - 1
+y = (t['c'] - 1)
 r = t['r']
 r = r.progress_apply(fr)
@@ -3,7 +3,7 @@ import nltk
 from nltk.corpus import stopwords
 from nltk.tokenize import word_tokenize
 from nltk.stem import WordNetLemmatizer
-from spellchecker import SpellChecker as sc
+#from spellchecker import SpellChecker as sc
 nltk.download("stopwords")
 nltk.download("punkt_tab")
@@ -20,4 +20,14 @@ def fr(r):
    sw = set(stopwords.words("english"))
    l = WordNetLemmatizer()
-    return " ".join([l.lemmatize(i.strip(), pos = 'v') for i in word_tokenize(r) if i.strip() not in sw])
+    #c = sc()
    r = [i.strip() for i in word_tokenize(r) if i.strip() not in sw]
    # spellcheck
    #for k, i in enumerate(r):
    #    w = c.correction(i)
    #    if w:
    #        r[k] = w
    return " ".join([l.lemmatize(i, pos = 'v') for i in r])