# 데이터 불러오기 

Import pandas as pd

DATA_IN_PATH = ‘./data_in/‘

TRAIN_CLEAN_DATA = ‘train_clean.csv’



train_data = pd.read_csv(DATA_IN_PATH + TRAIN_CLEAN_DATA)

reviews = list(train_data[‘review’])

y = np.array(train_Data[‘sentiment’])



# countvectorizer 모델 불러오기

from sklearn.feature_exrtaction.text import CountVectorizer



vectorizer = CountVectorizer(analyzer = “word”, max_features = 5000 )

train_data_features = vectorizer.fit_transform(reviews)



# train_data_features 의 형태 출력

train_data_features



#.   학습과 검증 데이터 분리

from sklearn.model_selection import train_test_split

TEST_SIZE = 0.2

RANDOM_SEED = 42

train_input, eval_input, train_label, eval_label = train_test_split(train_data_features, y, test_size=TEST_SIZE, random_state = RANDOM_SEED)



# 모델 구현 및 학습

from sklearn.ensemble import RandomForestClassifier

# 랜덤 포데스트 분류기에 100개의 의사결정 트리를 사용

forest = RandomForestClassifier(n_estimators = 100)

# 단어 묶음을 벤터화한 데이터와 정답 데이터를 가지고 학습

forest.fit(train_Input, train_label)



# 검증 데이터 셋으로 성능 평가

print(“Acc : %f”%forest.score(eval_input, eval_label))



# 데이터 제출 — 생략 —







+ Recent posts