# 데이터 불러오기
Import pandas as pd
DATA_IN_PATH = ‘./data_in/‘
TRAIN_CLEAN_DATA = ‘train_clean.csv’
train_data = pd.read_csv(DATA_IN_PATH + TRAIN_CLEAN_DATA)
reviews = list(train_data[‘review’])
y = np.array(train_Data[‘sentiment’])
# countvectorizer 모델 불러오기
from sklearn.feature_exrtaction.text import CountVectorizer
vectorizer = CountVectorizer(analyzer = “word”, max_features = 5000 )
train_data_features = vectorizer.fit_transform(reviews)
# train_data_features 의 형태 출력
train_data_features
#. 학습과 검증 데이터 분리
from sklearn.model_selection import train_test_split
TEST_SIZE = 0.2
RANDOM_SEED = 42
train_input, eval_input, train_label, eval_label = train_test_split(train_data_features, y, test_size=TEST_SIZE, random_state = RANDOM_SEED)
# 모델 구현 및 학습
from sklearn.ensemble import RandomForestClassifier
# 랜덤 포데스트 분류기에 100개의 의사결정 트리를 사용
forest = RandomForestClassifier(n_estimators = 100)
# 단어 묶음을 벤터화한 데이터와 정답 데이터를 가지고 학습
forest.fit(train_Input, train_label)
# 검증 데이터 셋으로 성능 평가
print(“Acc : %f”%forest.score(eval_input, eval_label))
# 데이터 제출 — 생략 —
Tensorflow로 시작하는 NLP/예제
- 20. 랜덤포레스트 2019.08.09
20. 랜덤포레스트
2019. 8. 9. 12:15