from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

# DecisionTree Classifier 생성
dt_clf = DecisionTreeClassifier(random_state=156)

# 붓꽃 데이터를 로딩하고, 학습과 테스트 데이터 셋으로 분리
iris_data = load_iris()
X_train , X_test , y_train , y_test = train_test_split(iris_data.data, iris_data.target,
                                                       test_size=0.2,  random_state=11)

# DecisionTreeClassifer 학습. 그러면 dt_clf가 학습완료된 classifier가 된다. 
dt_clf.fit(X_train , y_train)

DecisionTreeClassifier(random_state=156)

from sklearn.tree import export_graphviz

# export_graphviz는 학습완료된 dt_clf를 out_file로 지정된 파일로 만들어줌 
# 이때 target_name과 feature_name을 넣어줘야 그래프가 완성된다. 
export_graphviz(dt_clf, out_file="tree.dot", class_names=iris_data.target_names , \
feature_names = iris_data.feature_names, impurity=True, filled=True)

import graphviz

# 위에서 생성된 tree.dot 파일을 Graphviz 읽어서 Jupyter Notebook상에서 시각화 
with open("tree.dot") as f:
    dot_graph = f.read()
graphviz.Source(dot_graph)

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

# DecisionTree Classifier 생성
dt_clf = DecisionTreeClassifier(random_state=156)

# 붓꽃 데이터를 로딩하고, 학습과 테스트 데이터 셋으로 분리
iris_data = load_iris()
X_train , X_test , y_train , y_test = train_test_split(iris_data.data, iris_data.target,
                                                       test_size=0.2,  random_state=11)

# DecisionTreeClassifer 학습. 그러면 dt_clf가 학습완료된 classifier가 된다. 
dt_clf.fit(X_train , y_train)

DecisionTreeClassifier(random_state=156)

import seaborn as sns
import numpy as np
%matplotlib inline

# feature importance 추출 
print("Feature importances:\n{0}".format(np.round(dt_clf.feature_importances_, 3)))

# feature별 importance 매핑
for name, value in zip(iris_data.feature_names , dt_clf.feature_importances_):
    print('{0} : {1:.3f}'.format(name, value))

# feature importance를 column 별로 시각화 하기 
sns.barplot(x=dt_clf.feature_importances_ , y=iris_data.feature_names)

Feature importances:
[0.025 0.    0.555 0.42 ]
sepal length (cm) : 0.025
sepal width (cm) : 0.000
petal length (cm) : 0.555
petal width (cm) : 0.420

<AxesSubplot:>

Classification 3. 앙상블 학습(Ensemble Learning) - Boosting (1. AdaBoost, 2. GBM) (0)	2020.10.10
Classification 2. 앙상블 학습(Ensemble Learning) - Voting과 Bagging (0)	2020.10.09
Regression2. 경사하강법 수행 프로세스와 python code (0)	2020.10.01
Evaluation2. 회귀의 성능 평가 지표(MAE, MSE, RMSE, R제곱) (0)	2020.09.28
Evaluation1 - 분류 모델 성능 지표 (Accuracy, Confusion Matrix, Precision, Recall, F1 score, ROC AUC ) (0)	2020.09.28

Grace's Tech Blog

Classification 1. 결정 트리(Decision Tree)

분류(Classification)란

대표적인 분류 알고리즘

결정 트리

1. 정보 균일도

2. 결정 트리의 특징

3. 결정 트리의 활용

4. sklearn과 결정 트리

5. 결정 트리 모델의 시각화

6. 결정 트리와 앙상블

Reference

'Data Science > Machine Learning' 카테고리의 다른 글

'Data Science/Machine Learning'의 다른글

티스토리툴바

Classification 1. 결정 트리(Decision Tree)

분류(Classification)란

대표적인 분류 알고리즘

결정 트리

1. 정보 균일도

2. 결정 트리의 특징

3. 결정 트리의 활용

4. sklearn과 결정 트리

5. 결정 트리 모델의 시각화

6. 결정 트리와 앙상블

Reference

'Data Science > Machine Learning' 카테고리의 다른 글

'Data Science/Machine Learning'의 다른글

관련글

티스토리툴바