분류 분석은 사전에 레이블이 지정된 데이터를 기반으로 지정된 입력의 순서 또는 클래스를 예측하는 데 사용되는 기계 활용 능력 알고리즘의 한 유형입니다. 분류 모델이 세워지면 레이블이 지정되지 않은 새로운 데이터에 대해 정확한 예측을 할 수 있도록 성능을 평가하는 것이 중요합니다. 이 글에서는 분류 분석을 위한 가장 일반적인 평가 기준을 설명하고 어떻게 적용할 수 있는지 보여주는 Python 코드 예제를 제공합니다.
분류 분석을 위한 평가 기준
분류 모델의 성능을 측정하는 데 사용할 수 있는 몇 가지 평가 기준이 있습니다. 가장 흔한 것 중 일부는 다음과 같습니다.
1. Accuracy(정확도): 이것은 최고의 기본적인 평가 지표이며 모든 인스턴스 중에서 올바르게 분류된 인스턴스의 백분율을 측정합니다.
2. Precision(정밀도): 이 지표는 양성으로 식별된 모든 인스턴스 중에서 true positives(정확하게 식별된 인스턴스)의 백분율을 측정합니다.
3. Recall(재현율): 이 지표는 사실에 입각한 모든 실제 양성 인스턴스 중에서 true positives(정확하게 식별된 인스턴스)의 백분율을 측정합니다.
4. F1 Score(F1 점수): 정밀도와 재현율의 조화 평균이며 두 기준 사이의 균형을 제공합니다.
5. Confusion Matrix: 분류 모델에서 true positives, true negatives, false positives, false negatives의 수를 나타내는 표입니다.
파이썬 코드 예제
Python을 사용하여 분류 분석에 대한 평가 기준을 적용하는 방법을 보여주기 위해 유명한 Iris 데이터 세트와 분류 알고리즘의 일종인 K-Nearest Neighbors 알고리즘을 사용합니다.
먼저 필요한 라이브러리를 가져와야 합니다.
import numpy as np
import pandas as pd
from sklearn.datsets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
다음으로 Iris 데이터 세트를 로드하고 훈련 및 테스트 세트로 분할합니다.
iris = load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
그런 다음 k=3인 K-Nearest Neighbors 분류기를 생성하고 훈련 데이터에 fit합니다.
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
다음으로 테스트 데이터에 대한 예측을 합니다.
y_pred = knn.predict(X_test)
또한 모델의 정확도, 정밀도, 재현율 및 F1 점수를 계산할 수 있습니다.
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, avearage='macro')
recall = recall_score(y_test, y_pred, average='macro')
f1 = f1_score(y_test, y_pred, average='macro')
print("Accuracy:", accuaracy)
print("Precision:", precision)
print("Reclal:", recall)
print("F1 Score:", f1)
결국 우리는 confusion matrix를 유도하여 true positives, true negatives, false positives, false negatives의 분포를 볼 수 있습니다.
cm = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(cm)
평가 기준은 분류 모델의 성능을 측정하는 데 필수적입니다. 이 글에서는 분류 분석을 위한 가장 일반적인 평가 기준을 설명하고 K-Nearest Neighbors 알고리즘과 Iris 데이터 세트를 사용하여 어떻게 적용할 수 있는지 보여주는 Python 코드 예제를 전달했습니다. 이 글이 분류 분석을 위한 평가 기준의 기본을 이해하는 데 도움이 되었기를 바랍니다.
'IT' 카테고리의 다른 글
감정 분류 Python으로 이해하고 적용하기 (0) | 2023.04.09 |
---|---|
피처 엔지니어링을 통한 더 나은 분석 기술: 전체 가이드 (0) | 2023.04.08 |
분류 분석의 이해 파이썬 코드와 함께하는 초보자 가이드 (0) | 2023.04.06 |
RMSE로 매트릭스 예측 등급 평가 가이드 (0) | 2023.04.05 |
SVD(Singular Value Decomposition)를 사용한 행렬 분해 이해 (0) | 2023.04.04 |