728x90
반응형
SMALL

데이터분석 24

Python을 사용한 머신 러닝의 R2 score 및 RMSE score 이해하기

머신 러닝에서는 모델의 성능을 평가하는 데 도움이 되는 메트릭을 확보하는 것이 중요합니다. 이를 위해 널리 사용되는 두 가지 메트릭은 R2 score와 RMSE score입니다. 이 글에서는 이러한 메트릭이 무엇인지, 어떻게 계산되는지, 코드 예제를 통해 Python에서 구현하는 방법을 살펴보겠습니다. R2 score는 무엇일까요? 결정 계수라고도 하는 R2 score는 회귀 모델이 데이터에 얼마나 잘 맞는지 평가하는 데 사용되는 메트릭입니다. 이는 모델의 독립 변수에 의해 설명되는 종속 변수의 분산 비율을 측정합니다. R2 score의 범위는 0에서 1이며, 1은 완벽하게 맞는다는 것을 나타냅니다. RMSE score는 무엇일까요? RMSE score 또는 평균제곱오차는 회귀 모델의 정확도를 평가하는 ..

IT 2023.03.25

데이터 분석에서 피처 스케일링의 중요성

데이터 분석에서 피처 스케일링은 종종 간과되는 중요한 단계입니다. 하지만 데이터 모델의 정확성과 효율성을 보장하는 데 중요한 역할을 합니다. 이 글에서는 피처 확장이 무엇인지, 왜 중요한지, 코드 예제를 통해 Python에서 피처 확장을 구현하는 방법을 살펴보겠습니다. 피처 확장이란 무엇일까요? 피처 스케일링은 데이터 집합의 데이터를 일반적으로 0과 1 또는 -1과 1 사이의 표준화된 척도로 변환하는 프로세스입니다. 이렇게 하면 데이터 집합의 각 피처가 동일한 가중치를 가지게 되고 한 피처가 모델의 출력을 지배하는 것을 방지할 수 있습니다. 피처 스케일링은 K-Nearest Neighbors 및 Support Vector Macines과 같은 거리 기반 메트릭을 사용하는 머신 러닝 알고리즘에서 특히 중요..

IT 2023.03.23

테스트 전용 데이터 세트에서 훈련 전용 데이터 세트 분리

머신 러닝 모델을 구축할 때 가장 중요한 방법 중 하나는 데이터를 훈련 데이터 세트와 테스트 데이터 세트로 분리하는 것입니다. 이를 통해 우리는 하나의 데이터 세트에서 모델을 훈련하고 지금은 본 적이 없는 다른 데이터 세트에서 성능을 추정할 수 있습니다. 그래도 데이터를 훈련 전용 데이터 세트와 테스트 전용 데이터 세트로 분리하고 싶을 때가 있습니다.. 이 게시물에서는 이것이 필요한 이유와 수행 방법을 살펴보겠습니다. 데이터를 훈련 전용 데이터 세트와 테스트 전용 데이터 세트로 구분하는 이유는 무엇일까요? 데이터를 교육 및 테스트 데이터 세트로 분리하는 것은 머신 러닝에서 일반적인 관행입니다. 학습 데이터 세트는 모델을 학습하는 데 사용되고 테스트 데이터 세트는 성능을 추정하는 데 사용됩니다. 그래도 교..

IT 2023.03.22

[책 리뷰] 문과생, 데이터 사이언티스트 되다

비전공자로서 데이터 사이언티스트를 준비하면서 초기에 마음가짐을 할 수 있었던 도서 주요 내용 정리 문과생, 데이터 사이언티스트 되다 스타벅스커피코리아 1호 데이터 사이언티스트이자 소비자심리학 박사. 크고 작은 조직들을 거치며 KT경제경영연구소 연구원으로도 일했다. 데이터를 가지고 새로운 것을 알아내는 일이 즐거워, books.google.co.jp 데이터 데이터는 개념보다 활용이 중요하다. 데이터는 쌓일수록 가치가 생긴다. 데이터는 경쟁력을 좌우한다. 모든 것이 데이터가 될 수 있다. 데이터 사이언티스트의 역할 이 시대에 꼭 필요한 전문가 기술, 통계, 인문의 경계를 넘나든다. 숫자로 설득해야 한다. 숫자와 현실을 연결해야 한다. 숫자와 언어 속에서 맥락을 읽어낸다. 데이터 사이언티스트의 역량 기초다지기..

IT 2022.05.24
728x90
반응형
LIST