728x90
반응형
SMALL

IT 132

Python을 사용한 머신 러닝의 R2 score 및 RMSE score 이해하기

머신 러닝에서는 모델의 성능을 평가하는 데 도움이 되는 메트릭을 확보하는 것이 중요합니다. 이를 위해 널리 사용되는 두 가지 메트릭은 R2 score와 RMSE score입니다. 이 글에서는 이러한 메트릭이 무엇인지, 어떻게 계산되는지, 코드 예제를 통해 Python에서 구현하는 방법을 살펴보겠습니다. R2 score는 무엇일까요? 결정 계수라고도 하는 R2 score는 회귀 모델이 데이터에 얼마나 잘 맞는지 평가하는 데 사용되는 메트릭입니다. 이는 모델의 독립 변수에 의해 설명되는 종속 변수의 분산 비율을 측정합니다. R2 score의 범위는 0에서 1이며, 1은 완벽하게 맞는다는 것을 나타냅니다. RMSE score는 무엇일까요? RMSE score 또는 평균제곱오차는 회귀 모델의 정확도를 평가하는 ..

IT 2023.03.25

원핫 인코딩: 원핫 인코딩이란 무엇이며 파이썬에서 구현하는 방법

원핫 인코딩은 데이터 과학에서 범주형 데이터를 머신 러닝 모델에서 사용할 수 있는 수치 데이터로 변환하는 데 널리 사용되는 기법입니다. 이 글에서는 원핫 인코딩이 무엇이며, 왜 중요한지, 코드 예제를 통해 Python에서 원핫 인코딩을 구현하는 방법을 살펴봅니다. 원핫 인코딩이란 무엇일까요? 원핫 인코딩은 데이터의 각 카테고리에 대해 이진 벡터를 생성하여 범주형 데이터를 숫자 데이터로 변환하는 프로세스입니다. 이 벡터의 길이는 데이터의 카테고리 수와 같으며, 카테고리에 해당하는 위치에는 1이 있고 다른 모든 위치에는 0이 있습니다. 원핫 인코딩이 중요한 이유는 무엇일까요? 원핫 인코딩은 여러 가지 이유로 중요합니다. 1. 머신러닝 알고리즘에는 숫자 데이터가 필요하며, 원핫 인코딩은 범주형 데이터를 숫자 ..

IT 2023.03.24

데이터 분석에서 피처 스케일링의 중요성

데이터 분석에서 피처 스케일링은 종종 간과되는 중요한 단계입니다. 하지만 데이터 모델의 정확성과 효율성을 보장하는 데 중요한 역할을 합니다. 이 글에서는 피처 확장이 무엇인지, 왜 중요한지, 코드 예제를 통해 Python에서 피처 확장을 구현하는 방법을 살펴보겠습니다. 피처 확장이란 무엇일까요? 피처 스케일링은 데이터 집합의 데이터를 일반적으로 0과 1 또는 -1과 1 사이의 표준화된 척도로 변환하는 프로세스입니다. 이렇게 하면 데이터 집합의 각 피처가 동일한 가중치를 가지게 되고 한 피처가 모델의 출력을 지배하는 것을 방지할 수 있습니다. 피처 스케일링은 K-Nearest Neighbors 및 Support Vector Macines과 같은 거리 기반 메트릭을 사용하는 머신 러닝 알고리즘에서 특히 중요..

IT 2023.03.23

테스트 전용 데이터 세트에서 훈련 전용 데이터 세트 분리

머신 러닝 모델을 구축할 때 가장 중요한 방법 중 하나는 데이터를 훈련 데이터 세트와 테스트 데이터 세트로 분리하는 것입니다. 이를 통해 우리는 하나의 데이터 세트에서 모델을 훈련하고 지금은 본 적이 없는 다른 데이터 세트에서 성능을 추정할 수 있습니다. 그래도 데이터를 훈련 전용 데이터 세트와 테스트 전용 데이터 세트로 분리하고 싶을 때가 있습니다.. 이 게시물에서는 이것이 필요한 이유와 수행 방법을 살펴보겠습니다. 데이터를 훈련 전용 데이터 세트와 테스트 전용 데이터 세트로 구분하는 이유는 무엇일까요? 데이터를 교육 및 테스트 데이터 세트로 분리하는 것은 머신 러닝에서 일반적인 관행입니다. 학습 데이터 세트는 모델을 학습하는 데 사용되고 테스트 데이터 세트는 성능을 추정하는 데 사용됩니다. 그래도 교..

IT 2023.03.22

ChatGPT가 알려준 레시피로 탕후루 만들기!

소개 탕후루란? 탕후루(Tanghulu)는 꼬챙이에 꽂은 과일에 설탕 시럽을 굳혀 만든 중국의 인기 간식입니다. 그 결과 남녀노소 누구나 즐길 수 있는 맛있고 아름다운 간식이 탄생했습니다. 탕후루의 역사 탕후루의 기원은 송나라(서기 960-1279년)로 거슬러 올라갑니다. 그 당시 설탕은 값비싼 사치품이었기 때문에 부유층만이 이 달콤한 간식을 즐길 수 있었습니다. 그러나 시간이 지남에 따라 탕후루는 일반 대중에게 더 쉽게 접근할 수 있게 되었으며 현재 중국 전역에서 인기 있는 길거리 음식입니다. 탕후루 만들기 재료 과일 선택 탕후루에서 사용되는 전통 과일은 산사나무 열매이지만 포도, 딸기, 키위와 같은 다른 과일도 사용할 수 있습니다. 탕후루 만들기 과정 과일 준비 과일을 씻어서 말립니다. 줄기나 잎을 ..

IT 2023.02.19

SELECT 문

SELECT 저장되어 있는 데이터를 조회 SELECT column1, column2, ... FROM table WHERE column1 = 'ABC'; * (asterisk) 전체 컬럼이 조회 WHERE 절이 없으면 테이블의 전체 row가 조회 SELECT * FROM table; Alias(별도의 별칭) 테이블명이나 컬럼명에 붙여줌 테이블명이 비교적 길기 때문에 짧게 줄여 쓰기 위해 SELECT TAB.COL FROM TAB WHERE COL = 'A'; ↓ SELECT T.COL FROM TAB T WHERE COL = 'A'; 산술 연산자 사칙연산의 기능 NUMBER DATE 유형의 데이터와 같이 사용 연산자 의미 우선순위 () 우선순위 조정 1 * 곱하기 2 / 나누기 2 + 더하기 3 - 빼기..

IT 2022.10.05

관계형 데이터베이스

데이터베이스 데이터들을 저장하는 공간 용도와 목적에 맞는 데이터들을 모아서 저장 관계형 데이터베이스(RDB(Relational Database)) 관계형 데이터 모델에 기초를 둔 데이터베이스 2차원 테이블 형태(엑셀 표 형식)로 표현 각 테이블 간의 관계를 정의 RDBMS(Relational Database Management System) RDB를 관리, 감독하기 위한 시스템 Oracle, SQL Server(MSSQL), MySQL, MariaDB, PostgreSQL 등 TABLE 세로 열 => 컬럼(Column) 가로 행 => 로우(Row) 관계형 데이터베이스의 기본 단위 데이터베이스는 여러 테이블로 구성 데이터를 저장하는 목적: 데이터 활용 => 테이블 형태로 조회, 변경, 삭제 SQL(Stru..

IT 2022.10.04

데이터 모델과 SQL

성능 데이터 모델링 데이터베이스의 성능을 향상시키기 위해 설계 단계부터 성능과 관련된 사항들이 모델링에 반영될 수 있다. 성능 데이터 모델링 방법 정규화 반정규화 테이블 통합 테이블 분할 성능 데이터 모델링 순서 데이터 모델에 맞게 정규화를 수행 데이터베이스 용량 및 트랜잭션 유형을 파악하여 성능 저하를 일으키는 부분이 없는지 검토 용량과 트랜잭션 유형에 맞게 반정규화를 수행 성능 향상을 위한 이력모델의 조정, PK/FK 조정, 슈퍼/서브타입 조정 등을 수행 데이터 모델의 성능을 검증 정규화(Normalization) 정규화를 수행하는 이유 데이터의 무결성을 보장하기 위해 1차 정규화 유사한 속성이 반복되지 않도록 엔티티를 분리 하나의 속성이 여러 개의 속성값을 갖는 데이터 모델 원자값이 아닌 도메인을 ..

IT 2022.10.03

트랜잭션(Transaction) & NULL

트랜잭션(Transaction) 데이터를 조작하기 위한 하나의 논리적인 작업 단위 NULL 존재하지 않음 값이 없음 데이터가 입력되지 않은 것 0 ≠ NULL NULL ≠ 'NULL' → 'NULL'은 NULL이라는 텍스트를 의미 ♥학습에 도움이 된 도서♥ 2022 유선배 SQL개발자(SQLD) 과외노트(개정판) 도서 특징 핵심만 쏙쏙 담은 알찬 수험서! SD에듀가 가장 효율적·효과적인 합격의 길을 제안합니다. 유튜브 선생님에게 배우는 유·선·배, 그 첫 번째 시리즈! 〈유선배 SQL개발자 과외노트〉와 함께 2022년 SQLD 합격의 주인공이 되어 보세요! Step 1. 유튜브 무료 동영상 강의 제공 유튜브에서 ‘SQL전문가 정미나’를 검색해보세요! 저자 직강의 동영상 강의를 무료로 제공합니다. 혼자 공..

IT 2022.10.01

SQL 반정규화(De-Normalization) 정리

반정규화(De-Normalization) 데이터의 조회 성능을 향상시키기 위해 데이터의 중복을 허용하거나 데이터를 그룹핑하는 과정ㅇ 주의할 점 입력, 수정, 삭제 성능이 저하 데이터 정합성 이슈가 발생 반정규화 과정 정규화가 끝난 후 일정한 룰에 따라 진행 테이블 반정규화 1. 테이블 병합 JOIN이 필요한 경우가 많아 테이블을 통합하는 것이 유리할 경우 1:1 관계 비교적 판단하기 수월 부작용이 적음 1:M 관계 1쪽에 해당하는 엔티티의 속성 개수가 많으면 중복 데이터가 많아지므로 적절하지 않음 슈퍼 서브 타입 2. 테이블 분할 수직 분할 (속성 분할) 엔티티의 일부 속성을 별도의 엔티티로 분할 1:1 관계 성립 자주 사용하는 속성이 아니거나 대부분의 인스턴스가 해당 속성값이 NULL인 경우 수평 분할..

IT 2022.09.20
728x90
반응형
LIST