IT

Python에서 특정 날짜를 기준으로 훈련 및 테스트 데이터를 분할하는 방법

rimicode 2023. 4. 3. 19:21
728x90
반응형
SMALL

 

시계열 데이터로 작업할 때는 데이터 집합을 학습 및 테스트 집합으로 분할하는 것이 중요합니다. 이를 통해 보이지 않는 데이터에 대한 모델의 성능을 평가할 수 있습니다. 경우에 따라 무작위가 아닌 특정 날짜나 시간을 기준으로 데이터 집합을 분할하고 싶을 수도 있습니다. 이 블로그 게시물에서는 Python에서 특정 날짜를 기준으로 훈련 데이터와 테스트 데이터를 분할하는 방법에 대해 설명합니다.

 

 

 

 

특정 날짜를 기준으로 데이터 분할하기

 

특정 날짜를 기준으로 데이터를 분할하려면 먼저 date 열을 datetime object로 변환해야 합니다. 그런 다음 datetime object를 사용하여 날짜를 기준으로 데이터 세트를 훈련 세트와 테스트 세트로 분할할 수 있습니다.

 

'Date'라는 날짜 열이 있는 데이터 세트가 있다고 가정해 보겠습니다. 다음 Python 코드는 특정 날짜를 기준으로 데이터 집합을 학습 및 테스트 집합으로 분할하는 방법을 보여줍니다.

import pandas as pd

# 데이터 읽기
data = pd.read_csv('data.csv')

# 날짜 열을 날짜/시간 객체로 변환
data['Date'] = pd.to_datetime(data['Date'])

# 분할한 특정 날짜 설정 
split_date = pd.to_datetime('2022-01-01')

# 데이터를 훈련 및 테스트 집합으로 분할
train = data[data['Date'] < split_date]
test = data[data['Date'] >= split_date]
 
 

 

위 코드에서는 먼저 pandas 라이브러리를 사용하여 csv 파일에서 데이터를 읽습니다. 그런 다음 pd.to_datetime() 메서드를 사용하여 'Date' 열 datetime object로 변환합니다. 같은 방법으로 분할할 특정 날짜를 설정합니다. 마지막으로 부울 인덱싱을 사용하여 데이터를 훈련 세트와 테스트 세트로 분할합니다.

 

728x90
반응형
LIST