Python에서 정규식을 사용한 텍스트 전처리
텍스트 전처리는 자연어 처리 및 기계 학습에서 중추적인 단계입니다. 여기에는 텍스트 데이터를 알고리즘으로 분석할 수 있는 형식으로 정리, 표준화 및 변환하는 작업이 포함됩니다. 정규 표현식은 파이썬에서 텍스트 전처리를 수행하기 위한 중요한 도구입니다. 이 게시물에서는 예제와 함께 텍스트 전처리에 정규식을 사용하는 방법을 살펴보겠습니다.
1단계: 필요한 라이브러리 가져오기
시작하기 전에 필요한 라이브러리를 가져와야 합니다. 정규 표현식에는 re 라이브러리를 사용하고 일부 기본 문자열 연산에는 string 라이브러리를 사용할 것입니다. 그렇다면 코드는...
import re
import string
2단계: 텍스트 데이터 로드
다음으로 전처리할 텍스트 데이터를 로드해야 합니다. 이 예에서는 다음 텍스트를 사용합니다.
text = "This is an example of text data that needs to be preprocessed! It contains punctuation, numbers (like 123), and stop words like 'the' and 'and'. Let's see how we can clean it up."
3단계: 텍스트를 소문자로 변환
텍스트 전처리의 첫 번째 단계는 모든 텍스트를 소문자로 변환하는 것입니다. 이것은 데이터를 정규화하고 고유한 토큰의 수를 줄이는 데 도움이 됩니다. 그렇다면 코드는...
text = text.lower()
4단계: 구두점 제거
구두점은 시끄럽고 수많은 자연어 처리 작업에 적용할 수 없습니다. 정규식을 사용하여 텍스트에서 구두점을 제거할 수 있습니다. 그렇다면 코드는...
text = re.sub('[+string.punctuation+']', '', text)
5단계: 번호 제거
숫자는 또한 수많은 자연 언어 처리 작업에 적용할 수 없습니다. 정규식을 사용하여 텍스트에서 숫자를 제거할 수 있습니다. 그렇다면 코드는...
text = re.sub('\d+', '', text)
6단계: 불용어 제거
불용어는 "the" 및 "and"와 같이 중요한 의미를 지니지 않는 일반적인 단어입니다. 정규식을 사용하여 텍스트에서 불용어를 제거할 수 있습니다. 그렇다면 코드는...
stop_words = ['the', 'and']
text = ' '.join([word for word in text.split() if word not in stop_words])
7단계: 형태소 분석 또는 원형 추출 수행
형태소 분석 및 표제어 추출은 단어를 어근 형태로 줄이는 방법입니다. 이렇게 하면 고유한 토큰의 수를 줄이고 모델 성능을 개선하는 데 도움이 될 수 있습니다. 정규식을 사용하여 형태소 분석 또는 원형 복원을 수행할 수 있지만 이 예에서는 이 단계를 건너뜁니다.
8단계: 전처리된 텍스트 출력
결국 전처리된 텍스트를 출력하여 그 결과를 볼 수 있습니다. 그렇다면 코드는...
print(text)
출력은...
this is an example of text data that needs to be prerocessed it contains stop words like lets see how we can clean it up
요약하면, 정규식은 파이썬에서 텍스트 저처리를 위한 중요한 도구입니다. 텍스트를 소문자로 변환하고, 구두점을 제거하고, 숫자를 제거하고, 불용어를 제거하고, 형태소 분석 또는 표제어 지정을 수행하는 방식을 따르면 원본 텍스트 데이터를 알고리즘으로 분석할 수 있는 형식으로 변환할 수 있습니다.