728x90
반응형
SMALL

Python 46

TF-IDF: 단어의 중요성을 결정하기 위한 완벽한 가이드

텍스트 데이터로 작업할 때 말뭉치 내에서 개별 단어의 중요성을 결정하는 것이 종종 유용합니다. 이를 수행하는 데 널리 사용되는 방법 중 하나는 TF-IDF로, 이는 Term Frequency-Inverse Document Frequency를 나타냅니다. 이 글에서는 방법, 응용 프로그램 및 Python 코드 예제에 대한 설명을 포함하여 TF-IDF에 대한 포괄적인 가이드를 제공합니다. TF-IDF란 무엇일까요? TF-IDF는 텍스트 문서에서 단어의 중요도를 결정하는 데 사용되는 통계적 방법입니다. 이 방법은 용어 빈도(TF)와 역 문서 빈도(IDF)의 두 가지 주요 부분으로 구성됩니다. 용어 빈도(TF)는 문서의 총 단어 수와 관련하여 문서에 단어가 나타나는 빈도를 측정합니다. 값이 높을수록 해당 단어가..

IT 2023.04.14

감정 분류 Python으로 이해하고 적용하기

감정 분류는 자연어 처리에서 텍스트의 감정 톤을 결정하는 데 사용되는 인기 있는 방식입니다. 그것은 텍스트가 전달하는 감정에 기초하여 긍정적, 부정적 또는 중립적 범주로 텍스트를 분류하는 것을 포함됩니다. 감정 분류는 소셜 미디어 모니터링, 요청 탐색 및 클라이언트 피드백 분석과 유사한 분야에서 광범위한 작업을 수행합니다. 이 글에서는 감정 분류를 자세히 설명하고 scikit-learn이라는 인기 기계 학습 라이브러리를 사용하여 Python에서 이를 적용하는 방법을 시연합니다. 감정 분류 이해하기 감정 분류는 특정 단어가 긍정적이거나 부정적인 감정을 전달한다는 가정에 근거합니다. 예를 들어 "행복하다"는 긍정적인 단어이고 "슬파다"는 부정적인 단어입니다. 감정 분류 알고리즘은 다른 단어와 함께 이 단어를..

IT 2023.04.09

백준 파이썬 알고리즘 연습 - 1157 단어 공부

주어진 단어에서 가장 많이 사용된 알파벳을 출력하는 문제 문제 알파벳 대소문자로 된 단어가 주어지면, 이 단어에서 가장 많이 사용된 알파벳이 무엇인지 알아내는 프로그램을 작성하시오. 단, 대문자와 소문자를 구분하지 않는다. 입력 첫째 줄에 알파벳 대소문자로 이루어진 단어가 주어진다. 주어지는 단어의 길이는 1,000,000을 넘지 않는다. 출력 첫째 줄에 이 단어에서 가장 많이 사용된 알파벳을 대문자로 출력한다. 단, 가장 많이 사용되는 알파벳이 여러 개 존재하는 경우에는 ?를 출력한다. words = input().upper() unique_words = list(set(words)) cnt_list = [] for x in unique_words: cnt = words.count(x) cnt_list..

IT 2022.08.13

백준 파이썬 알고리즘 연습 - 2675 문자열 반복

각 문자를 반복하여 출력하는 문제 문제 문자열 S를 입력받은 후에, 각 문자를 R번 반복해 새 문자열 P를 만든 후 출력하는 프로그램을 작성하시오. 즉, 첫 번째 문자를 R번 반복하고, 두 번째 문자를 R번 반복하는 식으로 P를 만들면 된다. S에는 QR Code "alphanumeric" 문자만 들어있다. QR Code "alphanumeric" 문자는 0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ$%*+-./: 이다. 입력 첫째 줄에 테스트 케이스의 개수 T(1 ≤ T ≤ 1,000)가 주어진다. 각 테스트 케이스는 반복 횟수 R(1 ≤ R ≤ 8), 문자열 S가 공백으로 구분되어 주어진다. S의 길이는 적어도 1이며, 20글자를 넘지 않는다. 출력 각 테스트 케이스에 대해 P를 ..

IT 2022.08.12

백준 파이썬 알고리즘 - 10809 알파벳 찾기

한 단어에서 각 알파벳이 처음 등장하는 위치를 찾는 문제 문제 알파벳 소문자로 이루어진 단어가 주어진다. 각각의 알파벳에 대해서, 단어에 포함되어 있는 경우에는 처음 등장하는 위치를, 포함되어 있지 않은 경우에는 -1을 출력하는 프로그램을 작성하시오. 입력 첫째 줄에 단어가 주어진다. 단어의 길이는 100을 넘지 않으며, 알파벳 소문자로만 이루어져 있다. 출력 각각의 알파벳에 대해서, a가 처음 등장하는 위치 ~ z가 처음 등장하는 위치를 공백으로 구분해서 출력 만약, 어떤 알파벳이 단어에 포함되어 있지 않다면 -1 출력 단어의 첫 번째 글자는 0번째 위치이고, 두 번째 글자는 1번째 위치 word = input() alphabet = list(range(97,123)) for x in alphabet:..

IT 2022.08.11

백준 파이썬 알고리즘 연습 - 11720 숫자의 합

정수를 문자열로 입력받는 문제. 문제 N개의 숫자가 공백 없이 쓰여있다. 이 숫자를 모두 합해서 출력하는 프로그램을 작성하시오. 입력 첫째 줄에 숫자의 개수 N(1 ≤ N ≤ 100)이 주어진다. 둘째 줄에 숫자 N개가 공백 없이 주어진다. 출력 입력으로 주어진 숫자 N개의 합 # sum 함수 이용 n = input() print(sum(map(int, input()))) 처음 입력받는 수는 숫자 개수만 받은 후 활용되지 않는다. 두번째 입력받는 숫자가 map 함수로 int 타입으로 변환하였고 sum 함수로 모두 합한 값을 출력

IT 2022.08.10

백준 파이썬 알고리즘 연습 - 11654 아스키 코드

아스키 코드에 대해 알아보는 문제 문제 알파벳 소문자, 대문자, 숫자 0-9 중 하나가 주어졌을 때, 주어진 글자의 아스키 코드값을 출력하는 프로그램 작성 입력 알파벳 소문자, 대문자, 숫자 0-9 중 하나가 첫째 줄에 주어진다. 출력 입력으로 주어진 글자의 아스키 코드 값을 출력한다. a = input() print(ord(a)) ord() : 문자의 아스키 코드값을 리턴하는 함수

IT 2022.08.09

백준 파이썬 알고리즘 연습 - 1065 한수

x가 한수인지 판별하는 함수 정의하는 문제 문제 첫째 줄에 1,000보다 작거나 같은 자연수 N이 주어진다. 출력 첫째 줄에 1보다 크거나 같고, N보다 작거나 같은 한수의 개수 출력 def hansu(sum): hansu_cnt = 0 for i in range(1, num+1): num_list = list(map(int, str(i))) if i < 100: hansu_cnt += 1 # 100보다 작으면 모두 한수 elif num_list[0] - num_list[1] == num_list[1] - num_list[2]: hansu_cnt += 1 # x의 각 자리가 등차수열이면 한수 return hansu_cnt num = int(input()) print(hansu(num)) 한수: 각 자리수..

IT 2022.08.09

백준 파이썬 알고리즘 연습 - 15596 정수 N개의 합

함수를 정의하면 코드가 깔끔해지고 관리하기 쉬워진다. 문제 정수 n개가 주어졌을 때, n개의 합을 구하는 함수를 작성하시오. a: 합을 구해야 하는 정수 n개가 저장되어 있는 리스트 (0 ≤ a[i] ≤ 1,000,000, 1 ≤ n ≤ 3,000,000) 리턴값: a에 포함되어 있는 정수 n개의 합(정수) def solve(a): return sum(a) 함수를 생성할 때는 def 예약어을 이용 함수가 실행해야 하는 문장은 들여쓰기로 작성 반환하는 값은 return 이용하여 작성

IT 2022.08.07

백준 알고리즘 연습(파이썬) 4344번 평균은 넘겠지

문제 대학생 새내기들의 90%는 자신이 반에서 평균은 넘는다고 생각한다. 당신은 그들에게 슬픈 진실을 알려줘야 한다. 입력 첫째 줄에는 테스트 케이스의 개수 C가 주어진다. 둘째 줄부터 각 테스트 케이스마다 학생의 수 N(1 ≤ N ≤ 1000, N은 정수)이 첫 수로 주어지고, 이어서 N명의 점수가 주어진다. 점수는 0보다 크거나 같고, 100보다 작거나 같은 정수이다. 출력 각 케이스마다 한 줄씩 평균을 넘는 학생들의 비율을 반올림하여 소수점 셋째 자리까지 출력한다. 예제 입력 1 5 5 50 50 70 80 100 7 100 95 90 80 70 60 50 3 70 90 80 3 70 90 81 9 100 99 98 97 96 95 94 93 91 예제 출력 1 40.000% 57.143% 33.3..

IT 2022.08.04
728x90
반응형
LIST