TF-IDF가 뭐길래… 단어 하나로 문서를 읽는다고?

TF-IDF가 뭐길래… 단어 하나로 문서를 읽는다고?

AI 요약

TF-IDF는 한 문서에서 자주 등장하면서도 다른 문서에는 잘 나오지 않는 단어일수록 중요하다고 판단하는 방법입니다. TF와 IDF를 곱해 단어의 ‘희귀성과 빈도’를 동시에 고려하여 핵심 키워드를 계산합니다. 이 방식은 검색엔진, 문서 분류, 챗봇 등에서 중요한 단어를 추출하는 기본 기술로 활용됩니다.

“사과”가 진짜 중요한 단어일까요?

어떤 문서를 읽을 때 우리는 제목이나 첫 문장을 보고 그 글의 핵심을 빠르게 파악합니다. 컴퓨터도 비슷하게 단어들을 보고 ‘이 문서가 어떤 내용인지’ 판단하려고 해요. 그런데 모든 단어가 다 중요한 건 아닙니다.
예를 들어 “나는 바나나를 먹고 싶다”라는 문장에서 ‘나는’, ‘를’ 같은 단어보다 ‘바나나’가 더 중요한 느낌이 들죠?

바로 이런 걸 컴퓨터도 이해할 수 있도록 도와주는 기술이 있습니다. 그게 바로 TF-IDF예요.

🍌 쉽게 말해서, TF-IDF는 ‘단어 중요도 계산기’

TF-IDF는 Term Frequency - Inverse Document Frequency의 줄임말이에요. 말이 어렵지, 아주 쉽게 말하면 이렇습니다:

“많이 나오지만, 여기서만 많이 나온 단어가 제일 중요하다!”

한 단어가 한 문서에서 여러 번 나왔다면 → 그 문서에서 중요하다고 판단

그런데 그 단어가 여러 문서에서 다 나왔다면? → 그냥 흔한 단어일 뿐, 중요하지 않다고 판단

🍎 예시로 배우는 TF, DF, IDF

▶ TF (Term Frequency)

한 문서 안에서 어떤 단어가 몇 번 등장했는지 보는 거예요.

문서 내용
문서1 저는 사과를 먹고 싶어요
문서2 저는 바나나를 먹고 싶어요

여기서 '먹고'는 두 문서 모두 1번씩 등장했죠?
‘바나나’는 문서2에만 나왔어요. 그렇다면 바나나는 문서2에서 좀 더 중요한 단어가 될 수 있겠네요.

▶ DF (Document Frequency)

그 단어가 몇 개의 문서에 등장했는지 보는 거예요.
'먹고'는 문서1, 문서2 모두에 나왔으니 DF = 2
'바나나'는 문서2에만 나왔으니 DF = 1

▶ IDF (Inverse Document Frequency)

IDF는 DF와 반대되는 개념!
많은 문서에 나오는 단어는 흔하니까 중요도 낮음,
적은 문서에서만 나오는 단어는 희귀하니까 중요도 높음!

IDF 공식은 아래처럼 생겼지만, 너무 걱정하지 마세요. 우리는 이걸 해석만 하면 돼요.

IDF(t) = log(전체 문서 수 / (해당 단어가 나온 문서 수 + 1))
예를 들어 전체 문서가 4개고, ‘사과’가 1개 문서에만 등장했다면:

IDF = log(4 / (1 + 1)) = log(2) ≈ 0.693

🍇 그럼 TF-IDF는 뭐냐고요?

이제 모든 준비는 끝났어요.
TF × IDF = TF-IDF

즉, 그 문서 안에서 얼마나 많이 나왔는지(TF) × 얼마나 희귀한 단어인지(IDF)

이 둘을 곱해서 진짜 ‘중요한 단어’를 찾아내는 거예요.

🥝 현실 예제: 바나나가 진짜 중요할까?

아래는 문서별 단어 등장 수(TF)를 보여주는 표예요. (DTM이라고 부르기도 해요)

  • 문서1
    바나나: 0
    먹고: 1

  • 문서2
    바나나: 1
    먹고: 1

  • 문서3
    바나나: 2
    먹고: 1

이제 IDF 값을 곱해서 TF-IDF를 계산해볼게요.

문서2에서 '바나나'는 1번 등장했으니 TF = 1
문서3에서는 2번 등장했으니 TF = 2

IDF는 똑같이 0.287682라고 할게요.

그럼:

문서2: 1 × 0.287682 = 0.287682
문서3: 2 × 0.287682 = 0.575364

같은 단어라도 더 많이 등장한 문서3에서는 더 ‘중요하게’ 판단되는 거예요!

🤖 TF-IDF, 어디에 쓰이나요?

검색엔진: 당신이 “사과 먹고 싶다”라고 검색하면, TF-IDF 점수가 높은 문서를 먼저 보여줘요.

  • 문서 분류: 이 문서가 '스포츠 기사인지', '연예 뉴스인지' 구분할 때

  • 챗봇: 사용자 질문에서 중요한 키워드를 뽑을 때

그리고 요즘 AI가 텍스트를 이해할 때 쓰는 거의 모든 기본은 TF-IDF에서 시작한다고 해도 과언이 아닙니다.

🚀 마무리하며: TF-IDF는 단어에 점수를 주는 기술!

지금까지 너무 많은 정보를 본 것 같지만, 딱 하나만 기억해도 좋습니다.

TF-IDF는, ‘이 단어가 얼마나 특별한가’를 숫자로 알려주는 기술이에요.

다음에 문서를 분석하거나 AI 모델을 만들 때, TF-IDF를 활용하면 더 똑똑한 분석이 가능해집니다.
이제 TF-IDF를 통해 문서를 ‘읽을 줄 아는’ AI에 한 걸음 더 가까워졌네요!

💡 다음 콘텐츠 예고

“TF-IDF 다음엔 뭐지?” — 문서 유사도 계산 방법
“나만의 검색엔진 만들기: TF-IDF부터 시작해보자!”
“TF-IDF를 넘어서… 딥러닝 기반 BERT는 어떻게 단어를 이해할까?”

ChainShift Roy

Reference: https://wikidocs.net/31698

© 2025 ChainShift. All rights reserved. Unauthorized reproduction and redistribution prohibited.

이전 글

Mixture of Experts(MoE) 완전 정복

다음 글

구글 검색의 '게임 체인저' 등장… MUVERA 알고리즘이 SEO 지형을 바꾼다

우리 브랜드의 AI 검색 성과 진단해보기

현재 AI 검색에서의 우리 브랜드의 가시성, 인용 구조, 경쟁사 대비 점유율을 점검하고 실행 가능한 개선 방향을 제안드립니다.

최근 게시글

전체 글 보기

주식회사 체인시프트

Chainshift Co., Ltd.

사업자번호 : 845-86-03383

대표 : 한용희

대한민국 서울특별시 마포구 백범로31길 21 4층 (서울창업허브 본관)