텍스트 데이터의 이해와 전처리

2025. 9. 18. 20:16개발/텍스트마이닝과 언어모델

반응형

 

1. 텍스트 전처리 개념

  • 정의: 원시 텍스트(raw text)를 분석 가능한 형태로 변환하는 과정.
  • 목적: 데이터 품질 확보, 불필요한 정보 제거, 일관성 확보 → 모델 성능 향상.
  • 중요성: AI/ML의 성능을 결정짓는 핵심 단계.

2. 주요 과정

  1. 텍스트 정제 (Cleaning)
    • 불필요한 문자, 기호, 오타, 노이즈 제거.
    • 도구: 문자열 함수(strip, replace), 정규표현식(re).
    • 예시: 공백 제거, 이메일/URL/특수문자 삭제.
  2. 토큰화 (Tokenization)
    • 텍스트를 문장·단어·형태소 등 작은 단위로 분할.
    • 영어: NLTK → sent_tokenize, word_tokenize.
    • 한국어: KoNLPy, Kiwipiepy → morphs, pos, nouns.
  3. 텍스트 정규화 (Normalization)
    • 표현 방식 통일: 대소문자, 약어·표기 변환.
    • 어간 추출(Stemming): 규칙 기반 단순화, 문법적 오류 가능.
    • 표제어 추출(Lemmatization): 사전에 등록된 기본형으로 변환, 품사 고려 필요.
  4. 품사 태깅 (POS Tagging)
    • 단어의 문법적 역할 부여.
    • 영어: nltk.pos_tag.
    • 한국어: Okt, Kiwi 등으로 명사, 동사, 조사 등 구분.
    • 특정 품사 필터링 가능 (예: 일반명사, 고유명사만 추출).
  5. 불용어 제거 (Stopword Removal)
    • 의미 없는 단어(예: the, a, 이/가/을 등 조사) 제거.
    • 처리 속도 향상 + 분석 정확도 증가.
    • 영어: nltk.corpus.stopwords.
    • 한국어: 조사·어미·접속사 등 복잡한 형태 고려 필요.

3. 영어 vs 한국어 전처리 차이

  • 영어:
    • 공백 기준 분리 용이.
    • 불용어 집합이 비교적 고정.
    • 어형 변화 단순 → 어간/표제어 추출로 처리 가능.
  • 한국어:
    • 교착어 → 조사, 어미 등으로 단순 공백 분리 불가.
    • 불용어 복잡 (조사, 접속 부사 등).
    • 어간+어미 체계가 복잡 → 형태소 분석기 필요.

👉 정리하면, 텍스트 전처리는 정제 → 토큰화 → 정규화 → 품사 태깅 → 불용어 제거 단계로 진행되며, 언어적 특성(영어/한국어)에 따라 도구와 접근 방식이 달라진다는 점이 핵심입니다.

반응형

'개발 > 텍스트마이닝과 언어모델' 카테고리의 다른 글

파이썬 핵심 문법 정리  (0) 2025.09.18