텍스트 데이터의 이해와 전처리
2025. 9. 18. 20:16ㆍ개발/텍스트마이닝과 언어모델
반응형
1. 텍스트 전처리 개념
- 정의: 원시 텍스트(raw text)를 분석 가능한 형태로 변환하는 과정.
- 목적: 데이터 품질 확보, 불필요한 정보 제거, 일관성 확보 → 모델 성능 향상.
- 중요성: AI/ML의 성능을 결정짓는 핵심 단계.
2. 주요 과정
- 텍스트 정제 (Cleaning)
- 불필요한 문자, 기호, 오타, 노이즈 제거.
- 도구: 문자열 함수(strip, replace), 정규표현식(re).
- 예시: 공백 제거, 이메일/URL/특수문자 삭제.
- 토큰화 (Tokenization)
- 텍스트를 문장·단어·형태소 등 작은 단위로 분할.
- 영어: NLTK → sent_tokenize, word_tokenize.
- 한국어: KoNLPy, Kiwipiepy → morphs, pos, nouns.
- 텍스트 정규화 (Normalization)
- 표현 방식 통일: 대소문자, 약어·표기 변환.
- 어간 추출(Stemming): 규칙 기반 단순화, 문법적 오류 가능.
- 표제어 추출(Lemmatization): 사전에 등록된 기본형으로 변환, 품사 고려 필요.
- 품사 태깅 (POS Tagging)
- 단어의 문법적 역할 부여.
- 영어: nltk.pos_tag.
- 한국어: Okt, Kiwi 등으로 명사, 동사, 조사 등 구분.
- 특정 품사 필터링 가능 (예: 일반명사, 고유명사만 추출).
- 불용어 제거 (Stopword Removal)
- 의미 없는 단어(예: the, a, 이/가/을 등 조사) 제거.
- 처리 속도 향상 + 분석 정확도 증가.
- 영어: nltk.corpus.stopwords.
- 한국어: 조사·어미·접속사 등 복잡한 형태 고려 필요.
3. 영어 vs 한국어 전처리 차이
- 영어:
- 공백 기준 분리 용이.
- 불용어 집합이 비교적 고정.
- 어형 변화 단순 → 어간/표제어 추출로 처리 가능.
- 한국어:
- 교착어 → 조사, 어미 등으로 단순 공백 분리 불가.
- 불용어 복잡 (조사, 접속 부사 등).
- 어간+어미 체계가 복잡 → 형태소 분석기 필요.
👉 정리하면, 텍스트 전처리는 정제 → 토큰화 → 정규화 → 품사 태깅 → 불용어 제거 단계로 진행되며, 언어적 특성(영어/한국어)에 따라 도구와 접근 방식이 달라진다는 점이 핵심입니다.
반응형
'개발 > 텍스트마이닝과 언어모델' 카테고리의 다른 글
파이썬 핵심 문법 정리 (0) | 2025.09.18 |
---|