텍스트 데이터의 이해와 전처리

정의: 원시 텍스트(raw text)를 분석 가능한 형태로 변환 하는 과정.
목적: 데이터 품질 확보, 불필요한 정보 제거, 일관성 확보 &rarr; 모델 성능 향상.
중요성: AI/ML의 성능을 결정짓는 핵심 단계.

텍스트 데이터의 이해와 전처리

2025. 9. 18. 20:16ㆍ개발/텍스트마이닝과 언어모델

텍스트 정제 (Cleaning)
- 불필요한 문자, 기호, 오타, 노이즈 제거.
- 도구: 문자열 함수(strip, replace), 정규표현식(re).
- 예시: 공백 제거, 이메일/URL/특수문자 삭제.
토큰화 (Tokenization)
- 텍스트를 문장·단어·형태소 등 작은 단위로 분할.
- 영어: NLTK → sent_tokenize, word_tokenize.
- 한국어: KoNLPy, Kiwipiepy → morphs, pos, nouns.
텍스트 정규화 (Normalization)
- 표현 방식 통일: 대소문자, 약어·표기 변환.
- 어간 추출(Stemming): 규칙 기반 단순화, 문법적 오류 가능.
- 표제어 추출(Lemmatization): 사전에 등록된 기본형으로 변환, 품사 고려 필요.
품사 태깅 (POS Tagging)
- 단어의 문법적 역할 부여.
- 영어: nltk.pos_tag.
- 한국어: Okt, Kiwi 등으로 명사, 동사, 조사 등 구분.
- 특정 품사 필터링 가능 (예: 일반명사, 고유명사만 추출).
불용어 제거 (Stopword Removal)
- 의미 없는 단어(예: the, a, 이/가/을 등 조사) 제거.
- 처리 속도 향상 + 분석 정확도 증가.
- 영어: nltk.corpus.stopwords.
- 한국어: 조사·어미·접속사 등 복잡한 형태 고려 필요.

영어:
- 공백 기준 분리 용이.
- 불용어 집합이 비교적 고정.
- 어형 변화 단순 → 어간/표제어 추출로 처리 가능.
한국어:
- 교착어 → 조사, 어미 등으로 단순 공백 분리 불가.
- 불용어 복잡 (조사, 접속 부사 등).
- 어간+어미 체계가 복잡 → 형태소 분석기 필요.

👉 정리하면, 텍스트 전처리는 정제 → 토큰화 → 정규화 → 품사 태깅 → 불용어 제거 단계로 진행되며, 언어적 특성(영어/한국어)에 따라 도구와 접근 방식이 달라진다는 점이 핵심입니다.

트렌드 인사이트 (Trend Insight)