텍스트 데이터의 이해와 전처리
1. 텍스트 전처리 개념정의: 원시 텍스트(raw text)를 분석 가능한 형태로 변환하는 과정.목적: 데이터 품질 확보, 불필요한 정보 제거, 일관성 확보 → 모델 성능 향상.중요성: AI/ML의 성능을 결정짓는 핵심 단계.2. 주요 과정텍스트 정제 (Cleaning)불필요한 문자, 기호, 오타, 노이즈 제거.도구: 문자열 함수(strip, replace), 정규표현식(re).예시: 공백 제거, 이메일/URL/특수문자 삭제.토큰화 (Tokenization)텍스트를 문장·단어·형태소 등 작은 단위로 분할.영어: NLTK → sent_tokenize, word_tokenize.한국어: KoNLPy, Kiwipiepy → morphs, pos, nouns.텍스트 정규화 (Normalization)표현 방식 ..
2025.09.18