임베딩과 벡터화 기법
1. 텍스트 데이터의 숫자 표현컴퓨터의 기본 원리: 모든 문자는 숫자로 표현됨 (ASCII, Unicode).한계: 단일 문자 단위는 의미를 충분히 담지 못하므로, 단어·문장을 벡터화 필요.2. 단순 벡터화 방법(1) 정수 인코딩단어별 고유 ID 부여 → 문장을 정수 배열로 표현.문제점: 숫자의 크기·차이가 의미와 무관, 문장마다 길이 다름.(2) 원-핫 인코딩어휘 크기만큼 벡터 생성, 해당 단어 위치만 1, 나머지 0.장점: 단순, 벡터 길이 고정.단점: 희소행렬(대부분 0), 차원 폭발.3. BoW (Bag-of-Words)단어 등장 횟수 기반 문서 표현.CountVectorizer: 단어 사전 구축 후 각 문서의 단어 빈도 계산.한계:단어 중요도 구분 불가.불용어가 과도하게 반영.문서 길이 의존성...
2025.09.25