개발/텍스트마이닝과 언어모델(4)
-
텍스트 마이닝
수업 목표텍스트마이닝 기초: 탐색적 데이터 분석(EDA) → 워드클라우드 → 의미 연결망까지 실습 중심으로 익히기.1) 텍스트 EDA대상: NSMC 영화리뷰(ratings_text.txt) 탭 구분(id, document, label).확인 항목기본 통계: 글자 수·토큰 수의 최댓값/최솟값/평균/표준편차.분포 파악: 히스토그램, 사분위수(Q1·Q3·IQR), 박스플롯.토큰 분석: 전체/고유 토큰 수, 상위 빈도 단어, n-gram(2-gram 이상) 패턴으로 연어·도메인 용어 식별.전처리 관점빈 문서/과도하게 짧은 문서 제거, 매우 긴 문서 절단 검토.불용어 정의, 품사 선택(명사/동사·형용사 등), 커스텀 용어(합성어) 처리.2) 워드 클라우드한글 폰트 세팅 후 wordcloud 시각화.품사 필터링 예..
2025.10.04 -
임베딩과 벡터화 기법
1. 텍스트 데이터의 숫자 표현컴퓨터의 기본 원리: 모든 문자는 숫자로 표현됨 (ASCII, Unicode).한계: 단일 문자 단위는 의미를 충분히 담지 못하므로, 단어·문장을 벡터화 필요.2. 단순 벡터화 방법(1) 정수 인코딩단어별 고유 ID 부여 → 문장을 정수 배열로 표현.문제점: 숫자의 크기·차이가 의미와 무관, 문장마다 길이 다름.(2) 원-핫 인코딩어휘 크기만큼 벡터 생성, 해당 단어 위치만 1, 나머지 0.장점: 단순, 벡터 길이 고정.단점: 희소행렬(대부분 0), 차원 폭발.3. BoW (Bag-of-Words)단어 등장 횟수 기반 문서 표현.CountVectorizer: 단어 사전 구축 후 각 문서의 단어 빈도 계산.한계:단어 중요도 구분 불가.불용어가 과도하게 반영.문서 길이 의존성...
2025.09.25 -
텍스트 데이터의 이해와 전처리
1. 텍스트 전처리 개념정의: 원시 텍스트(raw text)를 분석 가능한 형태로 변환하는 과정.목적: 데이터 품질 확보, 불필요한 정보 제거, 일관성 확보 → 모델 성능 향상.중요성: AI/ML의 성능을 결정짓는 핵심 단계.2. 주요 과정텍스트 정제 (Cleaning)불필요한 문자, 기호, 오타, 노이즈 제거.도구: 문자열 함수(strip, replace), 정규표현식(re).예시: 공백 제거, 이메일/URL/특수문자 삭제.토큰화 (Tokenization)텍스트를 문장·단어·형태소 등 작은 단위로 분할.영어: NLTK → sent_tokenize, word_tokenize.한국어: KoNLPy, Kiwipiepy → morphs, pos, nouns.텍스트 정규화 (Normalization)표현 방식 ..
2025.09.18 -
파이썬 핵심 문법 정리
1. 파이썬의 특징인터프리터 언어: 컴파일 없이 실행.동적 타이핑: 변수 자료형 자동 결정.들여쓰기 기반 문법: 블록 구분.main 함수 강제 없음: if __name__ == "__main__": 관례 사용.세미콜론 불필요, 다중 할당, 값 교환 가능.Colab/Jupyter에서 셀 단위 실행 및 런타임 리셋으로 메모리 초기화.2. 변수와 자료형모든 값은 객체(Object), 변수는 참조 역할.기본 자료형: int, float, str, bool.컨테이너 자료형:list: 가변, 인덱스로 접근, append, del, sort, slicing.tuple: 불변, 읽기 전용, 메모리 효율적.dict: {key: value} 구조, 키로 접근.set: 중복 없는 집합, 순서 없음, 중복 제거에 효과적.사용..
2025.09.18