텍스트 마이닝
수업 목표텍스트마이닝 기초: 탐색적 데이터 분석(EDA) → 워드클라우드 → 의미 연결망까지 실습 중심으로 익히기.1) 텍스트 EDA대상: NSMC 영화리뷰(ratings_text.txt) 탭 구분(id, document, label).확인 항목기본 통계: 글자 수·토큰 수의 최댓값/최솟값/평균/표준편차.분포 파악: 히스토그램, 사분위수(Q1·Q3·IQR), 박스플롯.토큰 분석: 전체/고유 토큰 수, 상위 빈도 단어, n-gram(2-gram 이상) 패턴으로 연어·도메인 용어 식별.전처리 관점빈 문서/과도하게 짧은 문서 제거, 매우 긴 문서 절단 검토.불용어 정의, 품사 선택(명사/동사·형용사 등), 커스텀 용어(합성어) 처리.2) 워드 클라우드한글 폰트 세팅 후 wordcloud 시각화.품사 필터링 예..
2025.10.04