텍스트 마이닝

텍스트 마이닝

2025. 10. 4. 15:10ㆍ개발/텍스트마이닝과 언어모델

수업 목표

대상: NSMC 영화리뷰(ratings_text.txt) 탭 구분(id, document, label).
확인 항목
- 기본 통계: 글자 수·토큰 수의 최댓값/최솟값/평균/표준편차.
- 분포 파악: 히스토그램, 사분위수(Q1·Q3·IQR), 박스플롯.
- 토큰 분석: 전체/고유 토큰 수, 상위 빈도 단어, n-gram(2-gram 이상) 패턴으로 연어·도메인 용어 식별.
전처리 관점
- 빈 문서/과도하게 짧은 문서 제거, 매우 긴 문서 절단 검토.
- 불용어 정의, 품사 선택(명사/동사·형용사 등), 커스텀 용어(합성어) 처리.

한글 폰트 세팅 후 wordcloud 시각화.
품사 필터링 예시
- 주제·대상 파악: 일반명사(NNG), 고유명사(NNP)만 남겨 시각화.
- 행위·상태 파악: 동사(VV), 형용사(VA)만 추출해 ‘…다’로 정규화 후 시각화.
긍정/부정 리뷰를 분리하여 각각 생성(컬러맵은 자유).

아이디어: 동시 출현(co-occurrence) 단어를 에지로 연결한 그래프.
데이터 준비
- 뉴스(예: 빅카인즈) 제목을 다문서로 수집 → Kiwi로 명사(필요시 외국어 SL) 추출 → 1글자 제거·불용어 처리.
에지 생성
- 문서별 고유 단어 집합에서 조합(combinations)으로 모든 쌍 생성.
- 빈도 카운트 후 2회 이상 등장한 에지만 남겨 노이즈 축소.
네트워크 분석
- networkx로 그래프 구성(에지 weight 누적).
- 연결 정도 중심성(Degree): 허브성 판단.
- 매개 중심성(Betweenness): 가교(브릿지) 역할 판단.
시각화 팁
- 노드/에지 너무 많으면 해석 어려움 → 상위 5% 노드 서브그래프.
- 노드 크기=degree, 에지 두께=weight.
- 관심 키워드 ego-graph(자기중심 그래프)로 국소 구조 보기.