텍스트 마이닝

2025. 10. 4. 15:10개발/텍스트마이닝과 언어모델

반응형

수업 목표

  • 텍스트마이닝 기초: 탐색적 데이터 분석(EDA) → 워드클라우드 → 의미 연결망까지 실습 중심으로 익히기.

1) 텍스트 EDA

  • 대상: NSMC 영화리뷰(ratings_text.txt) 탭 구분(id, document, label).
  • 확인 항목
    • 기본 통계: 글자 수·토큰 수의 최댓값/최솟값/평균/표준편차.
    • 분포 파악: 히스토그램, 사분위수(Q1·Q3·IQR), 박스플롯.
    • 토큰 분석: 전체/고유 토큰 수, 상위 빈도 단어, n-gram(2-gram 이상) 패턴으로 연어·도메인 용어 식별.
  • 전처리 관점
    • 빈 문서/과도하게 짧은 문서 제거, 매우 긴 문서 절단 검토.
    • 불용어 정의, 품사 선택(명사/동사·형용사 등), 커스텀 용어(합성어) 처리.

2) 워드 클라우드

  • 한글 폰트 세팅 후 wordcloud 시각화.
  • 품사 필터링 예시
    • 주제·대상 파악: 일반명사(NNG), 고유명사(NNP)만 남겨 시각화.
    • 행위·상태 파악: 동사(VV), 형용사(VA)만 추출해 ‘…다’로 정규화 후 시각화.
  • 긍정/부정 리뷰를 분리하여 각각 생성(컬러맵은 자유).

3) 의미 연결망(Semantic Network)

  • 아이디어: 동시 출현(co-occurrence) 단어를 에지로 연결한 그래프.
  • 데이터 준비
    • 뉴스(예: 빅카인즈) 제목을 다문서로 수집 → Kiwi로 명사(필요시 외국어 SL) 추출 → 1글자 제거·불용어 처리.
  • 에지 생성
    • 문서별 고유 단어 집합에서 조합(combinations)으로 모든 쌍 생성.
    • 빈도 카운트 후 2회 이상 등장한 에지만 남겨 노이즈 축소.
  • 네트워크 분석
    • networkx로 그래프 구성(에지 weight 누적).
    • 연결 정도 중심성(Degree): 허브성 판단.
    • 매개 중심성(Betweenness): 가교(브릿지) 역할 판단.
  • 시각화 팁
    • 노드/에지 너무 많으면 해석 어려움 → 상위 5% 노드 서브그래프.
    • 노드 크기=degree, 에지 두께=weight.
    • 관심 키워드 ego-graph(자기중심 그래프)로 국소 구조 보기.

바로 쓰는 체크리스트

  1. 데이터 수집(다문서) → 인코딩/중복/빈문서 점검
  2. EDA(기본통계·분포·상위 토큰·n-gram) → 전처리 룰 확정
  3. Kiwi 품사 필터로 명사 버전 워드클라우드 생성
  4. Kiwi 품사 필터로 동사/형용사 버전 워드클라우드 생성
  5. 명사 리스트 → 조합 → 에지 빈도 집계 → 2회 이상 필터
  6. networkx로 그래프 구축, degree/betweenness 상위 확인
  7. Top 5% 서브그래프 & ego-graph(관심 키워드) 시각화
  8. 결과 해석 + 전처리 결정 근거를 보고서에 명시
반응형