텍스트 마이닝
2025. 10. 4. 15:10ㆍ개발/텍스트마이닝과 언어모델
반응형
수업 목표
- 텍스트마이닝 기초: 탐색적 데이터 분석(EDA) → 워드클라우드 → 의미 연결망까지 실습 중심으로 익히기.
1) 텍스트 EDA
- 대상: NSMC 영화리뷰(ratings_text.txt) 탭 구분(id, document, label).
- 확인 항목
- 기본 통계: 글자 수·토큰 수의 최댓값/최솟값/평균/표준편차.
- 분포 파악: 히스토그램, 사분위수(Q1·Q3·IQR), 박스플롯.
- 토큰 분석: 전체/고유 토큰 수, 상위 빈도 단어, n-gram(2-gram 이상) 패턴으로 연어·도메인 용어 식별.
- 전처리 관점
- 빈 문서/과도하게 짧은 문서 제거, 매우 긴 문서 절단 검토.
- 불용어 정의, 품사 선택(명사/동사·형용사 등), 커스텀 용어(합성어) 처리.
2) 워드 클라우드
- 한글 폰트 세팅 후 wordcloud 시각화.
- 품사 필터링 예시
- 주제·대상 파악: 일반명사(NNG), 고유명사(NNP)만 남겨 시각화.
- 행위·상태 파악: 동사(VV), 형용사(VA)만 추출해 ‘…다’로 정규화 후 시각화.
- 긍정/부정 리뷰를 분리하여 각각 생성(컬러맵은 자유).
3) 의미 연결망(Semantic Network)
- 아이디어: 동시 출현(co-occurrence) 단어를 에지로 연결한 그래프.
- 데이터 준비
- 뉴스(예: 빅카인즈) 제목을 다문서로 수집 → Kiwi로 명사(필요시 외국어 SL) 추출 → 1글자 제거·불용어 처리.
- 에지 생성
- 문서별 고유 단어 집합에서 조합(combinations)으로 모든 쌍 생성.
- 빈도 카운트 후 2회 이상 등장한 에지만 남겨 노이즈 축소.
- 네트워크 분석
- networkx로 그래프 구성(에지 weight 누적).
- 연결 정도 중심성(Degree): 허브성 판단.
- 매개 중심성(Betweenness): 가교(브릿지) 역할 판단.
- 시각화 팁
- 노드/에지 너무 많으면 해석 어려움 → 상위 5% 노드 서브그래프.
- 노드 크기=degree, 에지 두께=weight.
- 관심 키워드 ego-graph(자기중심 그래프)로 국소 구조 보기.
바로 쓰는 체크리스트
- 데이터 수집(다문서) → 인코딩/중복/빈문서 점검
- EDA(기본통계·분포·상위 토큰·n-gram) → 전처리 룰 확정
- Kiwi 품사 필터로 명사 버전 워드클라우드 생성
- Kiwi 품사 필터로 동사/형용사 버전 워드클라우드 생성
- 명사 리스트 → 조합 → 에지 빈도 집계 → 2회 이상 필터
- networkx로 그래프 구축, degree/betweenness 상위 확인
- Top 5% 서브그래프 & ego-graph(관심 키워드) 시각화
- 결과 해석 + 전처리 결정 근거를 보고서에 명시
반응형
'개발 > 텍스트마이닝과 언어모델' 카테고리의 다른 글
임베딩과 벡터화 기법 (0) | 2025.09.25 |
---|---|
텍스트 데이터의 이해와 전처리 (1) | 2025.09.18 |
파이썬 핵심 문법 정리 (0) | 2025.09.18 |