조합 소식

공지사항

온라인 도구 활용법기초과정 1주차 - 워드 클라우드

페이지 정보

profile_image
작성자 Samuel
댓글 1건 조회 600회 작성일 24-07-09 16:37

본문

부트캠프 워드클라우드 때 받은 데이터로 조금 더 분석해보는 개인 프로젝트.​실력은 왕초보이지만,텍스트로 된 리뷰데이터를 분석해보고 싶은 마음이 컸다.그래서 구글링해가며 도전해본 '텍스트 마이닝'SQL로 기본적인 댓글 전처리 후, 파이썬으로 작업했다.​​SQL로 리뷰 텍스트 합치기내가 아는 지식만으로 텍스트 마이닝을 하려면 행마다 분리되어 있는 리뷰데이터를 하나로 합치는 작업이 필요했다.그래서 가장 익숙한 툴인 워드클라우드 SQL로 GROUP_CONCAT 함수를 활용해 하나의 셀 안에 나오도록 합쳐줬다.처음 했을 때 텍스트 전체가 나오지 않고 중간에서 짤리길래 구글링해보니 한도 글자수를 늘려주면 되었다.데이터 뽑고 나서는 해당 셀 복사해서 메모장에 붙여넣어 txt로 저장해주었다.​​2. 파이썬으로 워드클라우드 생성​A. txt 파일 불러오기파이썬에서 가장 먼저 할 일은 당연하게도 파일불러오기.텍스트 파일 워드클라우드 경로 설정하고 불러오기 해주면 된다.​B. konlpy 설치구글에 '파이썬 한글 텍스트 분석'이라고 검색하면 konlpy 함수를 사용해야한다고 나온다.이게 한글의 형태소를 자동으로 분석해주는 함수인데, 처음에 이거 한다고 3시간이나 애를 먹었다 ^^;​같은 함수를 사용하는건 맞지만,파일 종류도 다르고, 원하는 결과물도 제각각이라내 지식 수준으로도 이해할 수 있으면서, 비슷한 결과물을 낼 워드클라우드 수 있는 블로그를 엄청 찾아다녔다.그 결과 아주 최적의, 쉽고 핵심만 잘 정리되어있는 블로그를 찾았다.01 크롤링 데이터 전처리 이전에 웹 스크래핑(1)에서 만들었던 엑셀파일을 대상으로 분석을 하겠습니다. import numpy as np import pandas as pd df =pd.read_excel('result_220202_1834.xlsx') df.head(3) Article속성에 해당하는 기사의 본문 내용을 리스트로 만들어 줍니다. 워드클라우드 그리고 join함수로 리스트를 하나의 문자열로 만들고 1000번째 자리의 문자까지만 남깁니다. articles 㷟['Article'].tolist() print(len(articles...바로 이곳!올려주신 코드에서 파일명이랑 경로 같은 것만 조금씩 수정해서 진행했다.(감사합니다 꾸벅)>&gt먼저 konlpy랑 자바 설치해주고 (여기서 컴에 자바 설치 안되어 있으면 오류 난다. 꼭 자바 설치하고 할 것!)​>&gt위에서 읽긴 했지만 다시 한번 더 워드클라우드 읽고 'df'로 경로 재설정 해주고, Okt 모듈 import 해줬다.​>&gt다음은 pos함수로 형태소를 나눠준다.결과값은 ('세트', 'Noun'), ('예쁘다', 'Adjective'), (',', 'Punctuation') 요런 튜플로 나온다. 신기해 완전..​>&gt블로그에 올라와있던 코드 del_list에 내가 조금 더 추가해서 불용어를 삭제해줬다.사실 요 부분은 이상하게 끊겨 표현된 동사 여러개, 네이버페이 구매 리뷰에만 있는 phrase들을 워드클라우드 일일히 지워줬다. (초보자 한계ㅠ)​>&gt다음은 단어들을 딕셔너리로 만들기. 블로그에 나와있는 코드 그대로 썼었는데 자꾸 오류가 나서 ChatGPT한테 물어봐서 해결했다. 아마 코드 숫자를 메기는 과정에서 오류가 난 듯 싶다. 지피티 없음 코딩 못해 ㅠ{'생각': 162, '괜찮다': 82, '디자인': 735, '이쁘다': 562, '깔끔하다': 95 ... } 이런식의 워드클라우드 결과를 얻을 수 있다.​>&gt마지막은 워드클라우드 만들기.한글 텍스트는 폰트경로 설정 안하면 깨지기 때문에, 꼭 경로 설정해주고원하는 폰트 갯수, 사이즈, 컬러칩으로 만들어주면 된다.​​워드클라우드 결과결과물로 기존에 했던 분석에 대한 명확한 근거를 댈 수 있게 되어 의미있는 시간이었다.전체적인 데이터 분석 프로젝트에 대한 회고는 다음 포스팅에 올려야겠다. ㅎㅎ

댓글목록

profile_image

Tyler님의 댓글

Tyler 작성일

미니6집블리스는 청춘이기에 아름답고 빛나는위클리의 더없이 행복한 순간을 담은 앨범이다.위클리는 이번 신보를 통해 푸릇한 영 에너지로 뜨거운 여름을 풀어내며 여느 때보다 자신감 넘치는 청량
9일 오후 6시위클리(이수진, 먼데이, 박소은, 이재희, 지한, 조아) 미니
https://sfabae29385.tistory.com 인스타팔로워구매
http://nick897.co.kr 천안마사지
https://dkjofhj1357.tistory.com 신차장기렌트카
https://glreoj1384.tumblr.com 신차장기렌트카
https://iwhfdu1548.tistory.com 인스타좋아요늘리기
http://steven457.co.kr 부산휴대폰성지
https://dlfjeihs1256.tistory.com 몸캠피싱
https://sites.google.com/view/sua001 네이버플레이스상위노출
https://dhoejf12985.tistory.com 해외축구중계
http://tulip0124.co.kr 아이폰15사전예약
https://ouflhg9734.tumblr.com MLB중계
6집Bliss(블리스)가 발매된다.위클리의 컴백은 지난해 11월 발매한 미니 5집 ColoRise 이후 약 8개월 만이고, 지난 1월 발매한 디지털 싱글
위클리는 9일 오후 6시 미니6집블리스(Bliss)를 발매한다. 블리스는 청춘이기에 아름답고 빛나는위클리의 더