(16.12.26 ~ )감정 분석 데이터 처리 진행상황 및 고민1

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

맛동산

(16.12.26 ~ )감정 분석 데이터 처리 진행상황 및 고민1 본문

머신러닝/다슬봇 패치노트

(16.12.26 ~ )감정 분석 데이터 처리 진행상황 및 고민1

오지고지리고알파고포켓몬고 2016. 12. 27. 17:12

다음은 하루 동안의 8인 채팅방 대화 내용을 KoNLPy의 트위터, 한나눔, 꼬꼬마, 코모란의 pos분류한 결과임

- 형용사,동사 추출 및 호감도를 나타낼 수 있는 용언 선택 (동사는 추출 자료가 많아 사진 생략, 호감도 용언은 주관적으로 선택)

- 추출 자료 중 측정률 (호감도 용언 / 검색된 전체 용언)이 높은 것을 선택

※ 전체 표본으로 성능을 조사하기엔 시간이 오래 걸리고 모든 사람의 말투(친구는 끼리끼리라고 나와 전혀 관련없는 집단의 실생활 대화)까지 반영하긴 자료가 부족하여 우선 트위터 분류기로 분석기 제작에 채택함

현재 분석기 진행상황은 아래와 같음

import codecs from konlpy.tag import Twitter # 형용사 : Ajective, 동사 : Verb from konlpy.tag import Kkma # 형용사 : VA, 동사 : VV from konlpy.tag import Hannanum # 형용사 : PA, 동사 PV from konlpy.tag import Komoran # 형용사 : VA, 동사 : VV print("Twitter / 형용사 : Ajective, 동사 : Verb") twitter = Twitter()#Hannanum()#Kkma()#Twitter() hannanum = Hannanum() kkma = Kkma() komoran = Komoran() def showConverse(names, comments): # 대화 보기 i = 0 len_names = len(names) while(i<len_names): print('이름 :',names[i],end=' / ') print('내용 :',comments[i]) i+=1 def makeSentenceConverse(n_names, n_comments, names, comments): # n_ : 줄바꿈 -> 긴 문장으로 가공될 리스트 len_names = len(names) str_tmp = comments[0] if len_names > 1: i = 0 while(i<len_names-1): #print('이름 :',names[i],end=' / ') #print('내용 :',comments[i]) if names[i]==names[i+1]: str_tmp = str_tmp + ' ' + comments[i+1] else : n_names.append(names[i]) n_comments.append(str_tmp) str_tmp = comments[i+1] i+=1 #end while if n_names[-1] != names[-1]: # 마지막 대화자 처리 n_names.append(names[-1]) n_comments.append(str_tmp) elif len_names == 1 : n_names.append(names[0]) n_comments.append(comments[0]) else : print("자료 없음") #end if def preProcessConverse(tmp, names, comments): for line in lines: # 각 줄 내용에서 보낸시간 기준으로 분리 -> 이건 나중에 필요할지도? 얼마나 빨리 보냈는지에 따라서 # 내용에 ,이 있을 경우도 분리되기 때문에 join을 사용하여 재조합 tmp.append(''.join(line.split(',')[1:])) # ''.join(line.split(',')[1:]) # 구분자 처리 for line in tmp: # 이름 : 대화 내용을 분리하고 공백제거 #print(line.split(':')) t = line.split(':') # 별도로 분리하면 split함수를 두번 쓰게되므로 변수에 저장 names.append(t[0].strip(" ")) comments.append(''.join(t[1:]).strip(" ")) def categorizationPos(comments, cateType): if cateType == 'twi': categorizationPos2(comments, twi_A, twi_V, "Adjective", "Verb") elif cateType == 'kk': categorizationPos2(comments, kk_A, kk_V, "VA", "VV") elif cateType == 'ha': categorizationPos2(comments, ha_A, ha_V, "PA", "PV") elif cateType == 'ko': categorizationPos2(comments, ko_A, ko_V, "VA", "VV") def categorizationPos2(comments, input_A, input_V, aject, verb): for comm in comments: #print(comm) if comm[1]==aject : input_A.append(comm[0]) elif comm[1]==verb: input_V.append(comm[0]) f = codecs.open("sample.txt",'r','utf-8') lines = f.read() f.close() lines = lines.split('\r\n') # 줄바꿈을 기준으로 분리 tmp=[] names=[] comments=[] #type(lines) preProcessConverse(tmp, names, comments) # 스플릿 전처리 n_names = ['껄껄'] # 테스트를 위한 임시값 n_comments = ['맛있다'] makeSentenceConverse(n_names,n_comments, names, comments) # 줄바꿈 제거 ###########showConverse(n_names, n_comments) # 수정된 문장 보기(이름 : 내용)꼴 twi_A = [] # 트위터 형용사 twi_V = [] # 트위터 동사 kk_A = [] # 꼬꼬마 형용사 kk_V = [] # 꼬꼬마 동사 ha_A = [] # 한나눔 형용사 ha_V = [] # 한나눔 동사 ko_A = [] # 코모란 형용사 ko_V = [] # 코모란 동사 for comment in n_comments: ''' print(comment,":",twitter.pos(comment, norm=True, stem=True)) # hannanum print(comment,":",twitter.pos(comment,ntags=22)) # twitter print(comment,":",twitter.pos(comment)) # kkma, komoran ''' #twi_tmp = twitter.pos(comment, norm=True, stem=True) #ha_tmp = hannanum.pos(comment,ntags=22) #kk_tmp = kkma.pos(comment) ko_tmp = komoran.pos(comment) #categorizationPos(twi_tmp, "twi") #categorizationPos(ha_tmp, "ha") #categorizationPos(kk_tmp, "kk") categorizationPos(ko_tmp, "ko") twi_A = set(twi_A) # 트위터 형용사 twi_V = set(twi_V) # 트위터 동사 kk_A = set(kk_A) # 꼬꼬마 형용사 kk_V = set(kk_V) # 꼬꼬마 동사 ha_A = set(ha_A) # 한나눔 형용사 ha_V = set(ha_V) # 한나눔 동사 ko_A = set(ko_A) # 코모란 형용사 ko_V = set(ko_V) # 코모란 동사 #print(twi_A) for l in list(ko_V): print(l)

카카오톡 대화 전처리(발언자별 대화 분류, 잦은 나눔 전송으로 분리된 요소들을 조합하기 위한 처리) -> 추후 대인 호감도 분석을 위해 답변 시간까지 포함한 자료구조로 변경 필요

Next)

-> 추출된 용언을 DB에 저장, 호감도 가중치는 직접입력(주관적 의사 반영됨), 누적 단어 사전이 많아진다면 DB select해온 값을 어떤 자료구조로 사용해야 빠른 검색이 가능할까?

ps. 누적용언 테이블, 호감도 가중치 테이블, 새로 발견된 용언 테이블을 별도로 제작해야할듯

1.새로운 대화 분류 - 2.누적용언 테이블에서 검색 - 3.없을시 새로 발견된 용언 테이블에 저장 - 4.개발자는 새로 발견된 용언 중 호감도를 나타내는 용언을 가중치와 함께 호감도 테이블에 저장 - 5. 처리가 완료된(또는 기존 가지고 있던 호감도 데이터 만으로) 호감도 분석 진행

-> 다음으로, 호감도를 나타내는 형용사, 동사가 나타나면 전 후로 가장 인접한 명사에 점수 반영을 하도록 할 계획.(단어사전에 의한 감정 분석 보다는 나은 방법이겠지..)

-> 한글 자연어에 대해 공부하여 언어 요소별 연관 관계를 자세하게 파악하여 좀 더 짜임새 있는 호감도 분석 알고리즘 제작 필요.

저작자표시 비영리 변경금지 (새창열림)

'머신러닝 > 다슬봇 패치노트' 카테고리의 다른 글

다슬봇 ver2_20161130_release_2.0 (0)	2016.12.01
다슬봇 ver1_20161123_release_1.1 (0)	2016.12.01
다슬봇 ver1_20161122_release_1.0 (0)	2016.12.01
데이터센터 진행상황 요약 (0)	2016.11.22

공유하기 링크

페이스북
카카오스토리
트위터

'머신러닝/다슬봇 패치노트' Related Articles

Comments

맛동산

(16.12.26 ~ )감정 분석 데이터 처리 진행상황 및 고민1 본문

(16.12.26 ~ )감정 분석 데이터 처리 진행상황 및 고민1

'머신러닝 > 다슬봇 패치노트' 카테고리의 다른 글

티스토리툴바