일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 연동
- online
- 저지
- Judge
- Framework
- mariadb
- 파이썬
- MongoDB
- OrientDB
- Python
- r
- 자료형
- spring
- AWS
- API
- 설치
- 백준
- 배열
- 토네이도
- Tornado
- BAEKJOON
- 알고리즘
- 이클립스
- r script
- 자바스크립트
- Java
- 프레임워크
- 오픈한글
- 연결
- ubuntu
- Today
- Total
맛동산
(16.12.26 ~ )감정 분석 데이터 처리 진행상황 및 고민1 본문
다음은 하루 동안의 8인 채팅방 대화 내용을 KoNLPy의 트위터, 한나눔, 꼬꼬마, 코모란의 pos분류한 결과임
- 형용사,동사 추출 및 호감도를 나타낼 수 있는 용언 선택 (동사는 추출 자료가 많아 사진 생략, 호감도 용언은 주관적으로 선택)
- 추출 자료 중 측정률 (호감도 용언 / 검색된 전체 용언)이 높은 것을 선택
※ 전체 표본으로 성능을 조사하기엔 시간이 오래 걸리고 모든 사람의 말투(친구는 끼리끼리라고 나와 전혀 관련없는 집단의 실생활 대화)까지 반영하긴 자료가 부족하여 우선 트위터 분류기로 분석기 제작에 채택함
현재 분석기 진행상황은 아래와 같음
카카오톡 대화 전처리(발언자별 대화 분류, 잦은 나눔 전송으로 분리된 요소들을 조합하기 위한 처리) -> 추후 대인 호감도 분석을 위해 답변 시간까지 포함한 자료구조로 변경 필요
Next)
-> 추출된 용언을 DB에 저장, 호감도 가중치는 직접입력(주관적 의사 반영됨), 누적 단어 사전이 많아진다면 DB select해온 값을 어떤 자료구조로 사용해야 빠른 검색이 가능할까?
ps. 누적용언 테이블, 호감도 가중치 테이블, 새로 발견된 용언 테이블을 별도로 제작해야할듯
1.새로운 대화 분류 - 2.누적용언 테이블에서 검색 - 3.없을시 새로 발견된 용언 테이블에 저장 - 4.개발자는 새로 발견된 용언 중 호감도를 나타내는 용언을 가중치와 함께 호감도 테이블에 저장 - 5. 처리가 완료된(또는 기존 가지고 있던 호감도 데이터 만으로) 호감도 분석 진행
-> 다음으로, 호감도를 나타내는 형용사, 동사가 나타나면 전 후로 가장 인접한 명사에 점수 반영을 하도록 할 계획.(단어사전에 의한 감정 분석 보다는 나은 방법이겠지..)
-> 한글 자연어에 대해 공부하여 언어 요소별 연관 관계를 자세하게 파악하여 좀 더 짜임새 있는 호감도 분석 알고리즘 제작 필요.
'머신러닝 > 다슬봇 패치노트' 카테고리의 다른 글
다슬봇 ver2_20161130_release_2.0 (0) | 2016.12.01 |
---|---|
다슬봇 ver1_20161123_release_1.1 (0) | 2016.12.01 |
다슬봇 ver1_20161122_release_1.0 (0) | 2016.12.01 |
데이터센터 진행상황 요약 (0) | 2016.11.22 |