일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- BAEKJOON
- 배열
- ubuntu
- 오픈한글
- Java
- 프레임워크
- 설치
- 알고리즘
- Judge
- 연결
- 연동
- r script
- spring
- mariadb
- 토네이도
- r
- 파이썬
- Framework
- AWS
- 이클립스
- Python
- 백준
- 저지
- OrientDB
- MongoDB
- online
- API
- 자료형
- Tornado
- 자바스크립트
- Today
- Total
맛동산
하... 내가 뭘 좋아할지 몰라서 다른 메타도 준비해봤어! 본문
나에게...
안녕 나야?
너의 마음대로 형용사에 감정수치를 부여하는게 마음에 안들어서 아예 다른 방법을 들고와봤어ㅎㅎㅎ
넌 문장 내 형용사와 명사간의 연결도가 얼만큼 되는지도 잘 모르잖아?ㅎㅎㅎㅎ
근데 문장 내 형용사 점수로 명사에 대한 호감도를 넣는건 뭔가 근거가 부족하지 않겠니ㅎㅎㅎ
자, 새로운 방식은 이거야
수집된 문장을 1. 호감 2. 비호감 3. 중립(이게 문젠데 이걸 모으면 분석이 좋아질지, 과적합이 될지 확신이 안서...)으로 분류할거야
근데 여기서 문장 전체를 DB넣는게 아니라 일단 분류기로 돌려서(트위터 분류기는 아쉽지만, 한나눔껄 쓰자... R에서도 KAIST님들이 만든 패키지를 쓰고 있거든) 명사(등)를 제외한 문장의 구조만 넣을 생각이야
그 영화 진짜 재밌더라 그 만화 진짜 재밌더라
그 N 진짜 재밌더라 그 N 진짜 재밌더라
어때? 패턴이 눈에 들어와?
단순히 형용사로 문장 내 명사 호감도를 판단하는 것 보단 좀 더 합리적이겠지?
물론 단순 점수계산이 아니라 수행 시간이 좀 더 들겠지만 일단 어떤 분석 모델을 만들지부터 집중하자고
자! 그럼 이제 DB부터 설계해보자!
ps.
1. 이미 분해해둔 내용을 넣는게 좋을듯 싶은데, 그럼 가져올땐 어떻게해? 왜냐면 '그 N 진짜 재밌더라' 라고 저장하면 R에서 다시 tokenizer해야 되잖아
-> 일단 그냥 넣자, python에서 어떻게 분리되는지도 봐야하고 R에서 돌린거 list형이던데 termMatrix에선 key값이 rowName으로 돌아가던데 일단 좀 더 파봐야 알듯
2. 몇번째 N에 대한 호감을 가지는 문장인지도 알 수 있을까?
-> 마찬가지로 일단 해보면 패턴이 좀 보일 것 같은데?
3. 유사도 검사를 할지 말지에 대한 기준값도 있어야할 것 같아,(최고 유사도가 0.5 이상이라던가) 전혀 요점이 없는 문장을 분류기에 돌리고 검사하고 그러면 자원낭비잖아?
-> 그러게 이 부분은 좀 더 생각해보자
4. 최종 결과에 대한 호감도 여부는 어떻게 판단할거야?
java_list1 = ['그, N, 진짜, 재밌더라' ... ] java_list2 = [1, ...]
이렇게 넘긴다음
tmp <- data.frame(java_list1, java_list2)로 묶고
비교는 tmp$java_list1 로 넣으면 될 듯 싶은데 어때?
'머신러닝 > 고찰' 카테고리의 다른 글
모듈 정리 (1) | 2017.03.14 |
---|---|
So eine Scheiße! (0) | 2017.03.14 |
해야할 일 & 고찰 (0) | 2017.01.17 |
호감도 처리를 어떻게 할 것 인가? (0) | 2016.12.23 |
what is the pos? (0) | 2016.12.15 |