일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- r
- MongoDB
- 백준
- BAEKJOON
- 프레임워크
- 오픈한글
- online
- 이클립스
- API
- Java
- spring
- 파이썬
- Python
- Tornado
- 자료형
- 배열
- Framework
- 연동
- 연결
- OrientDB
- 알고리즘
- 자바스크립트
- ubuntu
- Judge
- r script
- 토네이도
- mariadb
- 설치
- AWS
- 저지
- Today
- Total
목록머신러닝 (57)
맛동산
# 패키지 목록 보기search() # 변수 목록 보기ls() # 자료형 보기 함수 : mode(), is.xxx()mode("ㅁㄴㅇㄹ") # -> characteris.logical("aaa") # -> FASLSE # as.numeric() # 따옴표를 벗기는 기능까지 있음x
너무 오랜만에 봤더니 뭐가 뭐였는지 기억이 안남ㅜㅜ 일단 정리를 해보자면 1. sample.txt는 특정 기간동안의 대화만 수동으로 뽑은거고KakaoPreProcess_ver1.py / KakaoPreProcess_ver2.py는 sample을 대상으로 작업을 수행하는 모듈. 2. KakaoTalkChats.txt는 대화방의 모든 대화가 들어있는 파일이고AllChatPreProcess.py는 KakaoTalkChats를 대상으로 작업을 수행하는 모듈(이게 좀 더 큰 범위)문장 당 명사, 형용사를 result.txt라는 파일에 쓰는데, list를 그대로 넣었더니 '[]'이 텍스트 꼴로 저장되서다시 불러올 때 list로 형변환이 안됐었던 것 같음 -> 확인 후 수정하기 3. DBProcess_ver1.py ..
스프링이다 프로젝트다 뭐다 해서 작업 못한지 2달이 다 되가네ㅜㅜ 우선 저번 작업 이후로 해야할일을 생각해보니 우선 발생한 형용사 목록을 따서 감정 가중치 테이블을 작성해야함. 이 부분은 한글로 된 정보를 구하기 힘드니(오픈한글.. 거의 5달째? 권한 없다고만 나오고 문의해도 답장이 없으무ㅜ) 기존에 영어로 된 감정표를 번역기 + KoNLp를 통해 작성하는것도 하나의 방법으로 사용 가능할 듯 문장 내 명사에 대한 점수 모듈은 차후에 하기로. 너무 늦었지만 일단 플로우 차트를 만들어본다면 얼추 요런느낌? 일단 명사, 형용사 추출 모듈까지는 완성됐으니 result파일로 작업 '처음 발견된 용언인가?' 부분부터 시작하면 될 듯 3.15)음.. 형용사의 긍정, 부정 점수를 입력하는데에 뭔가 기준치가 있어야 할 ..
일단 2가지 추출기 제작. 두번째 추출기 결과에 나온 형용사를 설계 DB들에 넣어보고 분석해야할듯 근데 형용사 점수가 들어갈 테이블이 없네?(Maria.sql 9 line) 1.분석결과를 보다가 느낀건데 '영화표 뽑는게 너무 오래걸려서 싫다'라는 데이터에서 '영화표' ... '싫다' 라는 결과가 나오면(아직 명사와 형용사 관계를 파악하는 수준으로 연구중) '영화표'가 싫은게 아니라 '영화표를 뽑는 행위'가 '오래걸려서' '싫다'라는 의미를 갖기 때문에 잘못된 결과가 아닌가 생각했음. 근데 사실 심리학적으로 생각한다면 무의식적으로 영화표라는 대상에 거부감을 느끼게 될 수 있지 않을까? 하는 생각이 번쩍 들었음. 문장에 대한 사실만 분석할 것이 아니라 심리적인 측면도 고려해야 진정한 의미의 인공지능을 이뤄낼..
다음은 하루 동안의 8인 채팅방 대화 내용을 KoNLPy의 트위터, 한나눔, 꼬꼬마, 코모란의 pos분류한 결과임- 형용사,동사 추출 및 호감도를 나타낼 수 있는 용언 선택 (동사는 추출 자료가 많아 사진 생략, 호감도 용언은 주관적으로 선택) - 추출 자료 중 측정률 (호감도 용언 / 검색된 전체 용언)이 높은 것을 선택 ※ 전체 표본으로 성능을 조사하기엔 시간이 오래 걸리고 모든 사람의 말투(친구는 끼리끼리라고 나와 전혀 관련없는 집단의 실생활 대화)까지 반영하긴 자료가 부족하여 우선 트위터 분류기로 분석기 제작에 채택함 현재 분석기 진행상황은 아래와 같음 import codecs from konlpy.tag import Twitter # 형용사 : Ajective, 동사 : Verb from kon..
단계별 과제1단계 - 대화에 포함된 명사에 대한 호감도 분석2단계 - 대화 상대별 대화 패턴 분석3단계 - 2단계를 토대로 상대방에 대한 호감도 분석 1단계 처리를 어떻게 하나.. 생활 대화 수집에 한계가 있고 혼자 코퍼스를 분류하기엔 해야할일이 너무 많음 -> KoNLPy를 사용 twitter 분류기의 sentences를 사용하여 최대한 하나의 문장으로 나눈뒤 다른 분류기로 분류(최대한 잘게 나눠야 명사를 수식하는 형용사의 거리가 가까울테니) 형용사 사전을 어디서 구한담.. 분류기로 나온것들만 저장?(분류기로 나온 형용사들도 가중치처리를 직접해줘야함...) 일단 좌표http://www.korean.go.kr/front/page/pageView.do?page_id=P000160&mn_id=26http:/..
형태소 분석기에 나오는 pos란 무엇인가??
웹에서 R코드의 지속적인 사용을 위해 Rserve를 선택하게 됨 rJava의 경우 단일 스레드로 되어있어 서버에서 비동기적, 재사용이 불가했음 우선 선행 작업으로 http://tastydarr.tistory.com/62을 보고 R을 설치함 1. R콘솔(또는 R studio)에서 install.packages("Rserve")라는 명령으로 Rserve를 설치하면 R_HOME 예하의 library 경로에 설치된 것을 확인할 수 있음 (가끔 환경변수 설정을 안하면 요상한 곳에 설치되는 것 같음) 2. 다음으로 Rserve를 사용할 프로젝트에서 Rserve 사용에 필요한 jar파일을 추가함 (설치법이 같다면 C:\R-3.3.2\library\Rserve\java 에 있음) 3. 이제 Rserve를 import해..
이전 글에 작성했지만 rJava를 서버에서 사용할 경우 rJava를 중복 호출(생성)하면 톰캣이 자동으로 종료되는 기이한 현상이 발생함.(참고 : http://www.codophile.com/how-to-integrate-r-with-java-using-rserve/) 다음은 rJava설치 1. R x64 3.3.2.exe를 실행하면 콘솔창이 열리는데 install.packages("rJava") 를 작성하고 엔터를 치면 rJava 패키지가 R_HOME 예하의 라이브러리 폴더에 설치됨 간혹 이상한 경로에 설치되는 경우도 있는 것 같으니 꼭 해당 위치에 있는지 확인해야함. 2. rJava 사용을 위한 경로설정을 해줌 (R_HOME 예하의 library\rJava\jri)Path - %R_HOME%\libr..
챗봇을 구현하다보니 서버에서 R을 사용하여 통계기법을 활용해야 할 일이 생김. 그리하여 R과 JAVA를 연동하기위해 rJava와 Rserve라는걸 알게 됐는데, rJava는 일단 서버환경에서 재사용(스레드를 사용해서 rJava객체 재사용, rJava 객체 재생성까지 해봤는데)이 불가한 듯 싶음 Rserve는 Tcp socket 구조로 되어있어서 굳이 별도 구현없이 멀티스레딩을 지원하기 때문에 이걸 사용하기로 함. 기타사항은 다음 글에서 메모하겠음. R 설치법1. https://cran.r-project.org/mirrors.html 사이트에서 중간쯤에 한국 미러사이트가 있는데 마음에 드는 링크로 들어감. 2. 다음 페이지에서 Download R for Windows를 선택함.기본 인스톨 파일로 32비트,..