일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 프레임워크
- mariadb
- Java
- 연결
- r script
- 자료형
- OrientDB
- BAEKJOON
- 오픈한글
- 설치
- 백준
- 연동
- 자바스크립트
- 파이썬
- Framework
- ubuntu
- online
- API
- 알고리즘
- 배열
- 저지
- MongoDB
- 이클립스
- r
- Python
- Tornado
- 토네이도
- AWS
- spring
- Judge
Archives
- Today
- Total
맛동산
xml 파싱 후 커스텀하여 json으로 저장 본문
위키피디아 데이터 Json({title : text}) 꼴로 변환 후 저장
로드가 오래걸려서 테스트 필요 시 터미널에서 입력하는게 나음
참고 https://stackoverflow.com/questions/12309269/how-do-i-write-json-data-to-a-file
# since 171206 # wiki parse from xml.etree.ElementTree import parse import json, codecs tree = parse("/Users/darr/Documents/gitproject/Tensorflow/r&d/data/kowiki-20171201.xml") root = tree.getroot() pages = root.findall("page")[1:] dic = dict() for page in pages: title=page.findtext("title") text=page.find("revision").findtext("text") dic[title] = text with open('/Users/darr/Documents/gitproject/Tensorflow/r&d/data/wiki_json1.txt','wb') as f: json.dump(dic, codecs.getwriter('utf-8')(f), ensure_ascii=False)
'파이썬 > 기초' 카테고리의 다른 글
파이썬 *args **kwargs (0) | 2017.12.16 |
---|---|
수치 연산자 (0) | 2017.05.12 |
unread result found 에러 (1) | 2016.12.07 |
파이썬 파일 입출력 (0) | 2016.10.07 |
파이썬 파일 입출력_파일읽기 (3) | 2016.10.07 |
Comments