맛동산

xml 파싱 후 커스텀하여 json으로 저장 본문

파이썬/기초

xml 파싱 후 커스텀하여 json으로 저장

오지고지리고알파고포켓몬고 2017. 12. 6. 12:48

위키피디아 데이터 Json({title : text}) 꼴로 변환 후 저장


로드가 오래걸려서 테스트 필요 시 터미널에서 입력하는게 나음


참고 https://stackoverflow.com/questions/12309269/how-do-i-write-json-data-to-a-file

 
# since 171206
# wiki parse
from xml.etree.ElementTree import parse
import json, codecs

tree = parse("/Users/darr/Documents/gitproject/Tensorflow/r&d/data/kowiki-20171201.xml")

root = tree.getroot()
pages = root.findall("page")[1:]

dic = dict()
for page in pages:
    title=page.findtext("title")
    text=page.find("revision").findtext("text")
    dic[title] = text

with open('/Users/darr/Documents/gitproject/Tensorflow/r&d/data/wiki_json1.txt','wb') as f:
    json.dump(dic, codecs.getwriter('utf-8')(f), ensure_ascii=False)

'파이썬 > 기초' 카테고리의 다른 글

파이썬 *args **kwargs  (0) 2017.12.16
수치 연산자  (0) 2017.05.12
unread result found 에러  (1) 2016.12.07
파이썬 파일 입출력  (0) 2016.10.07
파이썬 파일 입출력_파일읽기  (3) 2016.10.07
Comments