파이썬/기초
xml 파싱 후 커스텀하여 json으로 저장
오지고지리고알파고포켓몬고
2017. 12. 6. 12:48
위키피디아 데이터 Json({title : text}) 꼴로 변환 후 저장
로드가 오래걸려서 테스트 필요 시 터미널에서 입력하는게 나음
참고 https://stackoverflow.com/questions/12309269/how-do-i-write-json-data-to-a-file
# since 171206 # wiki parse from xml.etree.ElementTree import parse import json, codecs tree = parse("/Users/darr/Documents/gitproject/Tensorflow/r&d/data/kowiki-20171201.xml") root = tree.getroot() pages = root.findall("page")[1:] dic = dict() for page in pages: title=page.findtext("title") text=page.find("revision").findtext("text") dic[title] = text with open('/Users/darr/Documents/gitproject/Tensorflow/r&d/data/wiki_json1.txt','wb') as f: json.dump(dic, codecs.getwriter('utf-8')(f), ensure_ascii=False)