f = urllib.urlopen(source.getSystemId())
модуля saxutils. Вот тут я выпал в осадок :))))Оказалось что в XHTML файле есть доктип:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
и каждый раз при парсинге скрипт рубится в интернет!!!
Погуглив, решения не нашёл как это дело закешировать, не стал рефакторить фукцию prepare_input_source, которая как раз отвечает за выборку доктипа, а просто регепсом
_pat_dtd = re.compile(r'<!doctype [^>]+>' re.I) убиваю доктип и парсю через parseString, всё!
0 коммент.:
Отправить комментарий