博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python:使用OO和工厂模式解决问题
阅读量:6714 次
发布时间:2019-06-25

本文共 2886 字,大约阅读时间需要 9 分钟。

上次说到,用DOM树的方法替代正则表达式,去匹配替换具有特定属性值的HTML标签,第一次选用的是BeautifulSoup,但是领导更中意lxml这个库,因此我把代码抽取出来抽象成一个接口,让代码依赖接口,而不是具体的实现,代码并不知道我到底使用的是什么第三方库,后来更增加一个工厂方法,让外部连我用的什么类都不让它知道:)

#!/usr/bin/env python# -*- coding: utf-8 -*-#工厂模式def createDomTree(htmlStream,type='soup'):    if type == "soup":        return tnDomTreeWithSoup(htmlStream)        if type == "lxml":        return tnDomTreeWithlXml(htmlStream)        return None    #外部依赖的接口,它屏蔽了我具体使用的第三方库class tnDomTree:    def __init__(self,htmlStream):        self.htmlStream = htmlStream        def getLinkList(self):        pass        def getImageList(self):        pass        def elementToString(self,element):        pass        def getAttrValueOfElement(self,element,attName):        pass#使用BeautifulSoup的类from BeautifulSoup import BeautifulSoupclass tnDomTreeWithSoup(tnDomTree):    def __init__(self,htmlStream):        tnDomTree.__init__(self,htmlStream)        self._tree = BeautifulSoup(self.htmlStream)        def getLinkList(self):        return self._tree.findAll('a')        def getImageList(self):        return self._tree.findAll('img')        def elementToString(self,element):        return str(element)        def getAttrValueOfElement(self,element,attName):        if hasattr(element,attName):            return str(element[attName])        else:            return ""#使用lxmlfrom lxml.html import tostringfrom lxml.html.soupparser import fromstringclass tnDomTreeWithlXml(tnDomTree):    def __init__(self,htmlStream):        tnDomTree.__init__(self,htmlStream)        self._tree = fromstring(self.htmlStream)        def getLinkList(self):        list = []        for i in self._tree.iter():            if i.tag == 'a':                list.append(i)        return list        def getImageList(self):        list = []        for i in self._tree.iter():            if i.tag == 'img':                list.append(i)        return list        def elementToString(self,element):        return tostring(element)        def getAttrValueOfElement(self,element,attName):        if attName in set(element.keys()):            return str(element.attrib[attName])        else:            return ""if __name__ == "__main__":    s1 = '''    

BEIAI

''' print s1 domtree = createDomTree(s1,'soup') list = domtree.getImageList() for i in list: print domtree.getAttrValueOfElement(i,'src') print domtree.elementToString(i)

后来发现一个问题,lxml库的tostring方法总是<img src="..." />转换成<img src="...">这个不符合我的设计要求,我的设计思路是,在DOM上遍历img节点,将有特定src值的节点放入list,遍历list将每一个元素都抓换成其原始HTML代码。整体替换之,由于它tostring时擅自修改了HTML源码导致务替换的时候没有匹配的目标字符串,从而产生BUG,所以后来还是决定使用BeautifulSoup,因为抽象出接口了,所以改变使用的第三方库对于程序来说特别容易:)

PS:BeautifulSoup也并非没有问题,它的策略与lxml刚好相反,任何单个的<img>标签,只要没加/它都生成<img ... />这样的标签,但是因为我能保证我要处理的<img>一定是有/的,反而不是问题了,何况加/是标准的写法,因此还是选择它了,由此强化了之前的观点:第三方库也会不稳定不安全,但是我们仅仅使用它们稳定的功能和模块就可以了

转载于:https://www.cnblogs.com/code-style/archive/2012/04/09/2439405.html

你可能感兴趣的文章