python3 去掉最外面一个标签

使用xpath解析html的时候,获取content,会多一个最外面的html标签。

例如:使用id为content的div获取里面的内容(包括html)

<div id=”contnet”><div id=”abc”>asdfsadf<img src=”xx”>afds</div></div>

想去掉最外侧的id为content的div,只保存里面的html。

def filtercontent(data):
    data = data.decode("utf-8")  # utf-8解码,如果传入是str,可忽略
    l = data.find(">")           # 第一个>的位置
    r = data.rfind("</")         # 最后一个</ 的位置
    return data[l+1:r]           # 切片提取文本

	

You May Also Like

About the Author: 萌新