1. 本际云推荐 - 专业推荐VPS、服务器,IDC点评首页
  2. 云主机运维
  3. VPS运维

Python爬虫Xpath定位数据的两种方法

Python爬虫之Xpath定位数据

我是本际云服务器推荐网的小编小本本,今天为大家介绍关于Python爬虫Xpath定位数据的两种方法。

Python爬虫Xpath定位数据的两种方法

方法一:直接复制全路径

使用selenium+lxml中的etree进行配合使用,直接右键,将文章路径复制下来点击CopyfullXpath即可获取路径,然后使用etree解析html网页。

import requests
from lxml import etree
import time
import socket
import csv
from selenium import webdriver
from configparser import ConfigParser
from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions

#禁止图片和css加载
chrome_options=webdriver.ChromeOptions()
prefs={"profile.managed_default_content_settings.images":2}
chrome_options.add_experimental_option("prefs",prefs)
option=ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-automation'])

#如果想加载图片,就把下面第二句话改第一句话,删掉上面的“禁止图片和css加载”部分
#wb=Chrome(options=option)

wb=webdriver.Chrome(options=chrome_options)
#最大化窗口、输入网址、等待至网页加载完成(防止元素还没加载出来就开始爬了这样自然爬不到数据。如果一直加载不出就等10秒,加载好了就立刻结束等待)
wb.maximize_window()
wb.get("https://www.tianyancha.com/")
wb.implicitly_wait(5)

#获取网页数据
data=wb.page_source
time.sleep(3)
data=wb.page_source
time.sleep(3)

#解析数据
html=etree.HTML(data)
company=html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()')
print(company)

方法二:使用制定标签属性搜索指定位置

使用//某元素[class=‘CLASS值’]的意思是:从根部(//)查找class值为CLASS值的Node。使用相对路径,用制定某种属性的标签,下载相关数据。比如,对于批量处理的网页,有的标签位置不在同一个地方,那么我们就是不使用全Xpath路径,而使用相对路径,按照这个公式来查找class的元素://某元素[class=‘CLASS值’],然后再找到指定位置的节点,如/ul/li。

"//div[class='mainArea']/ul/li"

以上就是关于Python爬虫Xpath定位数据的两种方法介绍,希望对大家有所帮助。

原创文章,作者:小编小本本,如若转载,请注明出处:https://www.benjiyun.com/yunzhujiyunwei/vps-yunwei/7245.html