Python脚本Selenium及页面Web元素定位详解

Selenium是一款常用的Web应用程序测试框架,可以通过自动化的方式进行Web UI测试。Selenium支持多种程序语言,包括Python、Java等,它能够模拟浏览器的运行行为,方便进行测试的效果检查。Selenium在自动化网页测试及Web Scraping方面都有广泛应用。

Python脚本Selenium及页面Web元素定位详解

什么是Selenium?

Selenium是一款常用的Web应用程序测试框架,可以通过自动化的方式进行Web UI测试。Selenium支持多种程序语言,包括Python、Java等,它能够模拟浏览器的运行行为,方便进行测试的效果检查。Selenium在自动化网页测试及Web Scraping方面都有广泛应用。

如何安装Selenium?

Python实现Selenium主要需要安装Selenium和WebDriver两个模块。使用pip安装即可:

pip install selenium

WebDriver需要根据使用的浏览器类型在官网下载相应的驱动程序。比如,Google Chrome浏览器的WebDriver下载链接为https://sites.google.com/chromium.org/driver/downloads。

如何使用Selenium?

1.创建浏览器引擎对象

使用Selenium首先需要创建一个浏览器引擎对象,这可以通过如下代码完成:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='/path/to/chromedriver')

其中Chrome对应的是要使用的浏览器类型,executable_path对应的是浏览器的驱动程序路径。如果已经将执行路径添加到环境变量中,就可以省略executable_path参数。

2.打开网址并操作Web元素

通过以上方式创建好浏览器引擎对象后,就可以使用Selenium对指定的Web页面进行自动化操作。我们可以使用driver.get(url)方法打开一个新的页面,然后使用find_element_by_*等方法查找页面上的Web元素。

假设我们需要访问搜索引擎Google,并搜索Python,以下是使用Selenium实现的示例代码:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
driver.get('https://www.google.com')
search_box = driver.find_element_by_name('q')
search_box.send_keys('Python')
search_box.submit()

其中,find_element_by_name()方法通过页面元素的name属性定位元素,send_keys()方法对元素进行输入操作,submit()方法提交表单。以上代码实现了打开Google,输入Python关键字并进行搜索的过程。

3.定位Web元素

如何准确地定位页面上的Web元素?可以通过以下方式定位:

  • find_element_by_id(id)
  • find_element_by_name(name)
  • find_element_by_xpath(xpath)
  • find_element_by_link_text(link_text)
  • find_element_by_partial_link_text(partial_link_text)
  • find_element_by_tag_name(tag_name)
  • find_element_by_class_name(class_name)
  • find_element_by_css_selector(css_selector)

以百度首页为例,以下是通过Selenium查找百度搜索条目的代码示例:

from selenium import webdriver

driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
driver.get('https://www.baidu.com')
search_box = driver.find_element_by_id('kw')
search_box.send_keys('Python')
search_box.submit()

其中,find_element_by_id()方法根据元素的id属性确定元素,find_element_by_xpath()方法是通过元素的相对位置和标签属性等信息确定。

示例1:使用Selenium实现国际空间站实时追踪

以下示例通过Selenium实现了国际空间站的实时追踪,实现的功能包括获取当前时间、经度、纬度、当前位置、可见天体等信息,然后将这些信息输出到控制台。

from selenium import webdriver
import time

driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
driver.get('https://www.n2yo.com/')

time.sleep(5)  # 加载页面需要一定的时间

driver.execute_script('document.getElementById("lat").value = "22.314202"')  # 设置纬度
driver.execute_script('document.getElementById("lon").value = "113.934036"')  # 设置经度

time.sleep(5)  # 需要一定的时间重新加载

div = driver.find_element_by_id('infoContent')

timeStr = div.find_element_by_id('info-date').text  # 获取时间
latStr = div.find_element_by_id('info-latitude').text  # 获取纬度
lonStr = div.find_element_by_id('info-longitude').text  # 获取经度
posStr = div.find_element_by_id('info-location').text  # 获取位置
seenStr = div.find_element_by_id('info-visibility').text  # 获取可见天体

print('Time:', timeStr)
print('Latitude:', latStr)
print('Longitude:', lonStr)
print('Position:', posStr.strip())
print('Seen:', seenStr.strip())

driver.close()

以上代码中,我们首先通过webdriver对象打开空间站追踪页面,然后设置了站点的经度和纬度信息。接下来,需要等待一定时间,以便页面加载完成。我们通过find_element_by_id()方法查找到包含有实时追踪信息的页面块,从中提取我们需要的信息,并将这些信息打印到控制台上。

示例2:使用Selenium实现微博登录

以下示例通过Selenium模拟登录微博平台,并实现获取当前登录用户的粉丝数。

from selenium import webdriver
import time

driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
driver.get('https://www.weibo.com')

time.sleep(5)

login_btn = driver.find_element_by_xpath('//a[@node-type="loginBtn"]')  # 查找登录按钮
login_btn.click()

time.sleep(5)

email_input = driver.find_element_by_id('loginname')  # 查找邮箱输入框
password_input = driver.find_element_by_name('password')  #查找密码输入框

email_input.clear()  # 清除邮箱输入框
password_input.clear()  # 清除密码输入框

email_input.send_keys('your_email')  # 输入邮箱
password_input.send_keys('your_password')  # 输入密码

time.sleep(2)

login_submit = driver.find_element_by_xpath('//a[@node-type="submitBtn"]')  # 查找登录按钮
login_submit.click()

time.sleep(5)

user_menu = driver.find_element_by_xpath('//a[@node-type="name"]')
user_menu.click()

time.sleep(5)

fans_num = driver.find_element_by_xpath('//strong[@node-type="fans"]')
print('Current user fans:', fans_num.text)

driver.close()

以上代码中,我们首先通过webdriver对象打开微博主页面,然后查找登录按钮,并通过输入框输入邮箱和密码。接下来,我们等待页面加载完毕,然后点击登录按钮进行登录。登录成功后,我们需要查找当前用户粉丝数的对应页面元素,最后将其输出到控制台上。

本文标题为:Python脚本Selenium及页面Web元素定位详解

基础教程推荐