python爬虫翻页代码
以下是一个简单的Python爬虫翻页代码示例:
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com/page/1'
page = 1
while True:
# 发送请求
response = requests.get(url)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 处理数据
# ...
# 判断是否有下一页
next_page = soup.find('a', {'class': 'next-page'})
if next_page:
page += 1
url = 'https://www.example.com/page/{}'.format(page)
else:
break
在这个示例中,我们首先定义了起始URL和起始页码。然后,我们使用一个while循环来不断发送请求并解析HTML。在处理数据之后,我们查找下一页的链接,如果存在则更新URL和页码,否则退出循环。
接下来我会详细解释这个示例代码的每一部分。
首先,我们导入了requests和BeautifulSoup库,这两个库是Python爬虫中常用的库。requests库用于发送HTTP请求,而BeautifulSoup库用于解析HTML。
接着,我们定义了起始URL和起始页码。在这个示例中,我们假设起始URL为’https://www.example.com/page/1’,起始页码为1。
然后,我们使用一个while循环来不断发送请求并解析HTML。在每次循环中,我们首先使用requests库发送GET请求,获取网页的HTML代码。然后,我们使用BeautifulSoup库解析HTML代码,得到一个BeautifulSoup对象。
在处理数据之后,我们查找下一页的链接。在这个示例中,我们假设下一页的链接是一个class为’next-page’的a标签。如果存在下一页的链接,我们就更新URL和页码,继续下一次循环。否则,我们退出循环。
需要注意的是,这个示例代码中的处理数据部分并没有具体实现,因为不同的网站需要不同的处理方式。在实际爬虫中,我们需要根据具体情况来编写处理数据的代码。