python爬虫翻页代码

以下是一个简单的Python爬虫翻页代码示例:

import requests
from bs4 import BeautifulSoup

url = 'https://www.example.com/page/1'
page = 1

while True:
    # 发送请求
    response = requests.get(url)
    # 解析HTML
    soup = BeautifulSoup(response.text, 'html.parser')
    # 处理数据
    # ...

    # 判断是否有下一页
    next_page = soup.find('a', {'class': 'next-page'})
    if next_page:
        page += 1
        url = 'https://www.example.com/page/{}'.format(page)
    else:
        break

在这个示例中,我们首先定义了起始URL和起始页码。然后,我们使用一个while循环来不断发送请求并解析HTML。在处理数据之后,我们查找下一页的链接,如果存在则更新URL和页码,否则退出循环。

接下来我会详细解释这个示例代码的每一部分。

首先,我们导入了requests和BeautifulSoup库,这两个库是Python爬虫中常用的库。requests库用于发送HTTP请求,而BeautifulSoup库用于解析HTML。

接着,我们定义了起始URL和起始页码。在这个示例中,我们假设起始URL为’https://www.example.com/page/1’,起始页码为1。

然后,我们使用一个while循环来不断发送请求并解析HTML。在每次循环中,我们首先使用requests库发送GET请求,获取网页的HTML代码。然后,我们使用BeautifulSoup库解析HTML代码,得到一个BeautifulSoup对象。

在处理数据之后,我们查找下一页的链接。在这个示例中,我们假设下一页的链接是一个class为’next-page’的a标签。如果存在下一页的链接,我们就更新URL和页码,继续下一次循环。否则,我们退出循环。

需要注意的是,这个示例代码中的处理数据部分并没有具体实现,因为不同的网站需要不同的处理方式。在实际爬虫中,我们需要根据具体情况来编写处理数据的代码。