python爬取网页代码
以下是一个简单的Python爬取网页代码示例:
import requests
url = 'https://www.example.com'
response = requests.get(url)
if response.status_code == 200:
print(response.text)
else:
print('Failed to retrieve page')
这个代码使用了Python的requests库来发送HTTP请求并获取网页内容。首先,我们定义了要爬取的网页URL。然后,我们使用requests.get()方法发送GET请求并将响应存储在response变量中。最后,我们检查响应的状态码是否为200,如果是,就打印出网页内容。如果不是,就打印出“Failed to retrieve page”。
接下来我会继续讲解Python爬取网页的代码。
在实际的爬虫开发中,我们通常需要对网页内容进行解析和处理。这时候,我们可以使用Python的第三方库,比如BeautifulSoup和lxml等。
下面是一个使用BeautifulSoup库解析网页的示例代码:
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com'
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.title.string
print(title)
else:
print('Failed to retrieve page')
这个代码与之前的代码类似,不同之处在于我们使用了BeautifulSoup库来解析网页内容。首先,我们导入了BeautifulSoup库。然后,我们使用BeautifulSoup()方法将网页内容转换为BeautifulSoup对象。接着,我们可以使用BeautifulSoup对象的各种方法来查找和提取网页中的数据。在这个示例中,我们提取了网页的标题,并打印出来。
除了BeautifulSoup,还有其他的Python库可以用来解析网页,比如lxml和html5lib等。这些库的使用方法略有不同,但基本思路是相似的。
Python爬取网页的代码可以分为两个部分:发送HTTP请求和解析网页内容。发送HTTP请求通常使用requests库,解析网页内容则可以使用BeautifulSoup、lxml等第三方库。