python爬虫代码简单示例
pythonimport requests
from bs4 import BeautifulSoup
# 定义要爬取的目标网页 URL
url = 'https://example.com'
# 发送 HTTP 请求
response = requests.get(url)
# 检查响应状态码是否为 200 (成功)
if response.status_code == 200:
# 使用 BeautifulSoup 解析 HTML 内容
soup = BeautifulSoup(response.text, 'html.parser')
# 从页面中提取需要的信息,比如所有的链接
links = soup.find_all('a')
# 打印所有链接
for link in links:
print(link.get('href'))
else:
print('Failed to retrieve the webpage.')
上述代码的功能是获取指定网页的内容,解析其中的 HTML 并提取所有的链接,然后打印这些链接。您可以根据自己的需求修改网页地址和提取信息的方法。爬取网页时请务必
合法性和道德性: 确保你的爬虫活动是合法的并
请求头: 有些网站可能要求你的爬虫模拟浏览器行为。你可以通过设置请求头来模拟浏览器的用户代理等信息。例如:
pythonheaders = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
response = requests.get(url, headers=headers)
异常处理: 在网络爬虫中,很多情况下都可能发生异常。为了提高代码的稳定性,建议使用适当的异常处理机制,如 try-except 语句。
pythontry:
response = requests.get(url)
response.raise_for_status() # 检查是否有错误的响应
except requests.exceptions.HTTPError as errh:
print ("HTTP Error:",errh)
except requests.exceptions.ConnectionError as errc:
print ("Error Connecting:",errc)
except requests.exceptions.Timeout as errt:
print ("Timeout Error:",errt)
except requests.exceptions.RequestException as err:
print ("Something went wrong:",err)
存储数据: 爬取的数据可以存储到本地文件或数据库中,以便后续分析和使用。
限速: 避免对目标服务器造成不必要的负担,可以在爬取过程中设置适当的请求间隔,以模拟人的行为,也可以防止被网站封禁 IP。