python爬虫代码简单示例

python
import requests from bs4 import BeautifulSoup # 定义要爬取的目标网页 URL url = 'https://example.com' # 发送 HTTP 请求 response = requests.get(url) # 检查响应状态码是否为 200 (成功) if response.status_code == 200: # 使用 BeautifulSoup 解析 HTML 内容 soup = BeautifulSoup(response.text, 'html.parser') # 从页面中提取需要的信息,比如所有的链接 links = soup.find_all('a') # 打印所有链接 for link in links: print(link.get('href')) else: print('Failed to retrieve the webpage.')

上述代码的功能是获取指定网页的内容,解析其中的 HTML 并提取所有的链接,然后打印这些链接。您可以根据自己的需求修改网页地址和提取信息的方法。爬取网页时请务必

合法性和道德性: 确保你的爬虫活动是合法的并

请求头: 有些网站可能要求你的爬虫模拟浏览器行为。你可以通过设置请求头来模拟浏览器的用户代理等信息。例如:

python
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(url, headers=headers)

异常处理: 在网络爬虫中,很多情况下都可能发生异常。为了提高代码的稳定性,建议使用适当的异常处理机制,如 try-except 语句。

python
try: response = requests.get(url) response.raise_for_status() # 检查是否有错误的响应 except requests.exceptions.HTTPError as errh: print ("HTTP Error:",errh) except requests.exceptions.ConnectionError as errc: print ("Error Connecting:",errc) except requests.exceptions.Timeout as errt: print ("Timeout Error:",errt) except requests.exceptions.RequestException as err: print ("Something went wrong:",err)

存储数据: 爬取的数据可以存储到本地文件或数据库中,以便后续分析和使用。

限速: 避免对目标服务器造成不必要的负担,可以在爬取过程中设置适当的请求间隔,以模拟人的行为,也可以防止被网站封禁 IP。