最简单的爬虫代码 python

以下是一个简单的Python爬虫代码,用于获取指定网站的HTML内容:

import requests

url = 'https://www.example.com'
response = requests.get(url)

print(response.text)

这个代码使用了Python的requests库来发送HTTP请求并获取响应。它将指定的URL传递给requests.get()函数,并将响应存储在response变量中。最后,它打印出响应的HTML内容。

以下是一个更完整的Python爬虫代码,它可以从指定的网站中获取所有的链接,并将它们存储在一个列表中:

import requests
from bs4 import BeautifulSoup

url = 'https://www.example.com'
response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')
links = []

for link in soup.find_all('a'):
    href = link.get('href')
    if href and 'http' in href:
        links.append(href)

print(links)

这个代码使用了Python的requests库和BeautifulSoup库。它首先发送HTTP请求并获取响应,然后使用BeautifulSoup库将响应解析为HTML文档。接下来,它遍历HTML文档中的所有链接,并将它们存储在一个列表中。最后,它打印出这个列表。

需要注意的是,这个代码只会获取所有以’http’开头的链接。如果你想获取其他类型的链接,可以根据需要修改代码。另外,需要注意的是,爬取网站的行为可能会违反网站的使用条款,因此在使用爬虫时需要谨慎。