最简单的爬虫代码 python
以下是一个简单的Python爬虫代码,用于获取指定网站的HTML内容:
import requests
url = 'https://www.example.com'
response = requests.get(url)
print(response.text)
这个代码使用了Python的requests库来发送HTTP请求并获取响应。它将指定的URL传递给requests.get()函数,并将响应存储在response变量中。最后,它打印出响应的HTML内容。
以下是一个更完整的Python爬虫代码,它可以从指定的网站中获取所有的链接,并将它们存储在一个列表中:
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
links = []
for link in soup.find_all('a'):
href = link.get('href')
if href and 'http' in href:
links.append(href)
print(links)
这个代码使用了Python的requests库和BeautifulSoup库。它首先发送HTTP请求并获取响应,然后使用BeautifulSoup库将响应解析为HTML文档。接下来,它遍历HTML文档中的所有链接,并将它们存储在一个列表中。最后,它打印出这个列表。
需要注意的是,这个代码只会获取所有以’http’开头的链接。如果你想获取其他类型的链接,可以根据需要修改代码。另外,需要注意的是,爬取网站的行为可能会违反网站的使用条款,因此在使用爬虫时需要谨慎。