python电影数据爬取的代码

以下是一个简单的Python电影数据爬取代码示例:

import requests
from bs4 import BeautifulSoup

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# 请求URL
url = 'https://movie.douban.com/top250'

# 发送请求
response = requests.get(url, headers=headers)

# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 获取电影列表
movie_list = soup.find_all('div', class_='item')

# 遍历电影列表
for movie in movie_list:
    # 获取电影名称
    title = movie.find('span', class_='title').text

    # 获取电影评分
    rating = movie.find('span', class_='rating_num').text

    # 获取电影评价人数
    rating_num = movie.find('div', class_='star').find_all('span')[3].text

    # 获取电影导演和演员信息
    info = movie.find('div', class_='bd').p.text.strip()

    # 输出电影信息
    print('电影名称:', title)
    print('电影评分:', rating)
    print('评价人数:', rating_num)
    print('导演和演员:', info)
    print('------------------------')

这个代码使用了requests和BeautifulSoup库来发送HTTP请求和解析HTML。它首先设置了请求头,然后发送请求并解析HTML。接下来,它找到了电影列表,并遍历了每个电影。对于每个电影,它获取了电影名称、评分、评价人数和导演和演员信息,并将它们输出到控制台。

接下来我会。

在上面的代码中,我们只是简单地获取了电影的名称、评分、评价人数和导演和演员信息。但是,如果你想获取更多的电影信息,比如电影的类型、上映时间、剧情简介等等,你需要进一步解析HTML页面并提取所需的信息。

以下是一个更复杂的示例代码,它可以获取电影的名称、评分、评价人数、导演和演员信息、类型、上映时间和剧情简介:

import requests
from bs4 import BeautifulSoup

# 设置请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

# 请求URL
url = 'https://movie.douban.com/top250'

# 发送请求
response = requests.get(url, headers=headers)

# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 获取电影列表
movie_list = soup.find_all('div', class_='item')

# 遍历电影列表
for movie in movie_list:
    # 获取电影名称
    title = movie.find('span', class_='title').text

    # 获取电影评分
    rating = movie.find('span', class_='rating_num').text

    # 获取电影评价人数
    rating_num = movie.find('div', class_='star').find_all('span')[3].text

    # 获取电影导演和演员信息
    info = movie.find('div', class_='bd').p.text.strip()

    # 获取电影详情页URL
    detail_url = movie.find('div', class_='hd').a['href']

    # 发送电影详情页请求
    detail_response = requests.get(detail_url, headers=headers)

    # 解析电影详情页HTML
    detail_soup = BeautifulSoup(detail_response.text, 'html.parser')

    # 获取电影类型
    genre = detail_soup.find('span', property='v:genre').text

    # 获取电影上映时间
    release_date = detail_soup.find('span', property='v:initialReleaseDate').text

    # 获取电影剧情简介
    summary = detail_soup.find('span', property='v:summary').text.strip()

    # 输出电影信息
    print('电影名称:', title)
    print('电影评分:', rating)
    print('评价人数:', rating_num)
    print('导演和演员:', info)
    print('类型:', genre)
    print('上映时间:', release_date)
    print('剧情简介:', summary)
    print('------------------------')

这个代码与之前的代码类似,但是它还发送了电影详情页的请求,并解析了电影详情页的HTML。然后,它获取了电影的类型、上映时间和剧情简介,并将它们输出到控制台。

需要注意的是,这个代码只是一个示例,你需要根据具体的网站和页面结构来修改代码以获取所需的信息。同时,你也需要注意网站的反爬虫机制,避免被封IP或者被禁止访问。