开发环境

Python 3.8
Pycharm 2021.2 专业版

模块使用

csv 模块把爬取下来的资料保存表格里面的内置模块
requests >>> pip install requests 资料请求模块
parsel >>> pip install parsel 资料决议模块 css选择器去提取资料

对于本篇文章有疑问的同学可以加【资料白嫖、解答交流群：910981974】

爬虫代码实作步骤:

汇入所需模块
发送请求, 用python代码模拟浏览器发送请求
决议资料, 提取我们想要资料内容
多页爬取
保存资料, 保存csv表格里面

1. 汇入所需模块

import requests  # 资料请求模块 第三方模块 需要 pip install requests
import parsel  # 资料决议模块 第三方模块 需要 pip install parsel
import csv  # 保存csv表格资料模块 内置模块
import time  # 时间模块

2. 发送请求, 用python代码模拟浏览器发送请求

headers 请求头作用就是python代码伪装成浏览器对于服务器发送请求

User-Agent 用户代理浏览器的基本身份标识

标题中无效的回传字符或前导空格：User-Agent 不要留有空格

通过requests模块里面get请求方法，对于url地址发送请求，并且携带上面header请求头自变量，最后用response变量接识训传资料

url = f'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-{page}'
# headers 请求头 字典资料型别
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}
response = requests.get(url=url, headers=headers)

3. 决议资料, 提取我们想要资料内容

selector = parsel.Selector(response.text)  # 对于获取到的html字符串资料进行转换 selector 物件
# css选择器 就是根据标签属性提取相应的资料
lis = selector.css('ul.bang_list li')
for li in lis:
    # .name 定位 class类名name标签 a 标签 attr() 属性选择器 取a标签里面title属性 get() 获取资料
    title = li.css('.name a::attr(title)').get()  # 书名
    # 获取标签里面文本资料 直接text
    comment = li.css('.star a::text').get().replace('条评论', '')  # 评论
    recommend = li.css('.star .tuijian::text').get().replace('推荐', '')  # 推荐
    author = li.css('.publisher_info a:nth-child(1)::attr(title)').get()  # 作者
    publish = li.css('div:nth-child(6) a::text').get()  # 出版社
    price_n = li.css('.price .price_n::text').get()  # 售价
    price_r = li.css('.price .price_r::text').get()  # 原价
    price_s = li.css('.price .price_s::text').get()  # 折扣
    price_e = li.css('.price .price_e .price_n::text').get()  # 电子书价格
    href = https://www.cnblogs.com/qshhl/p/li.css('.name a::attr(href)').get()  # 详情页
    dit = {
        '书名': title,
        '评论数': comment,
        '推荐量': recommend,
        '作者': author,
        '出版社': publish,
        '售价': price_n,
        '原价': price_r,
        '折扣': price_s,
        '电子书价格': price_e,
        '详情页': href,
    }
    csv_writer.writerow(dit)  # 资料保存到csv
    print(title, comment, recommend, author, publish, price_n, price_r, price_s, price_e, href, sep=' | ')

4. 多页爬取

for page in range(1, 26):
    # 字符串格式化方法
    print(f'正在爬取第{page}页的资料内容')
    time.sleep(1.5)
    url = f'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-{page}'

5. 保存资料, 保存csv表格里面

# 创建打开一个档案 进行保存
f = open('当当图书.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '书名',
    '评论数',
    '推荐量',
    '作者',
    '出版社',
    '售价',
    '原价',
    '折扣',
    '电子书价格',
    '详情页',
])
csv_writer.writeheader()  # 写入表头

运行代码，效果如下图

资料可视化

汇入所需模块

import pandas as pd
from pyecharts.charts import *
from pyecharts.globals import ThemeType#设定主题
from pyecharts.commons.utils import JsCode
import pyecharts.options as opts

汇入资料

df = pd.read_csv('书籍信息.csv', encoding='utf-8', engine='python')
df.head()

可视化

书籍总体价格区间

pie1 = (
    Pie(init_opts=opts.InitOpts(theme='dark',width='1000px',height='600px'))
    
    .add('', datas_pair_1, radius=['35%', '60%'])
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%"))
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="当当网书籍\n\n原价价格区间", 
            pos_left='center', 
            pos_top='center',
            title_textstyle_opts=opts.TextStyleOpts(
                color='#F0F8FF', 
                font_size=20, 
                font_weight='bold'
            ),
        )
    )
    .set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8', '#00BFFF', '#7FFFAA'])
)
pie1.render_notebook()

pie1 = (
    Pie(init_opts=opts.InitOpts(theme='dark',width='1000px',height='600px'))
    
    .add('', datas_pair_2, radius=['35%', '60%'])
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%"))
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="当当网书籍\n\n售价价格区间", 
            pos_left='center', 
            pos_top='center',
            title_textstyle_opts=opts.TextStyleOpts(
                color='#F0F8FF', 
                font_size=20, 
                font_weight='bold'
            ),
        )
    )
    .set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8', '#00BFFF', '#7FFFAA'])
)
pie1.render_notebook()

各个出版社书籍数量柱状图

bar=(
    Bar(init_opts=opts.InitOpts(height='500px',width='1000px',theme='dark'))
    .add_xaxis(counts.index.tolist())
    .add_yaxis(
        '出版社书籍数量',
        counts.values.tolist(),
        label_opts=opts.LabelOpts(is_show=True,position='top'),
        itemstyle_opts=opts.ItemStyleOpts(
            color=JsCode("""new echarts.graphic.LinearGradient(
            0, 0, 0, 1,[{offset: 0,color: 'rgb(255,99,71)'}, {offset: 1,color: 'rgb(32,178,170)'}])
            """
            )
        )
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title='各个出版社书籍数量柱状图'),
            xaxis_opts=opts.AxisOpts(name='书籍名称',
            type_='category',                                           
            axislabel_opts=opts.LabelOpts(rotate=90),
        ),
        yaxis_opts=opts.AxisOpts(
            name='数量',
            min_=0,
            max_=29.0,
            splitline_opts=opts.SplitLineOpts(is_show=True,linestyle_opts=opts.LineStyleOpts(type_='dash'))
        ),
        tooltip_opts=opts.TooltipOpts(trigger='axis',axis_pointer_type='cross')
    )

    .set_series_opts(
        markline_opts=opts.MarkLineOpts(
            data=[
                opts.MarkLineItem(type_='average',name='均值'),
                opts.MarkLineItem(type_='max',name='最大值'),
                opts.MarkLineItem(type_='min',name='最小值'),
            ]
        )
    )
)
bar.render_notebook()

书籍评论数最高Top20

bar=(
    Bar(init_opts=opts.InitOpts(height='500px',width='1000px',theme='dark'))
    .add_xaxis(price_top.index.tolist())
    .add_yaxis(
        '书籍单价',
        price_top.values.tolist(),
        label_opts=opts.LabelOpts(is_show=True,position='top'),
        itemstyle_opts=opts.ItemStyleOpts(
            color=JsCode("""new echarts.graphic.LinearGradient(
            0, 0, 0, 1,[{offset: 0,color: 'rgb(255,99,71)'}, {offset: 1,color: 'rgb(32,178,170)'}])
            """
            )
        )
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title='单价最高的书籍详细柱状图'

Python爬取当当网书籍资料，并资料可视化展示

开发环境

模块使用

对于本篇文章有疑问的同学可以加【资料白嫖、解答交流群：910981974】

爬虫代码实作步骤:

1. 汇入所需模块

2. 发送请求, 用python代码模拟浏览器发送请求

3. 决议资料, 提取我们想要资料内容

4. 多页爬取

5. 保存资料, 保存csv表格里面

运行代码，效果如下图

资料可视化

汇入所需模块

汇入资料

可视化

书籍总体价格区间

各个出版社书籍数量柱状图

书籍评论数最高Top20

0 评论

发表评论

最新文章

斥350亿美元建新航厦，迪拜将打造世界最大机场

Windows系统安装最详细教程，基于U盘方式

分手后仍难以与前任断绝联系的三大星座，纠缠不清的情感纠葛！

优秀的女人，必须坚持的11个生活习惯！

此刻，像宋人一样热爱生活！

唐诗中描写爱情的6句诗，最深的情遇到最美的诗！

随机推荐

JDK 商用正式免费、Log4j2 爆核弹级漏洞、LayUI 下线...2021 发生的 10 件大事！！

单字母加句号，即中间名首字母（如果是单字母加句号，如果不正常就加句号）

MongoDB常用命令（2）

从同一个父类的另一个类访问物件

将div的字体大小作为该div父级大小的百分比

MicrosoftSQLServer：使用生成的名称检查约束

热门分类

热门标签

JDK 商用正式免费、Log4j2 爆核弹级漏洞、LayUI 下线...2021 发生的 10 件大事！！

单字母加句号，即中间名首字母（如果是单字母加句号，如果不正常就加句号）

MongoDB常用命令（2）

Python爬取当当网书籍资料，并资料可视化展示

开发环境

模块使用

对于本篇文章有疑问的同学可以加【资料白嫖、解答交流群：910981974】

爬虫代码实作步骤:

1. 汇入所需模块

2. 发送请求, 用python代码模拟浏览器发送请求

3. 决议资料, 提取我们想要资料内容

4. 多页爬取

5. 保存资料, 保存csv表格里面

运行代码，效果如下图

资料可视化

汇入所需模块

汇入资料

可视化

书籍总体价格区间

各个出版社书籍数量柱状图

书籍评论数最高Top20

PythonPandas熊猫相关性一列与全部

Flutter 项目实战 拍照 | 打开相册...

0 评论

发表评论

最新文章

随机推荐

热门分类

热门标签

Flutter 项目实战拍照 | 打开相册...