前言

最近已经播完第一季的电视剧《雪中悍刀行》，从播放量就可以看出观众对于这部剧的期待，总播放量达到50亿，可让人遗憾的是，豆瓣评分只有5.7，甚至都没有破6，

很多人会把这个剧和《庆余年》做对比，因为主创班底相同

400余万字的同名小说曾被捧为网文界里的“名著”，不少粉丝早就对跨界改编有所期待，剧版的主创班底、出品方与2019年的爆款剧《庆余年》相同则放大了这份期待，然而《雪中悍刀行》播出后，书粉的怒火蔓延到了各类讨论场合，

今天就来采集这部剧的一部分视频弹幕，看看观众都说了啥，为什么播放量高，口碑却低

对于本篇文章有疑问的同学可以加【资料白嫖、解答交流群：910981974】

知识点介绍

requests模块的使用
pandas保存表格资料
pyecharts做词云图可视化

环境介绍

python 3.8
pycharm
requests >>> pip install requests
pyecharts >>> pip install pyecharts

代码实作

1. 汇入模块

import re

import requests     # 发送网络请求
import pandas as pd # 保存资料

2. 发送网络请求

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
}
# 构建一个串列储存资料
data_list = []
for page in range(15, 1500, 30):
    url = f'https://mfm.video.qq.com/danmu?otype=json&target_id=7626435152%26vid%3Dp0041oidttf&session_key=0%2C174%2C1642248894&timestamp={page}'
    esponse = requests.get(url=url, headers=headers)

3. 获取资料弹幕内容

json_data = https://www.cnblogs.com/qshhl/p/response.json()

<Response [200]>: 告诉我们回应成功

4. 决议资料(筛选资料) 提取想要的一些内容不想要的忽略掉

comments = json_data['comments']
print(comments)
for comment in comments:
    data_dict = {}
    data_dict['commentid'] = comment['commentid']
    content = comment['content']
    content = re.sub(r'[\x0e\xa0]', '', content)

    data_dict['content'] = content
    data_dict['opername'] = comment['opername']
    print(data_dict)
    data_list.append(data_dict)

5. 保存资料

df = pd.DataFrame(data_list)
# 乱码, 指定编码 为 utf-8 或者是 gbk 或者 utf-8-sig
df.to_csv('data.csv', encoding='utf-8-sig')

6. 词云图可视化

import jieba
from pyecharts.charts import WordCloud
import pandas as pd
from pyecharts import options as opts

wordlist = []
data = pd.read_csv('data.csv')['content']
data

a = [list(z) for z in zip(word, count)]
c = (
    WordCloud()
    .add('', a, word_size_range=[10, 50], shape='circle')
    .set_global_opts(title_opts=opts.TitleOpts(title="词云图"))
)
c.render_notebook()

Python采集《雪中悍刀行》视频弹幕,并且做词云图可视化分析

前言

对于本篇文章有疑问的同学可以加【资料白嫖、解答交流群：910981974】

知识点介绍

环境介绍

代码实作

1. 汇入模块

2. 发送网络请求

3. 获取资料弹幕内容

4. 决议资料(筛选资料) 提取想要的一些内容不想要的忽略掉

5. 保存资料

6. 词云图可视化

0 评论

发表评论

最新文章

斥350亿美元建新航厦，迪拜将打造世界最大机场

Windows系统安装最详细教程，基于U盘方式

分手后仍难以与前任断绝联系的三大星座，纠缠不清的情感纠葛！

优秀的女人，必须坚持的11个生活习惯！

此刻，像宋人一样热爱生活！

唐诗中描写爱情的6句诗，最深的情遇到最美的诗！

随机推荐

IntelliJ自动格式化会破坏AngularSass档案

Python 的元类设计起源自哪里？

Golang项目的配置管理——Viper简易入门配置

无法显示使用document.createElement创建的不同影像

01 Java基础

flowable 启动流程的三种方式

热门分类

热门标签

IntelliJ自动格式化会破坏AngularSass档案

Python 的元类设计起源自哪里？

Golang项目的配置管理——Viper简易入门配置

Python采集《雪中悍刀行》视频弹幕,并且做词云图可视化分析

前言

对于本篇文章有疑问的同学可以加【资料白嫖、解答交流群：910981974】

知识点介绍

环境介绍

代码实作

1. 汇入模块

2. 发送网络请求

3. 获取资料 弹幕内容

4. 决议资料(筛选资料) 提取想要的一些内容 不想要的忽略掉

5. 保存资料

6. 词云图可视化

减小荧屏时如何将flex子元素放在开头？

一个精壮的代购骗子被我用Python彻底征服...

0 评论

发表评论

最新文章

随机推荐

热门分类

热门标签

3. 获取资料弹幕内容

4. 决议资料(筛选资料) 提取想要的一些内容不想要的忽略掉