Python：批量爬取弹幕（腾讯视频）并制作词云图_ZNDS问答

valenyl

一、爬取弹幕
从视频中找一条弹幕，搜索danmu（F12--全部--JS），排序找到最上面一条（打开所有链接发现danmu的区别）
# 1.插入模块
import csv
import requests
import pandas as pd

# 2. 发送请求
headers = {
&#39;user-agent&#39;: &#39;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.83 Safari/537.36&#39;
}
for page in range(15, 15000, 30): #发现弹幕不同，最上面的15开始（到15000 peroid-30就换一台）/ 链接删掉无用的call_back/timestamp=后面也需要修改page）
url = f&#39;https://mfm.video.qq.com/danmu?otype=json&target_id=7712619175%26vid%3Dk0042f69enx&session_key=0%2C420%2C1648389006&timestamp={page}&#39;
response = requests.get(url=url, headers=headers)
json_data = response.json()
print(response)

# 3.数据解析预览里面看套娃
for comment in json_data[&#39;comments&#39;]:
      commentid = comment[&#39;commentid&#39;]
      uservip_degree = comment[&#39;uservip_degree&#39;]
      content = comment[&#39;content&#39;]

      with open(&#39;腾讯视频弹幕.csv&#39;, encoding=&#39;utf-8-sig&#39;, mode=&#39;a&#39;, newline=&#39;&#39;) as f:
         csv_writer = csv.writer(f)
         csv_writer.writerow([commentid, uservip_degree, content])

二、制作词云图（用jupyter notebook操作）
下面这段代码成功过，大家可以试试～
import jieba
from pyecharts.charts import WordCloud
import pandas as pd
from pyecharts import options as opts

wordlist = []
data = pd.read_csv(&#39;腾讯视频弹幕.csv&#39;)[&#39;content&#39;]
data

data_list = data.values.tolist()
data_str = &#39;&#39;.join(data_list)
words = jieba.lcut(data_str)

for word in words:
if len(word)>1:
      wordlist.append({&#39;word&#39;:word,&#39;count&#39;:1})
df = pd.DataFrame(wordlist)

dfword = df.groupby(&#39;word&#39;)[&#39;count&#39;].sum()
dfword2 = dfword.sort_values(ascending=False)
dfword2

dfword3 = pd.DataFrame(dfword2.head(200),columns=[&#39;count&#39;])

dfword3[&#39;word&#39;] = dfword3.index
dfword3

word = dfword3[&#39;word&#39;].tolist()
count = dfword3[&#39;count&#39;].tolist()

a = [list(z) for z in zip(word, count)]
c = (
WordCloud()
.add(&#39;&#39;, a, word_size_range=[10, 50], shape=&#39;circle&#39;)
.set_global_opts(title_opts=opts.TitleOpts(title=&#34;词云图&#34;))
)
c.render_notebook()Python爬取腾讯视频弹幕：采集《雪中悍刀行》弹幕,并且做词云图可视化分析_哔哩哔哩_bilibili

三、制作多种多样的词云图
1.  一份待分析的文本数据，由于文本数据都是一段一段的，所以第一步要将这些句子或者段落划分成词，这个过程称之为分词，需要用到Python中的分词库jieba
2. 分词之后，就需要根据分词结果生成词云，这个过程需要用到wordcloud库
3. 最后需要将生成的词云展现出来，用到大家比较熟悉的matplotlib

		自动登录	找回密码
密码			立即注册

Python：批量爬取弹幕（腾讯视频）并制作词云图

相关问题更多>

最新回答