学进去-教育应平等而普惠
试题
类型:操作题
难度系数:0.40
所属科目:高中信息技术
小林同学利用爬虫技术爬取了当日的热搜数据,利用数据处理知识,得到了最近的热词(热搜关键词),并做了微博热词前十的柱形图。

(1)将爬虫爬取的热搜数据存入文件“微博历史热搜数据.xls”中,部分界面如图a所示。小林用DataFrame读取其中数据,利用分词模块,对“标题”列进行分词,并把结果存储在文件“微博热词.csv”中,部分界面如图b所示。实现上述功能的Python程序如下,请在划线处填入合适的代码。
#导入模块,读取文件保存在变量df中,代码略
text=""
for i in df.index:
     text + = str (       )
seg_list=jieba.cut(text)#默认模式分词
tl="\n".join(seg_list)
print("默认模式: ",t1)#输出分词结果
#t1结果保存至“微博热词.csv”,代码略
(2)小林想用数据处理的办法来统计热词的出现次数,然后统计出热度最高的前十个热词,如图c所示,并绘制如图d所示的柱形图。请在划线处填入合适的代码。

import pandas as pd
import matplotlib.pyplot as plt
file=open("微博热词.csv",encoding="utf-8")
hot_word=[]
for item in file:
     word=item.split("\n")[0]
     if len(word)==1:
          continue
     hot_word.append(word)
data={"热词top10":hot_word,"次数":1}
df=pd.DataFrame(data,columns=data.keys())
#分组后统计非空数据项个数
df_g=②_____________
df_sort=df_g.sort_values("次数",ascending=False)
#设置图像的标题、坐标轴、图例等格式,代码略
plt.bar ( ③_____________,label="热词次数")
plt.show()
print(df_sort[0:10])
编辑解析赚收入
收藏
|
有奖纠错

同类型试题

优质答疑

y = sin x, x∈R, y∈[–1,1],周期为2π,函数图像以 x = (π/2) + kπ 为对称轴
y = arcsin x, x∈[–1,1], y∈[–π/2,π/2]
sin x = 0 ←→ arcsin x = 0
sin x = 1/2 ←→ arcsin x = π/6
sin x = √2/2 ←→ arcsin x = π/4
sin x = 1 ←→ arcsin x = π/2

用户名称
2019-09-19

y = sin x, x∈R, y∈[–1,1],周期为2π,函数图像以 x = (π/2) + kπ 为对称轴
y = arcsin x, x∈[–1,1], y∈[–π/2,π/2]
sin x = 0 ←→ arcsin x = 0
sin x = 1/2 ←→ arcsin x = π/6
sin x = √2/2 ←→ arcsin x = π/4
sin x = 1 ←→ arcsin x = π/2

用户名称
2019-09-19
我要答疑
编写解析
解析:

奖学金将在审核通过后自动发放到帐

提交
我要答疑
我要答疑:
提交