为什么豆瓣评分权威(豆瓣评分排行榜)

当前位置:80知识网 > 生活常识 > 时间:2023-02-19 16:45

为什么豆瓣评分权威(豆瓣评分排行榜)

上次我们对豆瓣 TOP250 电影进行了抓取,今天我们就对这批数据分析一波,看看可以找到什么结论。

今天主要分析以下几个点。

什么类型的电影上榜数量最多。

上榜数量最多的国家和地区是哪里。

上榜次数最多的导演和演员都有谁。

电影的排名和评论人数以及评分人数有没有关系。

上榜电影中人们更喜欢用哪些标签给电影做标注。

数据清洗

一般来说我们得到的数据都不是可以直接拿来现用的,因为里面可能存在着空值,重复值,异常值等各种情况。这些统称为脏数据,所以我们第一步就要对脏数据做清洗,将其转化为合格数据。

我们获取到的数据都是以 json 串的格式存放在一个 txt 文件中。先将这些数据读取出来,放入到 DataFrame 中去。

数据格式如下

{index: 1,title:肖申克的救赎 The Shawshank Redemption,url:http://movie.douban.com/subject/1292052/,director:弗兰克·德拉邦特,actor:蒂姆·罗宾斯摩根·弗里曼鲍勃·冈顿威廉姆·赛德勒克兰西·布朗吉尔·贝罗斯马克·罗斯顿詹姆斯·惠特摩杰弗里·德曼拉里·布兰登伯格尼尔·吉恩托利布赖恩·利比大卫·普罗瓦尔约瑟夫·劳格诺祖德·塞克利拉保罗·麦克兰尼芮妮·布莱恩阿方索·弗里曼V·J·福斯特弗兰克·梅德拉诺马克·迈尔斯尼尔·萨默斯耐德·巴拉米布赖恩·戴拉特唐·麦克马纳斯,country:美国,year:1994,type:剧情犯罪,comments:全部 340688 条,runtime:142分钟,average:9.7,votes:1885235,rating_per:85.0.4%,tags:经典励志信念自由人性人生美国希望}

首先导入我们今天需要用到的包。

importnumpy as npimportpandas as pdimportmatplotlib.pyplot as pltimportmatplotlib
from wordcloudimportWordCloudcontent=[]withopen(file) as f:line=f.readline()whileline:line=eval(line)content.append(line)line=f.readline()d=pd.DataFrame(content)

下面来看看数据的基本信息。

print(d.info)
print(len(d.title.unique()))

结果如下



猜你喜欢