对豆瓣数据进行分析后发现,这些演员与烂片显著相关

浏览: 2039

image.png

国产电影、电视剧市场欣欣向荣,可一直佳片难求。攒论文搬砖之余,我爬取了豆瓣电影上的相关数据进行了分析,想知道我国近些年来,影视作品质量如何,哪些演员一直在烂片的坑里越陷越深。

数据抓取规则就是把2000年到2016年的豆瓣电影条目里有“中国”标签的全薅下来,事后再对数据进行相应的清洗,比如剔除信息缺失严重的样本,筛掉综艺节目、脱口秀、晚会演唱会等。

时间有限,水平也有限,不敢说我抓取到的数据覆盖了该时段所有的影视作品,所以,就假设我的数据是对总体的一个简单随机抽样吧,也不指着这个数据发paper,玩玩呗。

1. 国产影视作品平均质量一路下滑

首先根据样本数据画了个散点图,横轴表示时间,纵轴表示豆瓣评分,散点的大小表示该作品的评论人数,点越大,表明评论人数越多。红色曲线展示了2000年1月到2016年12月,每个月上映的所有作品平均分的走向。

image.png

从这张图可以明显看出,2000年到2016年,国产影视作品的平均分走向是曲折的、迂回的,但总体趋势是倒退的、下降的。

纵然,以豆瓣的平均分作为每个时段的评价指标有很大的局限性和片面性。对于观众而言,一个月即使烂片扎堆,只要还有一部不错的作品,人们就不会对这个月的观影体验打太低的分。不过,平均分作为一种总体评价指标也有重要的可取之处,至少它会提醒我,这个月真的有很多烂片。

2. 限制级题材片水平有待提高

豆瓣上的电影都会有相应的类型标签,在我抓取到的样本数据中,共有30个类别。下面我们就来看看平均得分最高和最低的五个类别吧。

话说,排名在上面的可以说Top,下面的可以说Bottom吗?我英语不好,请教下大家。

image.png

image.png

得分最高的5个类型是戏曲、纪录片、西部、短片、历史。天朝还是有很多优秀的纪录片和纪录片导演的,像前不久,范俭执导的《摇摇晃晃的人间》和王久良的《塑料王国》就在阿姆斯特丹纪录片电影节上获奖。

另外,中国历史题材的电视剧也有不少佳作,《大秦帝国》、《大明王朝1566》、《康熙王朝》、《走向共和》、《大宅门》等在豆瓣上都有很好的口碑。导演用心、剧本扎实、演员有实力,评价自然不会差。

得分最低的5个类型是灾难、冒险、恐怖、情色、惊悚。个人感觉,上世纪八九十年代,中国大陆有很多恐怖片确实蛮吓人的,之前网上流传的89年版的封神榜也是极其渗人。

3. 最受关注的演员、导演

我把每位演员参演的所有作品的评价人数进行累加,得到的评价人数之和就是所谓的“关注热度”。


在累加的过程中,每部作品对所有参演演员的权重都是一样的,也就是说不区分主角和配角。当然,这种计算方法有值得商榷之处,因为你当时看这部片子时只是冲着你爱豆去的,并不care其他演员,不过,你必须承认的一点是,他们确实与你混了个脸熟。

如果把“关注热度”改成“作品受关注热度”应该就没有问题了,前者侧重于演员本身,后者侧重于该演员参演的作品。或者,可以把主演一栏的前两名或前四名演员作为“主演”,赋予更高的权重再计算“关注热度”。

下图列出了最受关注的演员前20名,同时列出了其参演的所有影视作品的平均得分。

image.png

最受关注的演员前5名是,林雪、黄秋生、陈坤、刘德华、古天乐。林雪这个名字,乍一听可能陌生,但他那张脸,你应该再熟悉不过了。

就是他。

image.png

导演方面,冯小刚、刘伟强、麦兆辉、杜琪峰、张艺谋是最受关注的5位导演。演员林雪正好是杜琪峰执导影片中的常客,导演的作品如此受关注,演员自然也沾光。

image.png

在列出的这20位导演中,姜文、王家卫、宁浩的作品平均得分最高。又要看的人多,还要大家都说好,确实不是件容易的事呢。

4.  到底谁演了烂片

描述完了,就想跑个回归。

线性模型中以豆瓣评分作为因变量,另外再加俩logistic模型,根据豆瓣评分划定下“及格线”和“烂片”标准。

在我的样本中,豆瓣评分均分是6.25,那么就以6.25分作为及格线,得分大于6.25分的作品才算及格。

但把得分低于或等于6.25分的作品称作烂片似乎有点严苛,所以我以平均分减去一个标准差的结果(4.29)作为划定烂片的标准。

根据个人的兴趣和喜好,我加入了以下导演、演员和其他控制变量。

image.png

在导演和演员变量方面,黄晓明、杨洋、吕中获得了在三个模型中都显著的殊荣。不过吕中老师的在三个模型中估计系数的符号与另外两位演员刚好是相反的。

以黄晓明为例,他在OLS模型中的估计系数为-0.557,在0.05的水平上显著,这表示在其他条件都不改变的情况下,一个影视作品若有黄教主参演,那么它的豆瓣评分将平均降低0.557分。剩下两个模型不解释了。

杨洋同学同理,不再赘述。值得一说的是,吕中老师在模型中的估计系数刚好与其他两位演员相反,这表示,一个影视作品若有吕中老师参演,那么它的评分将平均提高0.73分,同样根据剩下两个模型,我们也可以判断,吕中老师参演的作品其豆瓣得分更有可能在及格线以上,以及更不可能成为烂片。

所以,在我选取的这些演员中,与烂片显著相关,以及参演作品得分明显较低的演员有:黄晓明、杨洋、陈学冬、杨颖、范冰冰等。

而参演作品豆瓣评分明显较高的演员有:吕中、倪大红、陈宝国、陈道明等。

当然,这里我们不能进行因果推断,即认为某某参演的电影或电视剧就有可能成为烂片,以上分析只是体现了一种相关性,也就是说在既定事实中,某某参演的作品确实评分较低,但这种低评分或许有其他原因导致也未可知。:)

在电脑上啪啪啪了一下午,分析极其不严谨,仅仅是脑洞之作,欢迎大家指正。



推荐 2
本文由 EasyCharts 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

1 个评论

感谢分享,想请问下,如何解决豆瓣反爬虫措施呢,我使用了代理,却依然被封。

要回复文章请先登录注册