你好,B站人!——基于B站排行榜TOP100的数据可视化分析

发布时间:2021-04-01 浏览次数:1795

                                 小组成员:董智颖刘昕 唐佳琪


一、研究背景

哔哩哔哩也被称为Bilibili,简称为B站,于20096月创建,其前身为Mikufans视频分享网站,如今是一家是以泛二次元文化爱好者为目标用户的综合类视频弹幕社区和二次元社区。其早期以二次元内容和独特的弹幕分享功能聚集了一批热爱ACG文化的核心用户。随着B站的不断发展,逐渐加入了科技、教育、娱乐、鬼畜等视频内容,在原有视频功能基础上发展了直播、电商等业务。B站的内容品类扩大,用户圈层包含更广,业务也越来越多,逐渐从小众走向大众。B站致力于满足中国Z时代年轻人群的文化娱乐需求,是现在风靡于年轻人之间的视频弹幕网站,同时由于B站广告较少,观看体验极佳,又包罗万象,因此对用户有着不可抵挡的亲和力。

站内共十四个分区,几乎囊括了年轻一代所有的流行需要。从番剧到电竞,从泛知识到电子歌姬,从阿卡贝拉到说唱rap。弹幕狂欢已经成为B站独有的文化现象。

B站的内容主要分为三大类:由up主创作投稿的UGC内容(这也是贡献最多文化狂欢现象的主力部队),由B站出品的自制内容,通过版权购买获得播放权的内容(如电影、番剧等)。作为二次元爱好者的聚集地,作为国内最大的弹幕视频网站,B站的核心竞争力是那些优秀的视频创作者们,也称为up主。Up主所创作的UGC内容是目前的主流内容。

有句话说得好,“也许在B站,你能看到年轻人的复杂”。他们或许一边刷着鬼灭之刃、天官赐福;一边又看着风犬落泪,为说唱呐喊。转头在鬼畜区看《张三犯罪实录》,又会去认真听罗翔讲课,在评论区整理视频知识重点。不要轻易定义年轻人,你们原以为沉迷于娱乐、番剧的人们却可能在B站上学习各种知识。

那么在B站,到底什么类型的视频是最火的?我们又该如何定义视频的“火”呢?up主该怎样提升视频质量呢?我们基于B站全区TOP100排行榜的视频数据展开了我们的分析,通过对B7天数据及几个知名up主的年度视频数据进行了分析,为up主提升视频热度提供了可行性的建议。

二、数据来源

本文爬取了B20201131日至2020126日共7天的排行榜TOP100视频数据,包括视频标题、排名、播放数、弹幕数、作者名称、综合得分、分区、标签等变量。因投稿数、粉丝数、视频时常、个人认证缺失值较多,故删去这几个变量。其余变量均比较完整,不需进行处理。

.数据可视化

全站排行榜细分了14个板块,分别对应视频的主类别标签。通过统计板块内上榜视频的数据信息,我们可以找到不同类别视频的异同点。

7天各分区上榜次数进行加总,算出各分区上榜次数,从图1可以看出,上榜次数最多的为生活区、游戏区、动画区、知识区,其中生活区上榜次数最多,七天共上榜144次,同时游戏区上榜次数也占较大比例,共上榜121次。国创区因为7天内仅有1只视频上榜3次,所以比重约为0。由图还可以看出,鬼畜区上榜次数占比仅为3%,回顾B站靠二次元和鬼畜发家的历史,可以发现,目前B站的主流已经从动漫鬼畜转移到了生活游戏,现如今的用户越来越倾向于在B站寻找生活中的温暖,抑或游戏中的酣畅淋漓。

1 各分区上榜次数


从视频的总播放量来看,生活区板块位居第一,游戏、动画紧随其后,说明大部分B站用户仍然以消遣娱乐为主要目的。不过可以从其逐渐发展的知识、科技、资讯以及数码板块看到B站正在褪去原先的二次元属性,渐渐与科教文卫挂上了钩。

2 各分区总播放量


总弹幕数是可以用来有效衡量用户是否喜欢一个视频的维度,弹幕数是一个看似意义没那么大但实际却能反映很多的东西,就好比现在各个直播软件上的直播,其实弹幕数量能够作为真正反映实际观看人数的准确指标,像热度、关注数量等是平台可以修改的,并没有很大的意义,所以可以用弹幕数这个指标来分析一下B站上各个类型视频的受欢迎程度。

从图3可以看出,弹幕数最高的分区分别为生活、游戏、知识、时尚、美食,而国创区、舞蹈区、鬼畜区的弹幕数却远小于其他各区。

3 分区总弹幕量


通过对比弹幕数和播放数,我们可以发现发送弹幕的用户相对于观看人数来说比较少,一方面是因为发送弹幕需要通过会员测试成为会员,另一方面也是因为这样的互动需要用户投入更多的时间和精力。但也可以看出基本播放数较高的弹幕数也会很高,而时尚区的弹幕数相较于播放数而言有很大差异,这是因为时尚区包括了美妆、服饰、健身、T台、风尚标,通过对时尚区视频弹幕的分析,会发现尤其是对于健身视频,大家会频繁发送弹幕打卡记录自己的健身情况,从而使时尚区弹幕数很高。

同时也可以注意到,知识区播放数并没有很高,但其弹幕数却仅次于生活和游戏区。B站很多看似无厘头的内容,其实涉及了生理、物理、医学、地理等学科的知识。也许你永远也读不懂概率论、动力学,但化解成通俗的问题,谁都想要一探究竟。每天刷刷B站,各种各样的知识又增加了。谁也无法拒绝这份由求知欲驱动,而不是考试和分数驱动的学习状态。除了这些好玩的知识,也可以在B站认真地搞学习。而在枯燥的学习中,在B站和网友的弹幕互动无疑是快乐源泉。有疑问可以随时提出,看到不同意见还能理性交流,保持思维活跃,自然不会犯困。

B站用户与视频的互动方式多种多样,如投币、点赞、收藏、转发、评论。通过对比不同板块用户与视频的互动情况可以看出作为B站特有文化的“点赞、投币、收藏”已经成为用户看完视频后的主流互动行为。但这三者之间也有较大差异,从图4可以看出,点赞数高于投币数,投币数又高于收藏数。这是因为观众对up主的喜欢程度里面,三者的权重并不一样。观众执行操作付出的成本,愿意付出的成本越大,越会慎重执行该操作。点赞是弱认同,是随手发生的即刻行为,并且点赞者点赞操作不会显示在个人主页,所以点赞的心理负担是最轻的。硬币的作用是维系粉丝和up主之间的感情,并且视频收获的硬币总数的十分之一将作为本次硬币收入,为视频贡献权重,帮助视频提升排名上推荐和首页。所以硬币数能够很好反映各分区观众的忠实度。所以用户的投币是一种支付行为,愿意投币的往往都是各分区的忠实观众,受众群体比较稳定。收藏则反映出视频的价值,是对内容的认可,有重复观看或下次观看的预期,这也就能证明这个视频其本身价值所在。

生活区的点赞高于游戏区和动画区,但投币却低于游戏区和动画区,说明虽然大家都会观看生活区的视频并对高质量的视频点赞予以认可,但每个人还有自己更加钟爱的类型,往往会把硬币留给自己热爱的视频类型。各个区的忠实用户也会观看生活区的视频放松自我,但游戏区、动画区这类属性明确的分类往往只会有忠实观众活跃。

4 各分区互动情况


从图5可以看出游戏、动画、音乐的收藏数最多。目前有种说法是云游戏,可能用户在现实生活中的游戏水平不是很厉害,但通过看着别人玩游戏时流畅的操作和惊艳的战绩,自己可以在屏幕前获得满足感与愉悦感,另外对于很多游戏,大家会希望通过收藏up主的游戏视频作为游戏攻略,在自己游戏时进行学习。音乐的收藏数在各分区中也名列前茅,说明用户往往对于音乐视频会反复观看。同时可以发现知识区的收藏数也排前几,B站的知识区可以让每个无意间点开的同学不知不觉看完一小时的内容,刷完弹幕,第二天还准时来报道,对于用户而言,很多软件和技能,都是在B站上学习到的。硬核的干货总是到收藏夹吃灰,搞笑的科普又常常失去严谨和专业性。但是在B站,总有up主能让知识和有趣挂钩,能让用户反复观看学习收藏夹里的视频。

通过图5也可以看出,各个分区点赞、投币、收藏的比例几乎是一致的。其中同上面播放量、弹幕量一样,仍然是生活、游戏、动画占比最大,国创、娱乐、鬼畜占很小比例,生活区点赞投币收藏数都较高,但相对于点赞占比而言,投币收藏占比有所下降。可能的原因是生活区视频的受众较广,观众看完视频后会随手一赞,而视频比较日常,缺少反复观看的价值,并且每个人往往还会有自己更加钟爱的类型,会更加珍惜来之不易的硬币,不轻易投币。值得关注的的是时尚区的收藏数也是增加较多,与弹幕数有较大增长一致,可以看出虽然时尚区的观看人数较少,但愿意互动的用户很多,并且用户的忠诚度较高。

当用户点开一个B站视频,有时会在开始阶段,有时会在视频结束阶段,也有可能会在简介区域,看到求三连。三连可以算是up主的饭碗,是对视频最大的认可。

从图5可以看出,我们可以看到,虽然生活的点赞数远超其他区,但三连比例却不是很高,生活区上榜的视频往往是很多知名up主的日常生活分享,粉丝基数较大,观看人数相对而言较多,但硬币会留给其他质量更高有鲜明特色的分区视频。生活区的播放量基数很大,所以三连比例相对也会低一些。而时尚、舞蹈、音乐和动画的三连比例是最高的,这也说明了这四个分区视频的质量很高,并且有很忠实的观众,愿意为up主一键三连。

5 各分区三连情况


除了对数据进行截面分析,我们还进行了简单的时间序列分析,对于各分区在一周内的播放量变化进行简要分析,希望探讨周末与工作日的播放量是否有明显差别。

从图6可以看出,生活区和游戏区七天内的播放量虽然有波动,但一直位居榜首,再次证明了生活和游戏是目前B站的两大主流分区。考虑到第6天和第7天是周末,但各分区的播放量并没有太多波动,可以看出B站的用户基本上是工作日和周末都很活跃的,周末和工作日并没有明显差别。可能的原因是,B站的视频基本上时长都比较短,用户可以随时点开随时观看完一个视频,所以播放量并不会出现特别大的波动。

 

6 分区7天播放量时序图


此外,对上榜的up主进行数据的可视化。从图7可以看出,大部分up主上榜次数都集中在1-3次,只有极少数up主视频上榜超过5次。一般up主会保证一个月发布3-5个视频,通常也就是一周一个视频,而Bup主众多,高质量的视频层出不穷,因此即使是很高质量的视频登上排行榜也很可能在一两天后就掉下排行榜。而往往那些在7天内上榜次数较多的up主是因为一周内发布了两到三个视频,并且质量较高,在排行榜上游,排名下降速度相对较慢,所以才能有很可观的上榜次数。

7 up主上榜次数


因为榜上up主过多,下面仅针对上榜次数前5up主进行分析。图8中可以看出,除观察者网的四个up主,粉丝数多的其总播放量也相对而言较高,但这5up主中粉丝量最少的观察者网却有远超其他up主的总播放量,通过进一步查找数据,我们发现其他up主的投稿视频数在280-400之间,而观察者网的投稿视频数高达8778,远远超过其他up主的视频总数。而分析其平均播放量(图11),可以发现基本上粉丝数较高的up主因为有稳定的收看群体,所以视频播放量相对而言也会更高,而观察者网因为视频发布数过多,有的视频并不够吸引人,所以平均播放量显得有些少。

8TOP5 up主总播放量与粉丝数


9TOP5 UP主平均播放量与粉丝数


观察5up3837个视频的视频时长与播放量的关系(图10),可以发现视频的时长与播放量没有明显的关联,甚至有很多极短的视频有着极高的播放量,而且就算是TOP5up主也不是任何市场的视频都一直有很高的播放量,因此up主们不必因为近期视频不火而失去信心,只要持续用心创作,就能慢慢积攒人气。

10 TOP5 UP主视频时长与播放量的关系图


以老番茄的视频为例进行分析(图11)。老番茄作为哔哩哔哩首位破1000万粉丝的up主,既能用电影叙事技法对游戏进行加工演绎,又能在个人学业上取得优异成绩,一可以说是一个集学霸和网红于一身的传奇人物。观察其视频时长与播放量之间的关系,可以发现大致上视频时常超过30分钟的播放量相对而言较低,究其原因发现,其长视频一般为与其他up主的合作视频,为轻综艺真人秀,而并非让老番茄成为B站力推的当家招牌的游戏类视频,正是由于他的魔性搞笑配音配上剧情式二次创作,骚话配合电影剪辑手法,才使其游戏视频独树一帜。缺少他这些明显个人特色的合作视频播放量较低,也在情理之中。而这也可以很好的说明粉丝关注老番茄,主要还是对其游戏视频的喜爱和对其视频质量的肯定。

而其他3up主视频的时长与播放量并无明显关系,所以在此不进行进一步分析。

 

11老番茄-视频的时长与播放量关系图


根据在榜视频的标签词云对B站用户的爱好进行分析。从词云及以上分析可以发现,B站群众对视频的热爱可以归纳为四大主流。
   
第一个是欢乐调侃,而搞笑并不仅仅是只属于鬼畜这个分区的标签,生活、美食、游戏等各类视频往往都倾向于带有搞笑元素,说明大部分用户将B站作为他们生活的快乐源泉,短暂地逃离现实中的烦恼与忧愁。
   
第二个是云游戏,单机游戏和电子竞技都是up主热门视频的主要集散地,而“单机”“游戏”“绝地求生”“吃鸡”“原神”“英雄联盟”“明日方舟”在百大UP主的视频中也很有存在感;一般这种看着别人玩游戏,自己在屏幕前获得满足感与愉悦感的行为,我们叫做云游戏。
   
第三个是围观生活,日常分区贡献了最多的高人气视频,而up主视频中最常出现的“日常”“生活”“吃货”“试吃”“吃播”等标签,这种生活气吸引了许多靠这个“下饭”的围观群众。
       第四个则是涨姿势,趣味科普人文、影视杂谈、资讯、知识等表现出色的分区,多少都是满足了大家涨姿势的需求,也可以看出现在有越来越多的年轻人喜欢在B站上进行学习。

 

 

 

 

 

12 B站词云


四、建模分析

       从哪些方面使自己的视频得到提升,从而获得更好的排名,进入到头部up主梯队。考虑到视频排名由综合得分所决定,所以为了分析影响排名的因素,我们将关注重点放到综合得分上,想找到影响综合得分的因素。首先,基于对B站的认知,我们将播放数、弹幕数、点赞数、投币数、收藏数以及分享数纳入我们的备选变量,先利用pearson函数计算各个变量与综合得分的相关系数:

pearson相关系数

综合得分

播放数

0.801**

弹幕数

0.406**

投币数

0.592**

收藏数

0.532**

点赞数

0.440**

分享数

0.206**

1相关系数表

**表示在0.01级别,相关性显著

同时绘制了各变量和综合得分的散点图:

13 播放量与综合得分散点图


14 弹幕数与综合得分散点图


15 投币数与综合得分散点图


 

16 收藏数与综合得分散点图


17 点赞数与综合得分散点图


18 分享数与综合得分散点图


从上图中可以看出,综合得分和播放数有很强的相关性,其次是投币数、收藏数、点赞数和弹幕数,而分享数与综合得分的相关性较弱,所以在下一步建立多元回归模型时,我们采用逐步回归来选出使模型显著的变量,希望能够从中找到影响综合得分的关键因素。

经过逐步回归,我们得到了关于综合得分的多元回归方程:

综合得分=0.728播放数+0.154弹幕数+0.327投币数+0.242收藏数-0.192点赞数-0.157分享数

所有自变量系数均在1%显著性水平下显著。

通过已建立的多元回归模型可以看出,播放数和投币数对于综合得分来说非常重要,通俗地说,也就是播放次数越多,收到的投币数越多的视频,综合得分也就越高,这也与我们的常识相符。播放次数越多,说明看过这一视频的人越多,这一视频的受众群体也就越广,在很大程度上能提升其综合得分,从而使视频排名上升,这又会吸引更多的人点开视频,形成一个良性循环。而投币属于支付行为,愿意投币说明观众是发自内心地被这个视频所打动,也能在很大程度上体现这个视频的质量,所以投币数在一定程度上对综合得分也有影响。针对点赞和分享数前面的系数为负这一点,在我们观看B站视频时,经常都会看到up主希望观众能一键三连——投币、点赞和收藏,这也从侧面反映了这三个变量对于up主的重要性,所以出现负值的情况显然违背了事实,我们决定深入探究这两个变量出现负值的原因。通过对数据的观察,我们发现,在排行榜首页出现的播放数和弹幕数并不是累积的,而是最近4天内的总和,在随着时间的推移不断更新。所以在榜的视频,在播放高峰过后,即大部分受众都观看过这一视频之后,爬取到的用于分析的播放数和弹幕数都有所下降,导致综合评分降低,排名大幅下降,但其点赞数和分享数却是从视频发布时就开始累积的,并不是几天内的加和,所以就会出现部分视频排名靠后,综合得分低,但点赞和分享都很高的情况,这也导致了在综合得分的多元回归方程中,出现了点赞和分享的系数都是负值的情况。如果之后对模型要进行进一步改进,我们将考虑将对视频发布时间等其他变量进行采集,以便建立更为完善的模型。

通过以上的分析可以看出,up主要想使自己的视频获得更高的排名,在榜时间更长,吸引更多的粉丝,不仅需要引发用户共鸣让他点赞,引发用户聚焦和关注,获得更多的弹幕和评论,还需要吸引更多的用户来观看以及投币。up主可以通过选取较为新颖的题材,制作出圈视频,或者聚焦于受众群体较广的话题,来吸引更多的人观看视频,增加视频播放量。对于投币数,考虑到投币这一行为代表用户可以更理性地对内容是否优质做出判断,其投币的视频能较为有效地反映其偏好,所以要想提高视频的投币数,需要up主用心制作视频,让观看视频的人能够发自内心地对视频喜爱,投出自己宝贵的硬币,同时,也需要up主认真经营粉丝,提升自己的粉丝转化率,让所有粉丝都愿意为其支持的up主的优秀视频献上宝贵的硬币。

五、总结

通过以上分析我们可以看出,B站目前的主流分区为游戏区和生活区,符合当代年轻人的文化娱乐需求。同时,B站知识区良好的生态,正在源源不断地吸引着越来越多的专业人士加入,分享自己专业领域的知识。在B站成立那一天,没人能想到它还能作为一个学习网站所存在。而B站独有的弹幕和三连文化,使得视频发布者和观众之间情感维系更为强烈。视频发布者容易获得成就感,普通用户容易获得身份认同感。正是由于这样的强连接,越来越多的年轻人愿意到B站看视频,也有越来越多的年轻人愿意进驻到B站成为一名up主。

对于up主而言,要想使自己的视频受到更多人的关注,最重要的还是视频的质量,视频的时长与用户是否喜欢无关,重要的是能否激起用户的积极反馈,发送弹幕。而如果想要在B站后台的算法中获得高分登上排行榜,让用户慷慨投币是最为重要的。

一千个用户眼中有一千个B站,二十个不同的兴趣分区保证再偏门的内容创造者都有可能在B站走红。相比其他的在线视频网站,B站各个分区的流量分发较为均匀,功能发挥性更强,这也使得不同兴趣偏好的用户都能在B站观看各自喜欢的内容。要是有新的up主想要进驻B站,也不必迎合大众的口味,可以在自己喜欢的领域内尽情施展自己的才华,总会有爱好相同者为他/她摇旗呐喊。总而言之,B站用户有自己独有的行为特点,对于新的up主来说,如果选对板块并且持续产出高质量内容,有很大可能在短时间内积攒起可观人气。

时至今日,哔哩哔哩的用户已经覆盖年轻群体,除了最初的ACG,内容生产模式以及相关视频业务也都有涉及,产品本身的功能也非常完善,探索出的商业模式也初现成果。从B站目前的不断扩张的行动来看,它的最终目标是要发展成为一个大型综合性社区,最初的用户因为觉得初心不再而离开B站,也无可厚非。面对现如今越来越多“忘了初心”的质疑声和弹幕低龄化趋势、视频质量走低的问题,对于B站而言,关注用户需求、保持用户高活跃度、留住老用户,才是最重要的。