我和我的闺蜜们都在聊什么?

浏览: 1543

作者:Yura

来源:Yura不说数据说

钱钟书说,有鸡鸭的地方粪多,有女人的地方话多。那么,女生之间到底都在讨论些什么东西?

今天,Yura将带大家挖掘一下Yura与另外两个好友的微信群聊中蕴含的有趣信息


首先看到,我们的群名是“新世纪独立女性养成研究所”,我们的口号是“男人都是大猪蹄子”!两位好友分别是“润贻”和不愿意透露姓名的“美少女”同学(不慌,文末有惊喜,嘻嘻)。

工具:

excel

R语言


一、数据收集

 

本次分析总共摘取了微信群从2018年3月9日至2018年7月30日共计144天的聊天内容,感谢淘宝卖家提供给我的强大工具“苹果恢复大师”,在经过将近一小时的扫描备份之后,抓取了比较满意的内容,包括文本信息、图片、语音、视频甚至链接等大部分信息。


二、数据清洗


老师果然没骗我,在一次数据分析的项目中,数据清洗至少要占80%的时间,我用实际行动为老师提供了又一个血淋淋的真实案例 T.T


 一开始我想得很简单,希望能做出一个漂亮的词云。这就需要删除文本信息中一些链接和图片等“乱码”,不过在删除过程中,我发现乱码也有一些信息可挖掘(等下再说),于是我边删除边记录,也得到了不少意料之外的收获。这两个小时也是值得的!


三、数据分析和可视化

1.聊天频率分析

首先我们来看一下,在这144天3456小时207360分钟之内,我们一共产生了几条消息:

你没看错,我们约以4分钟一条消息的速度产生信息。


本人,很光荣地,以39%的比例荣获本群“话痨”称号。


但是我们可以看到我们三个人的发言频率大致相似,用行业话来说就是方差较小


但在真实生活中,认识我们仨的共同好友肯定不会给我们的文静/活泼程度打上差不多的分数。这可以侧面反映:

无论你在陌生人面前是谈笑自如还是静如瘫痪,在熟人面人必然会露出“动如癫痫”的本态。(敲黑板,记重点!)更可怕的是,当我统计分析聊天日期levels长度的时候,我发现我们在144天内竟然讲了144天的话,也就是说,这个群没有一天是安静的

如果这个群有第四个人存在的话,那TA肯定会被吵死...

不过,根据我上文的规律,我觉得TA加入我们的“叽叽喳喳”的行列之中的可能性更大!

再来看我们整体的聊天频率:

从上图可知,我们的聊天频率,真的比股票还稳呀!


三月偏低是因为我的聊天记录是从3月9日开始记录的,如果加上3月1日到3月8日这9天时间,应该会上升一点。


至于六月份的略微下滑,我只能(假装)归结于我们这个月减少了百分之十的聊天时间,去复习期末考啦!

再具体到天:


我们在3月12日的聊天频率是最高的。

这究竟是什么特殊的日子?


原来润贻同学在这一天做出了尝试申请去德国交换学习的决定!因为我有经验,她就问了我许多相关的问题。


接下来我们从学习谈到了人生,谈了以后的工作,幻想如何成为富婆,最后以相约打耳洞结束...


不知道大家有没有发现,我们在聊天的时候,经常是这一秒忘了上一分钟说了什么话题。翻翻聊天记录,我经常的内心os是:“嗯?为什么突然说到这?卧槽,这也能扯到?!”当时的心路历程恐怕不是几段跳跃的聊天记录文字能够回忆起来的。所以说:

女生之间的聊天话题总是飞崖式跳跃的。

(第二条规律了!)

那么我们在一天中的哪个时间段聊天频率最高呢?

上图是我按照聊天小时来统计的,可以看到,中午休息晚上睡前是我们聊天频率的高峰期。这也很合理,大家都是学生嘛, 白天总是有课要上。


但是我就想不明白了。

为什么凌晨两点三点四点五点,也都是有数据的呢?

上图看似是0,其实,下图才是真相:

可能...嗯...是有人睡不着,在群里大发“我失眠了!怎么办?”之类的牢骚吧...

2.聊天内容分析

分析完了聊天频率,下面看一看我们这一天天的,到底聊了啥?

今天推荐这首歌,前奏感人!这条微博好好笑,快看!快看这个抖音,哈哈哈哈。这件衣服怎么样,你们帮我看看!

以上,就是我们肤浅而真实的日常(微笑)


不过仔细看看,从中我们可以悄悄地分析出:

  • 我和润贻同学是淘宝的常客

  • 美少女同学有一段时间沉迷抖音(因为虽然比重大,但是频次不高)

  • 润贻同学很喜欢刷微博消磨时间

  • 我们三个都是音乐girl(hey yo, what's up!)

除了这些官方链接,我们还共享了屏幕截图6594次。

这里虽然无具体统计,但是作为当事人我可以肯定地告诉大家:

百分之九十的屏幕截图都是聊天记录截图,其中百分之八十都是为了吐槽被截图的人。

(原因?没法解释)

我们再来看一看我们的聊天方式的不同,有些人享受打字的快感(我本人),有些人觉得语音比较方便(美少女无疑了),有些人却觉得直接拍个图片或者视频更直观。

从某方面来,聊天方式说能反映一个人的行事特点。

(具体请咨询心理专家)


下面瞧一瞧我们聊天的默认表情包top10:

自定义表情包太多了,分析起来难度较大,下次有空再试:(

作为九零后老阿姨们,年轻人表情包的步伐是跟不上了,偶尔返璞归真一下也是不错的。


从表情包top10中我们隐隐看到了三个老阿姨面对生活小挫折的一种欲哭无泪的无奈感,紧接着是情绪的失控,然后是淡然处之微笑态度。当问题解决之后ok旋转跳跃一下,顺便讲个笑话活跃下气氛(编不下去了...)

说了这么多七七八八的内容,我好像还没有真正涉及到我们的聊天内容,大家别急,马上来!


经过筛选之后,我们得到的高频词的词云如下(形状越大表明出现频率越高):



正如我朋友圈所言:

再看看词高频名词top5高频动词top5


很欣慰!我们除了“”“这项人类生存基本需求和“买”这项女生基本生存需求,作为学生还会经常“”和"”有关“老师”“学校”和“室友”的优秀话题。


其中出现了一个比较有趣的关键词——杭州,有点怪异,但其实又在情理之中。因为我们三个有一个是在杭州上学的,有一个是想要去杭州求职的,自然提到的次数就有点高了(毕竟我们是爱学习爱工作经常思考未来的新世纪独立女性,耶)。

最后,欣赏一下我们的个人词云(为了美观,删去了特别高频的“哈哈哈”“哈哈哈哈”“男朋友”等关键字啦)

重要鸣谢!!!

最后的最后,感谢润贻同学和美少女允许我使用宝贵的聊天记录,笔芯两位小可爱!喔,我也可爱。

<<  滑动查看下一张图片  >>

出镜:Yura 润贻 美少女

往期精彩:


公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战
回复 Python       1小时破冰入门
回复 数据挖掘     R语言入门及数据挖掘
回复 人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习     机器学习的商业应用
回复 数据科学     数据科学实战
回复 常用算法     常用数据挖掘算法

推荐 0
本文由 R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册