网络舆情话题的数据立方体模型分析

浏览: 1759

网络舆情话题的数据立方体模型分析

image.png

网络舆情话题数据立方体模型构建:
本文认为网络舆情话题数据立方体具有5个维:
时间维(T) 

地点维(L) 

传播方式维(C) 

情感倾向维(S) 

话题维(Sub) 

4个度量分别是数量、 关注度、 热度和速度

传播方式包括论坛、 博客、 新闻, 其余如音频、 视频、 电子邮件等暂不考虑

情感倾向维描述舆情的强度和情感倾向, 主要有“强烈褒义”、“褒义”、“贬义” 和“强烈贬义” 4 种不同强度的情感倾向

话题维主要描述话题相关事件, 可以利用多文档摘要技术形成一个话题的摘要

时间可由网页中抽取得到,地点可通过统计 IP 地址得到, 情感倾向则可通过分析文本内容得到, 事件也可由采集到的网页中抽取出来

网络舆情话题数据立方体度量值计算:

热度:热度并没有明确的定义, 其确定有一定的主观因素,参考的因素不同,得到的最终结果也不相同。现在网络舆情热度的研究主要有采用文本词频统计、文本聚类等算法, 近来通过建立重点、焦点、敏点、拐点等分析模式和判据、采用模糊综合评判、模糊积分等模型进行话题热度等级的判断。

综合考虑, 可以给出某一时间段内热度的计算表达式:

image.png


w下标bbs、blog、news为论坛、 博客、 新闻三种类型文档的权重。N(t1、t2)表示t1 到 t2时间段内某一话题的数量。All表示三者总的话题数量。

传播速度:分析舆情受众的数量的变化速度。其实现技术是统计点击数或回复数的变化:

image.png

s(t) 表示传播速度, n(t) 表示点击数或回复数。

传播阶段:对传播速度作进一步的分析, 可以得到传播加速度, 其含义为网络舆情的传播阶段。计算表达式为:

image.png

可以分成三个阶段: ①若传播加速度 a(t)> 0,标志为新增受众数量不断增加,则判为扩散阶段; ②若传播加速度 a(t) = 0, 标志为新增受众数量基本稳定,则判为稳定阶段; ③若传播加速度 a(t)<0, 标志为新增受众数量逐步减少,则判为消退阶段。


关注度:话题关注度是指过去某一时间段内,舆情话题被关注的程度, 用与该话题相关的网页数进行衡量。

关于某一个话题 T 的相关网页数量随时间的变化可以用函数 f( t) 来表示,根据相关信息点的计算公式,得到在过去某一段时间 t1 到 t2 内关于话题 S的关注度:

image.png

具体的统计时间可以按天、 周或月来统计, 也可根据实际需要具体设定

image.png


以上,数据立方模型基本构建完成,该模型涵盖网络舆情的大部分组成要素,而且可以根据实际需要进行扩展。

推荐 0
本文由 吴小鹏 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

0 个评论

要回复文章请先登录注册