网络舆情话题的数据立方体模型分析
网络舆情话题数据立方体模型构建:
本文认为网络舆情话题数据立方体具有5个维:
时间维(T)
地点维(L)
传播方式维(C)
情感倾向维(S)
话题维(Sub)
4个度量分别是数量、 关注度、 热度和速度
传播方式包括论坛、 博客、 新闻, 其余如音频、 视频、 电子邮件等暂不考虑
情感倾向维描述舆情的强度和情感倾向, 主要有“强烈褒义”、“褒义”、“贬义” 和“强烈贬义” 4 种不同强度的情感倾向
话题维主要描述话题相关事件, 可以利用多文档摘要技术形成一个话题的摘要
时间可由网页中抽取得到,地点可通过统计 IP 地址得到, 情感倾向则可通过分析文本内容得到, 事件也可由采集到的网页中抽取出来
网络舆情话题数据立方体度量值计算:
热度:热度并没有明确的定义, 其确定有一定的主观因素,参考的因素不同,得到的最终结果也不相同。现在网络舆情热度的研究主要有采用文本词频统计、文本聚类等算法, 近来通过建立重点、焦点、敏点、拐点等分析模式和判据、采用模糊综合评判、模糊积分等模型进行话题热度等级的判断。
综合考虑, 可以给出某一时间段内热度的计算表达式:
w下标bbs、blog、news为论坛、 博客、 新闻三种类型文档的权重。N(t1、t2)表示t1 到 t2时间段内某一话题的数量。All表示三者总的话题数量。
传播速度:分析舆情受众的数量的变化速度。其实现技术是统计点击数或回复数的变化:
s(t) 表示传播速度, n(t) 表示点击数或回复数。
传播阶段:对传播速度作进一步的分析, 可以得到传播加速度, 其含义为网络舆情的传播阶段。计算表达式为:
可以分成三个阶段: ①若传播加速度 a(t)> 0,标志为新增受众数量不断增加,则判为扩散阶段; ②若传播加速度 a(t) = 0, 标志为新增受众数量基本稳定,则判为稳定阶段; ③若传播加速度 a(t)<0, 标志为新增受众数量逐步减少,则判为消退阶段。
关注度:话题关注度是指过去某一时间段内,舆情话题被关注的程度, 用与该话题相关的网页数进行衡量。
关于某一个话题 T 的相关网页数量随时间的变化可以用函数 f( t) 来表示,根据相关信息点的计算公式,得到在过去某一段时间 t1 到 t2 内关于话题 S的关注度:
具体的统计时间可以按天、 周或月来统计, 也可根据实际需要具体设定
以上,数据立方模型基本构建完成,该模型涵盖网络舆情的大部分组成要素,而且可以根据实际需要进行扩展。