社会化媒体品牌评估服务,是通过对互联网社交网络中用户发布的关于电视节目的言论进行分析,对电视节目的影响力进行调查。同时,通过长期大量数据的积累,结合可视化工具对电视节目产生影响的因素进行分析,为用户行为预测提供数据与工具支持。该平台是互联网大数据自然语言处理的智能化应用,旨在通过搜索引擎、自然语言处理,数据挖掘、机器学习、非结构化数据库等多种技术,提供电视媒体影响力调查与分析服务。
社交网络搜索引擎
基于社交网络的电视媒体影响力分析,最首要的任务是对互联网中的各类电视媒体相关数据,通过搜索引擎技术进行获取。采集到的数据被搜索引擎保存在分布式非结构化数据库中,该数据库同时提供数据的容灾、高可用性及各种备份手段。平台管理员能够通过可视化工具对搜索引擎进行管理与配置;对言论进行审核;也可从数据库中查询各类原始的言论信息。
智能分析模型
智能分析模型能够实现汉语进行自然语言处理;文本的情感色彩分析,文本自动分类及聚类,文本垃圾过滤。重点实现分析算法以及各类模型。这些算法及模型包括:
- 文本垃圾过滤,能够将与节目无关的言论进行过滤。
- 文本挖掘模型,包含文本分类、文本聚类、热点发现。
- 机器学习模型,包含最大熵、神经元网络、决策树、向量空间在内的多种经典及优化的机器学习算法。
- 汉语分词模型,实现将汉语的句子切成以词为元素的最小单元。
- 汉语歧义消除模型,实现汉语歧义的消除。
- 汉语情感色彩分析,分析文本表达的各类情感,这个情感不仅是正负面,更包含了粗鲁/礼貌,严肃/愉快的,冷静/激动等等。
统计模型
统计模型建立在智能分析模型之上,根据智能分析模型量化得出的结论,运用统计学的方法进行处理。这些模型包括:
- 影响力统计模型,这是社会化媒体品牌评估服务核心的统计指标,通过对搜索引擎采集来并经过智能分析模型量化的各类参数进行加权计算,得出节目的影响力;
- 广告价值统计模型,同样采用数据分析挖掘的方式对电视媒体广告的价值进行评估;
- 情感统计,通过智能分析模型对参与电视媒体受众表达的情感进行量化,对其表达的情感进行统计。
- 受众统计,对参与电视媒体讨论的受众的性别,爱好,区域,年龄,发布言论使用的终端等用户信息进行统计;
- 僵尸用户统计,通过分析参与电视媒体讨论的用户行为,判断该用户是正常用户还是僵尸用户。
- 信息分类统计,通过分析用户对电视节目发表的言论,将言论归为用户评论,用户投诉,节目预告,营销互动等类别。
- 信息聚类统计,通过聚类算法,归并内容相似及主题接近的言论,避免大量重复信息。
- 热点发现,通过分析用户对电视节目发表的言论,发现其中的热点,如用户关注的是节目主持人、嘉宾、话题、节目形式、舞台效果等。
- 趋势/传播统计,对节目在社交网络中的影响力趋势进行分析;对用户言论或营销信息的传播路径进行分析。
电视媒体数据挖掘与展现工具
基于社交网络的对电视媒体影响进行分析的专业数据挖掘工具,能够有效的帮助用户方便的对各不同节目的不同参数进行分析对比,为咨询报告的生成提供工具支持。
案例分析