更佳洞察 | 德拓数据分析师助力政务管理改进更精准

2019年,某省提出“构建全省12345政务服务热线”,实现全省1个号码对外提供服务,把12345打造成群众办事‘零距离’企业服务‘零障碍’的综合信息平台。

在此背景下,12345热线汇聚了全省各类渠道的数据,涉及领域众多,也随之引发了一系列问题。

哪一类问题老百姓最关心?

哪一类问题风险较大?

哪一类问题需要优先处理?

……

面对海量的文本类数据,政府工作人员很难通过人工的方式进行高效甄别及处理。

因此,德拓的数据分析师们希望利用大数据+文本分析技术进行业务赋能,帮助工作人员提前发现问题、精准定位问题、有效处理问题。

项目整体思路

首先是获取源数据,然后对数据去除停用词并分词,分词之后统计词频并生成词云图,接下来对源数据打标,打标之后对数据进行清洗整理进行预测,然后再进行情感分析。投诉文本分析可以从以下三个方面着手:

1. 词云图,对热点事件的可视化;

2. 舆情分类,对投诉事件类别的分类;

3. 舆情程度级别划分,即情感分析

具体步骤

数据爬取

首先要观察原始数据的初始形态,往下拉,点击更多进入投诉专栏:

从诉求公开页面的投诉标题可以点击每一个投诉案例:

从每个投诉案例中看到诉求标题、诉求内容、办结回复等关键字段,这个是我们需要提取的信息。

打开页面代码,观察需要爬取页面的网址规律,便于接下来编写爬虫代码。

根据页面源码发现投诉信息都包含在returnList这字典里面,所以在爬取数据的时候只需提取这部分信息,最终的爬取结果以两种形式存储在开发工具pycharm的项目指定目录下。

词云可视化分析热点问题

从网上下载停用词,停用词的目的是去除文本中无用的高频词汇,正则化是为了去除数字及英文字母,去除停用词之后对文本进行分词,使用搜索模式分词,再统计词频,最终生成可视化词云并根据词云图分析热点问题。词云图如下:

舆情分类

一般有监督的分类需要有一定行为标签,由于数据缺乏标签,因此需要根据网站主页面提示几大分类版块来进行打标,最终对原始数据进行500个以上投诉案例进行了人工打标。

接下来需要构建词向量空间,将打标数据切分为训练集、测试集,剩下未打标的数据作为预测集,再将其分别转换至训练集词向量空间、测试集词向量空间、预测集词向量空间,最终构建多项式贝叶斯分类器对预测集(预测集向量空间)进行预测。预测效果如下图:

情舆情程度级别划分,即情感分析

做情感分析涉及到情感词典、否定词、程度副词,这些词在文本中是核心对象,我们需要对这些词进行综合的分值计算。从官网下载BosonNLP情感词。

情感得分计算思路:

a. 初始化权重0.1,情感词下标-1及得分0;

b. 遍历分词,若分词为情感词,权重乘以情感分,遍历情感词下标前一个词判断该词前面是否有否定词或程度副词,若为否定词分数取反,若为程度副词分数乘以程度副词等级,再定位至下一情感词,直至遍历结束,累加得分就是最终得分;

c. 对情感得分进行四分位切分,划分为四个程度等级;

情感分析效果如下图:

运用到的技术(或开源工具)

正则:re

爬虫:requests、pandas

词云:jieba分词、wordcloud、matplotlib

词向量:TfidfVectorizer,Bunch

分类器:naive_bayes中的MultinomialNB

遇到的问题及解决方案

a. 情感分析中有些案例分值为正数,一般投诉类的事件均为消极情绪,为正数的案例说明情况不严重,带了部分积极词语,这里只统计消极词避免了这个情况。

b. 情感分值波动较大,不利于程度等级的划分。这里采用了两种方法解决,第一,将初始权重赋值0.1,避免最终情感分过大;第二遍历完情感词之后将权重进行归一,避免权重累加,这样就可以出现避免情感分值过大的情况。

结论

经过德拓数据分析师的分析,得出如下结论:

从投诉分类的类别来看,环境保护投诉事件最多,其次公安(治安、交通),城乡建设类别最少。与热点事件中卫生、垃圾等问题出现最多结论一致。

投诉类别中环境保护与公安(治安、交通)占比70%以上,城市中这两类是经常出现的问题。

 从投诉事件风险等级上来看,无关紧要与轻微投诉事件次数占绝大多数。

 投诉事件中无关紧要与轻微事件的风险程度占据了80%以上,严重的风险问题占比不足1%

在高风险投诉事件中,环境保护仍占据主要位置,在投诉类别占比中公安(治安、交通)的投诉事件是工商(消保)问题的两倍之多,而在高风险中两者表现刚好相反,说明在高风险投诉事件中工商(消保)问题的高风险比例较大。

后记

参与本次数据分析的是来自德拓交付团队的数据分析师——官乐安,性别男,爱好女,性格嘛,活泼开朗(此项真的不是征婚帖哦!!)

这一篇完整的数据分析文完全由官乐安一人独立完成,不到一个月的时间内,从需求分析、算法探索、模型设计、到结论输出,每一步都追求高效率、高标准、高质量!当然这些是因为德拓拥有系列的大数据效率工具平台,DDP、DanaStudio、PandaBI等数据分析平台及工具,以及wuli大德拓特别能战斗的交付团队,他们每一个人都在项目一线上不断的奋斗着,为客户提供高标准、高质量的服务。

未来,我们还会持续输出关于交付团队数据分析师不定期更新的数据分析文哒~