更佳洞察 | 数据分析师课外作业,6天看出股市涨跌背后的热词

 

年后股市一片大好,许多股民都感觉迎来久违的股市春天。与此同时,科创板呼之欲出,令市场热情更加高涨。上证指数走出徘徊,重上3000,市场气势如虹,重聚人气。

就连小拓身边的不少人都开始尝试炒股,但高收益的必然也伴随着高风险。

 

DATATOM作为一家“地地道道”的大数据公司。针对这一现象,常年在一线为各行各业大数据探索的交付小伙伴们决定做些什么。有了这一想法后,他们当即开启了在股票市场的探索之旅。

 

接下来就让小拓带你们看看他们的分析过程吧。

   数据的获取

首先,对百度股票、百度热搜、微博热搜以及相关股票论坛的数据,采取python中的requests 模块,在股票交易的时间段,按小时进行了为期一周的爬取;这里主要是想过滤掉一些非股票交易时期的热搜词汇,从数据源头去掉干扰因素,避免影响分析结果。最终,爬取了100多万条数据。

   数据的清洗

这里分两步:

  对每天的大盘,分别以天和小时为单位,判断上证在这一个小时内的涨跌情况;(给大盘数据打标签);

大盘数据(天)

大盘数据(小时)

 以天为单位对百度热搜、微博热搜、论坛帖子标题、评论内容进行分词,这里主要通过python进行NLP的处理,例如用TF-IDF算法,统计词频信息;以小时为单位对多个帖子内部评论数量进行统计汇总。

词频信息(天),如下图:

这里选取东方财富贴吧内两个重要的帖子内部评论数量,按照小时进行统计,以此来从另一方面反应股民活跃度。

 热词频率,这里主要是找出百度热搜、微博热搜、百度股票出现的热词的频率,可以反映市场对股市的关注度;

上面是对百度股票热搜词的一些基本统计,可以找出出现次数高的词。

 找出股市波动大的时段,这里通过用斜率判断的方法:斜率越大,说明该时段大盘波动越大;这里主要想找出该时段热词出现的频率和大盘波动的关系;

 

这里可以看出,股民的热词搜索量与股市的波动存在相关关系;接下来用模型去寻找验证相关关系。

   建模

以热词搜索按照天为单位构建模型:

 用词频作为数据集,股票涨跌作为目标集,利用PCA降维之后构建决策树模型;

数据集如图:

 

以贴吧内部用户评论数量按照小时为单位构建模型:

 

以天为单位降维和模型构建如图:

模型结果如图:

得出结果:

Value是大盘上涨或下跌的概率;

0代表100%下跌;

1代表100%上涨;

 

X[0]、X[1]是上面热词降维之后得出的特征;

X[0]主要由股票、A股组成,因为二者得权重最大;

X[1]主要由散户、大跌组成,二者权重次之;

 

以贴吧内部用户活跃数按照小时为单位构建模型:

模型结果如图:

 

得出结果:

Value是大盘上涨或下跌的概率;

0代表100%下跌;

1代表100%上涨;

X[0]为第一个贴吧内部帖子数量统计结果;

X[1] 为第二个贴吧内部帖子数量统计结果;

构建出来的决策树模型,用4天数据做为训练集,2天数据做为测试集,得到的测试结果,准确率为75%。

   结论

通过6天的尝试,我们初步探索了股市波动与舆情之间的关联性。这让我们更有信心,与广大金融专家一道,探查更多数据资源,建立更多数据模型,实现更多金融洞察。

 

通过一周内工作之余的时间,能得出上述的结论已实属不易,欢迎大家实际验证一下。在得出结论后,交付小伙伴还与点炻科技的创始人、德拓金融领域神秘大咖对结果进行了热烈的讨论,以此,提出了建以及未来可改进的方案。

■  由于数据数据的爬取问题,此次数据仅从3月21日开始,数据集方面较为有限,无法获得更大范围的热搜词的历史数据。可以在以后的时间中,不断丰富数据集、改善模型,使该模型的精准度更高。

 “热词”仅仅是量化的一个维度数据,该数据主要体现的是舆情,或者说市场情绪,未来可以把热词分词后量化成“市场情绪指数”;

 另一个可以挖掘尝试的量化指标是“政策”,搜索挖掘前时期、同时期的新闻和政府报告关于股市的热词。例如今年年后央视新闻联播里报道股市全面上涨,科创版落地的相关政策…

 需要注意的是,热词与涨跌的因果关系,常识来看涨跌应该是因,热词是果。但后来的果会不会成为再后来的因,可以尝试用模型找出相邻多日的关系。例如可通过获取公司三张表,根据三张表里的数据进行运算;还可以结合交易量,大资金流向等数据;财务三张表是顶层数据,它是由底层的产业链数据层层传导上来的,通过借助大数据手段,可以帮助我们找到它们间的联系,基于产业链数据的大数据搜集、分析,更有价值。

 

(德拓旗下金融科技企业)

 

此篇文章内分析工具均为DATATOM自研产品:DanaStudio、PandaBI;

 

DanaStudio(大数据开发平台)

集数据采集、存储管理、标准治理、作业运维于一体的高效开发平台。

 

依托于DanaStudio平台,用户可以快速熟悉大数据治理流程,完成复杂的采集分析需求,解决杂乱无章的海量数据管理问题,让数据治理流程更加规范、清晰,同时配套强大的作业运维功能,让项目后期运维更加简易、高效。

 

PandaBI(数智决策平台)

PandaBI适用于各类组织的数据平台搭建,可通过简单的“拖”、“拉”、“拽”完成各类图表,为多家客户提供了一站式数据决策服务,帮助客户进一步提升信息化管理水平,提高了客户的整体工作和管理效率。