算法如何助力数据创新?且看德拓AI LAB数据价值探索

在研发体系创新产品事业部中,有一个部门的名称独树一帜:AI LAB。AI LAB设立于2018年4月,成立之初只有3人,两年多的时间,一步步成长,今天的文章就为大家揭秘德拓AI LAB。

设立初衷

AI LAB 团队正式成立的时间是2018年4月,当时成立AI LAB的背景是多方面的。

从内部来说:在2018年4月,德拓技术研发和产品研发体系根据公司的发展战略做了一次组织结构上的大调整,将原来割裂的产品和研发进行了合并重组,围绕 “ABC产品生态矩阵”战略做聚焦,依据“数据—信息—知识—智能—智慧”的价值提升路径,从云计算、大数据、到人工智能, 把产品分成了三大产品事业部:云计算事业部专注于基础架构方向、大数据的全部系列工具产品迁移至南京大数据事业部,而上海研发中心更专注于创新应用型产品和围绕AI技术的知识构建领域研究。

从战略角度来说:当时人工智能的概念炙手可热,自2017年7月20日中国国务院正式印发《新一代人工智能发展规划》,高调宣示新一代人工智能产业的发展作为中国国家级战略,规划开始落地以来,中国已经成为全球新一代AI产业发展最为瞩目的热点之一。当时我们判断,不久就将会从互联网时代进入智能时代,人工智能作为新一轮产业变革的核心驱动力和引领未来发展的战略技术,发展会非常迅速,我们正处在下一轮巨大变革的风口浪尖上, 而德拓此前在AI领域没有太多涉足,因此必须加快脚步开始AI基础技术的研究与建设。

德拓的使命愿景是让数据更具价值 。数据无处不在, 数据的体量会越来越大,挖掘数据的价值不可能依靠人力来完成, 必须依靠AI技术, 因此我们判断,人工智能是让“让数据更具价值” 落地的必经之路, 因此,我们必须在这一方向上重仓投入

建立&成长

AI LAB致力于将深度学习中广泛运用的自然语言理解(NLP)和计算机视觉(CV)算法和德拓客户具体场景结合,着力于提高客户数据处理的效率,如需要人工操作的文本/图片/视频等数据处理工作,在此基础上,帮助客户形成数据处理的AI能力,提高效率和解放劳动力。同时,通过德拓硬件、大数据、AI能力,赋能给客户智慧AI能力,使客户具备AI管理城市、安防、文档资料的能力。

以客户需求为导向,AI LAB将打通纯算法—服务引擎—产品应用为使命,通过底层算法技术的深耕、具体产品需求的调研和规划,在算法引擎设计上,能快速将核心算法部署到产品功能模块中,满足德拓产品的AI用户需求和体验。

01.

纯算法层面

结合德拓在存储、大数据方面的技术优势,为了配合公司主打产品在市场上形成竞争优势,AI LAB在规划AI算法技术方向上,重点向服务器端数据处理、数据自动分析方面倾斜,利用德拓在深度学习算法方面的积累,在文本、图片/视频的收集、存储、分类、处理、可视化等方面,重点研究算法。

为此,德拓将在DenseNLP的内容审核文本识别、通用文本分类、摘要提取、关键词提取、文本相似度计算、行业文本分类、多标签文本分类、情感分类8种算法和DenseCV的图像内容审核、视频内容审核、物体识别、场景识别、人脸识别、OCR文字识别6种算法上深入研究。

02.

服务引擎层面

结合德拓在存储、大数据方面的客户优势,AI LAB在规划AI能力引擎工具上,重点向行业客户的核心需求倾斜。为此,德拓将推出智能文本分析引擎、内容审核引擎、AI Studio训练平台等8个能力引擎工具,引擎类工具一方面作为服务引擎给客户安装部署,另一方面可以作为框架代码嵌入到目前的DATRIX、DSight、DANA等产品中,平台类工具AI Studio可以单独作为软硬件结合产品服务客户。

03.

产品应用层面

在具体产品应用方面,通过客户的需求导向和算法验证测试的推动,一种是提供解决方案,可以将算法层和能力层的算法整合成解决方案,根据客户需求实现核心功能;另一种是将能力直接展现在客户界面上,打通公司现有产品。如将内容审核(安全中心)、舆情分析平台、OCR识别平台、数据处理平台、智能文档平台等通用引擎作为模块应用嵌入到Datrix等相关产品中,这些模块将成为公司主打产品的AI功能。

产品应用层直接面向客户,可以为客户提供有效解决方案,如面向政府行政中心的政务AI软硬件解决方案、面向广电媒体的媒体AI中台等。

与交付密切合作

由于AI LAB能力对客户数据处理产生的巨大价值,部分德拓的客户已经尝鲜了。目前,AI LAB和交付体系也已经形成了紧密的合作。目前已成功落地多个交付案例:

01.

某部委落地项目

项目需要基于数据得到的确定关系,利用贝叶斯算法,计算出两个与给定参数没有直接关系的参数之间存在关系的概率。

贝叶斯方法是以贝叶斯理论为基础,使用概率统计的知识对样本数据集进行分类。由于其有着坚实的数学基础,贝叶斯分类算法的误判率是很低的。贝叶斯方法的特点是结合先验概率和后验概率,即避免了只使用先验概率的主观偏见,也避免了单独使用样本信息的过拟合现象。贝叶斯分类算法在数据集较大的情况下能够表现出较高的准确率。

了解到交付部门的具体需求后,算法部门制定了算法与图数据库结合的架构,更新了多个版本的算法确保准确率,最终结果得到了客户的认可,解决了项目的燃眉之急。

02.

某区热线中心(场景研究、产品固化)

对无标签的文本提取关键词(高度概括、能反映文本信息),利用词向量,与其他高度概括的文本匹配。

Word2vec 可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。

交付部门在大量项目应用场景中累计了客户需求,在具体需求基础上总结提炼出更抽象的需求,再由算法部门完成场景固化,从而达到从抽象再到具象的目的,为以后同类型场景的算法模型交付提升了效率。

未来发展规划

今年疫情来临, AI LAB团队义不容辞,主动利用工作之余开发了AI疫情监控预测平台, 对国内各个省市的疫情发展、拐点、经济影响、民众情绪等进行分析预测,误差率仅为千分之三,并应用到中国电信翼知疫行专区,服务近亿人次, 德拓AI疫情监控预测平台也因此被评为上海市抗击新冠肺炎疫情先进集体。

NLP技术在公安领域的应用也在2020年取得了一定的突破,一方面是德拓NLP智能语义识别技术在数据智能语义搜索领域的应用;一方面是警情案件智能分类、 案件重要信息提取、 公安知识图谱的的构建、案件侦破研判分析等。

接下来,AI LAB将重点在技术沉淀、赋能产品领域力求突破:

01.

技术沉淀领域

对现有的算法进行优化和提升,如DATRIX和项目交付中已经部署的DenseNLP中文本分类,需要增加层级分类,文本相似度计算需要应用到文档推荐功能,如DenseCV中大量运用的物体识别,人脸识别,需要提高具体算法的准确率;

技术沉淀还需要与时俱进跟进现有的算法,确保算法的领先地位。如通过模型蒸馏的办法提高准确率和降低算力资源:

02.

AI LAB产品赋能

德拓十分重视AI算法能力的落地,为此,德拓一方面提供更多的应用算法模型供AI Studio、DATRIX等产品更新;另一方面,通过大量算法工程化的经验积累,提升算法工程化的效率,对GPU、内存、CPU等算力调用提供实用的稳定的方案。AI LAB积累了大量公安警情的NLP处理经验,将会对具体模型和应用进行封装,推出针对公安行业的NLP产品。

未来十年是人工智能技术发展的关键阶段, 德拓致力于成为国内数据创新领导者,在新一代的人工智能技术的探索中不能缺席,因此AI LAB肩负着非常重要的使命,未来将继续努力探索前行,积极布局, 投入AI基础技术的研究,搭建德拓人工智能基础设施技术、平台与服务,重点发力NLP自然语言处理、知识图谱、图像视觉分析、多媒体内容理解等领域的前瞻性技术研究,推出以AI Studio为核心的人工智能开发平台与技术产品,赋能公司全线产品,解决方案和大数据应用服务,服务于数字政府、智慧城市、媒体文娱、公共安全、教育科研、金融证券等不同行业的众多业务场景中, 让数据发挥价值。