释放数据智能红利,夯实人工智能根基

 

01

如果说数据是新时代的石油,那么人工智能就是从中生成智慧的炼油厂。地球上的生命充满了无数奥秘,但最具挑战性的也许是智能的本质。人类智能的进化经历了数百万年的时间,而人工智能在最近几十年才发展起来。

早在1950年,被称为“计算机之父”的阿兰·图灵提出了一个举世瞩目的想法——图灵测试。按照图灵的设想:如果一台机器能够与人类开展对话而不能被辨别出机器身份,那么这台机器就具有智能。而到了1956年的夏天,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(Artificial Intelligence,简称AI)”这一概念,标志着人工智能学科的诞生。

第一次高峰和低谷:1950年代—1980年代初

人工智能刚一诞生,就受到了科技界的追捧,迎来了第一个小高峰。尤其是1957年发明第一款神经网络后,计算机技术被广泛应用于数学和自然语言(主要是英语)等领域,研究人员疯狂涌入这一领域,也产生了很多新的科技成就:1959年第一台工业机器人,1964年第一台聊天机器人,机器定理证明以及下棋程序, Intel 公司也在1968年成立并在1971年推出了第一款微处理器;新的发明也大大提高了人们对人工智能的期待,很多学者疯狂地认为,”二十年内机器将完成人能做的一切。” 过度的预期也导致了人们开始尝试挑战一些更加复杂的问题,但同时由于当时计算机性能的不足、数据的缺乏等问题,造成了很多包括美国国防部在内的大型项目接二连三的失败,人工智能的第一次迎来了将近10年的低谷。

第二次高峰和低谷:1980年代初—1990年代

就在人们对人工智能普遍丧失信心的时候,一直到1980年,卡内基梅隆大学(CMU)为DEC公司设计出了第一套专家系统“XCON”,通过人工智能的技术实现知识库+虚拟机的组合,帮助DEC公司每年节省4000万美元。XCON系统的成功使人们看到了AI为人类经济生活带来的价值,也因此诞生了一批以AI为技术核心的软硬件创业公司, 如Symbolics,Lisp Machine等等。而1986年 Rumehalt等人提出了反向传播BP算法,解决了两层神经网络所需要的复杂计算量问题,直接推动了人工智能应用走向了第二次高峰。但是同样,随着人工智能应用规模的不断扩大,知识/数据获取困难、推理方法单一、计算能力不足的问题再次暴露出来,随着美国军方AI计算机研究项目失败,大量人工智能的项目和研发被砍,人工智能再次陷入第二次低谷。

第三阶段从平稳到快速发展:1990年代中期—今

随着人工智能技术尤其是神经网络、机器学习等技术的不断演进,以及几十年来人们逐渐形成了对人工智能比较客观理性的认知,人工智能逐渐进入了平稳发展期,1997年IBM的国际象棋电脑“深蓝” 依靠70万份大师对战的棋局数据和每秒2亿步棋的运算速度,战胜了国际象棋冠军卡斯珀罗夫。尤其是2006年深度学习算法被提出和快速发展,加速了人工智能技术在人类生活领域的突破,2011年IBM Watson在智力竞赛战胜人类世界冠军,2011年苹果公司Siri诞生,2012年谷歌公司的无人驾驶汽车上路,2016/17年谷歌Deep Mind 团队开发的人工智能围棋程序阿尔法狗AlphaGo多次战胜围棋世界冠军李世石、柯洁…一个又一个标志性的事件将人工智能推向一个又一个的高峰。

同时,人工智能也逐渐渗透到我们日常生活中的各种应用,人脸识别、聊天机器人、智能投顾、工业机器人等等,人工智能已经不再像以前只是实验室里面的科学研究,而是实实在在的成为我们日常生活的一部分,给我们带来更多的方便与快捷。

在我们国家,尽管人工智能的起步相对较晚,但是近几年来,从政府到民间,从企业到个人都意识到了人工智能对我国未来社会发展的重要性。

从2017年起,人工智能连续三年被写进政府工作报告。2017年,国务院正式发布了《新一代人工智能发展规划》,明确了分三步走,到2030年我国人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能的创新中心,智能经济、智能社会取得明显成效,为跻身创新型国家前列和经济强国奠定重要基础的总体战略目标。也明确了未来10年包括构建人工智能科技创新体系、培育智能经济、建设智能社会和智能化基础设施体系等六大重点任务。人工智能也由此被提高到了国家战略高度,包括国家人工智能创新平台等一批重点项目迅速推进。同时一大批人工智能的创业公司也如雨后春笋般层出不穷,为推动人工智能的技术发展与应用起到了举足轻重的作用。据不完全统计,我国在人工智能的论文总量、被引用数量和专利数量等已经位居全球第一,但在人工智能企业和人工智能人才数量仍在位居第二,仅次于美国。

02

大数据与人工智能技术的完美结合,将共同驱动数字经济发展,数据智能将成为新释放“数据红利”的“加速器”。“拷问数据,它将坦白一切!”

随着各地以5G、物联网、大数据、人工智能为代表的大规模“新基建”的进行和“智慧城市”的蓬勃发展,未来中国数字经济发展的主要推动力就是人工智能,人工智能生长动力的算法、算力、算料(数据)也得到了快速的发展。

国内在大数据、基础算力以及算法方面都取得了突破性进展。其中视觉、语音算法都开始走向成熟,并在安防、智能语音等场景中得到应用;云端芯片取得突破,边缘端推理芯片百花齐放,超算、云计算等算力都在向人工智能倾斜。

人工智能算法,尤其是机器学习的算法在过去几年迅速发展,不断的有各种各样的创新,深度学习,DNN、RNN、CNN、到GAN……不停的有新的发明创造出来。算法的迭代——从技术层面的创新到思维方式的转变,意味着人工智能乃至社会生态的无限的可能。

计算能力为技术变革奠定了基础。互联网对于人类日常生活的高度渗透,催生了计算能力的飞速提高。随着计算的成本在不断下降和服务器也变得越来越强大,人工智能技术发展的限制在放宽。

数据,随着云计算、物联网、大数据、等技术的发展,人们通过社交网络,电子商务政务平台及移动智能终端、传感器等途径采集处理的数据呈爆炸性增长。“在互联网经济时代,数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力”。

人工智能时代,是调动算料(数据)、算力、算法创造奇迹的时代。或者说,“数据+算力+算法” 驱动了人工智能的复兴。

人工智能技术体系一般分为基础层、技术层和应用层,在人工智能大发展的浪潮中,其技术体系中的各模块发展特点各不相同。

基础层对应着算法(包括回归、分类、聚类、深度学习算法等)、算力(即AI芯片)和软件框架(实现对AI算法的封装)。

算法部分,深度学习带动了本轮人工的大跃进,深度学习已经在语音识别、图像识别等领域取得突破,而海量的数据和高效的算力支撑是深度学习算法实现的基础,同时还有很多新的算法理论成果正在被提出和应用,如强化学习、迁移学习、胶囊网络、生成对抗网络等。

算力部分,由各种人工智能芯片来提供基础计算能力。人工智能芯片除了传统的CPU及 GPU 外,还包括为特定场景应用而定制的计算芯片。深度学习既要求计算芯片支持对存储介质中海量数据的高效存取,还要能支持一些特定人工智能计算需求,因此GPU 成为目前深度学习算法应用中的首要选择。FPGA(现场可编程门阵列)可以实现应用场景的高度定制,属于一种半定制化芯片。ASIC(专用集成电路)是不可配置的高度定制专用计算芯片,其性能也是最优的。TPU(张量处理单元)是谷歌公司设计的处理器,非常适合运行TensorFlow软件,还有寒武纪的NPU,都是ASIC的典型代表。另外,还涌现出各类定制化的高性能AI计算服务器,或称之为GPU一体机,一站式提供AI所需的算力。

软件框架部分,目前AI软件框架百花齐放,软件框架是整个技术体系的核心,实现对AI算法的封装、数据的调用以及计算资源的调度使用。软件框架好比是AI应用开发的操作系统,为开发者提供编程环境和算法库,并按需分配AI芯片等硬件资源,目的是构建AI系统开发和运行的软件环境。目前主流的AI软件框架主要有 TensorFlow、MXNet、Caffe、Torch、CNTK、Theano、SciKit-Learn等,软件框架的用户包括了AI服务的开发者和使用者。

技术层负责解决具体类别的AI技术问题。其中语音识别技术负责将语音转换为文本或命令,自然语言处理技术实现人和机器之间的自然语言通信,计算机视觉技术用于处理图形图像和视频内容的识别。

应用层立足于解决各行业领域实际场景问题,如安防场景下,用于警讯发现、人脸识别、道路监控等;金融场景下,可用于资产异动监测、征信风控和智能投顾等;医疗场景下,可应用于对医学影像、电子病例处理来辅助诊疗;还有目前最为火热的自动驾驶场景,谷歌、特斯拉和百度三巨头的无人驾驶汽车已经上路试运行。

以云服务方式提供人工智能服务已成为当前的趋势,人工智能云服务一般分为平台类服务和软件类服务。平台类服务包含GPU云服务,深度学习平台等,GPU云服务是以虚拟机的形式,为用户提供GPU计算资源。深度学习平台则是以TensorFlow、Caffe、MXNet等主流深度学习软件框架为基础,提供相应的常用深度学习算法和模型,组合各种数据源、组件模块,让用户可以基于该平台对语音、文本、图片、视频等海量数据进行离线模型训练、在线模型预测及可视化模型评估。软件类服务包括提供API程序接口、SDK包、消息服务接口的形式提供AI相关的在线网络服务,可包括语音识别、文字处理、图像检测、智能推荐等应用方式。

大数据为人工智能发展提供了基础资源,人工智能技术的核心就在于通过计算找寻大数据中的规律,对具体场景问题进行预测和判断。想要训练出成功的人工智能算法,需要运算力和大量的数据,其中最重要的就是数据量要足够大。除了数据量足够大,大数据还需要通过采集、清洗、标注等处理工作后才能够作为人工智能算法模型训练的输入,但目前在实际应用中,数据流通不畅、数据质量不高和数据安全风险等问题仍然极大制约着人工智能的发展和应用。

大数据与人工智能技术的完美结合,将共同驱动数字经济发展,数据智能将成为新的热点和大趋势。

“数据智能”指基于大数据引擎,通过大规模机器学习和深度学习等技术,对海量数据进行处理、分析和挖掘,提取数据中所包含的有价值的信息和知识,使数据具有“智能”,并通过建立模型寻求现有问题的解决方案以及实现预测等。

数据是新的生产要素,是智能的母体,数据智能是释放“数据红利”的“加速器”。数据智能融合数据处理、数据挖掘、数据交互等技术,将原始数据加工成信息和知识,挖掘出数据潜在的揭示性和可操作性信息,形成产业数据闭环应用体系(采集、分析、应用等)、商业数据闭环应用体系(选择、购买、支付等)及“线上审批”等制度数据闭环应用体系,全方位探寻数据空间未知潜能,为人们基于数据进行决策时提供有效智能支持。

大数据进入下半场,人工智能已然崛起,现有的大数据技术亟须和人工智能技术结合,孕育新的产业生态,通过建设数据智能平台或数据中台,打破内部数据壁垒、盘活数据资产、提升数据价值,对外提供统一的智能化数据服务,有望再次重构大数据产业生态环境,进一步深挖和释放大数据的价值红利。

03

在当前的国际政治经济环境下,我们不仅要充分利用我们的数据资源丰富和场景应用复杂优势,大力拓展人工智能场景应用落地,使得人工智能技术“枝繁叶茂”;我们更要大力发展基础理论、基础算法、芯片等人工智能“根”技术。人之无根,身如浮萍;国之无根,繁华如梦。

1.加强计算机科学、脑科学神经科学等跨学科交叉学科基础理论研究,建立国家级基础研究实验室,进行人工智能技术源头创新。

近年来,我国在人工智能的应用算法研究取得了很多的成果,但是在基础研究的创新能力方面和国外仍然有很大的差距。尽管当前学术界和产业界已经掀起了人工智能研究和应用的热潮,但是我们应该清醒的认识到人类对智能本质和机理的认识还不够深刻,对于脑科学神经科学以及计算机科学基础研究还有待深入,人工智能技术本身还处于其发展的初级阶段,距离形成完善的理论和方法体系还有很长的路要走。

因此要成立跨学科的基础理论研究中心和国家级研究实验室,进行大跨度的学科交叉研究和开放的国际合作,整合各方优势的研究力量、推动人工智能源头创新,开展原创性的研究工作和理论创新,培养更多高水平人才,更好地服务于国家的人工智能发展战略。我们只有高度重视基础研究,才有可能在人工智能马拉松式的国际竞争中始终占据有利位置。

2.在人工智能技术体系基础层,技术层,应用层等三层技术中要更加重视基础层技术研究和开发,大厦不能建在沙滩上,避免无根之痛。人之无根,身似浮萍;国之无根,繁华若梦。

目前应用层是我国人工智能最为活跃的领域,国内人工智能企业多集中在该板块。尤其是语音、计算机视觉、知识图谱等相对成熟的技术,在AI产品、融合解决方案市场(安防、医疗、家居和金融等)上都得到了广泛应用,随着我国“AI+”战略的实施,该领域的市场空间更为广阔。

技术层是人工智能的核心,除了开源技术框架主要为国外AI巨头所掌控之外,我国企业在算法、语音和视觉技术等方面的布局已经相对完善。

基础层主要为人工智能提供算力支撑和数据输入,包括人工智能芯片、算力基础设施和大数据服务等。基础设施方面,服务器、云计算、超算等算力都开始向AI倾斜,尤其是GPU服务器需求增长更为迅速,国内主要服务器企业也在持续发力,竞争优势开始凸显。但在AI芯片和基础算法等领域,我们相对薄弱,在当前的国际政治经济环境下,我们加大力度,实现自主安全可控,避免受制于人。

3.发挥我国数据资源丰富和应用场景复杂的优势,加速人工智能应用场景落地,实现数据资产化,资产业务化,以数据和应用需求驱动人工智能的发展,实现弯道超车。

我国有着海量数据资源、巨大应用需求和深厚市场潜力,应抓紧把这些优势转化为基础理论研究优势,实现人工智能可持续发展。经过60多年发展,人工智能基础理论面临新的瓶颈。应用场景落地是目前我国人工智能发展的主要驱动力量,如果坚持需求导向、市场倒逼的科技发展路径,高度重视从重大需求中抽象和定义重大基础研究问题,并组织顶尖科学家和工程师长期稳定地进行团队式研究攻关,我国有可能取得人工智能重大基础理论的创新突破。

4.突破相关技术,实现人工智能从“感知智能”向“认知智能”的迈进,从而达到“决策智能”。

目前人工智能技术主要包括以下几个方面:

(1)智能语音技术:研究人机之间语音信息的处理问题,让计算机、智能装备、家电等产品,对语音进行分析、理解和合成,实现能听会说,具备语言交流能力。

(2)自然语言处理技术:该技术可使机器理解并解释人类写作和说话方式,是人工智能最早的应用,也是现在关注度较高的领域。

(3)计算机视觉技术:主要指图像分类、目标检测、目标跟踪等技术,成熟应用包括人脸识别、视频结构化、姿态识别技术等。

(4)生物识别技术:利用人类生物特征的唯一性进行身份识别。通过对生物特征进行取样,提取其唯一的特征并且转化成数字代码,将这些代码组成特征模板。

(5)知识图谱技术:利用节点和连线来定义关系图,进行知识获取、融合和加工形成,应用于搜索、问答、分析和决策。

以数据和市场需求为驱动,加快技术研发,实现人工智能从“感知智能”向“认知智能”的迈进,最终达到“决策智能”。

5.在加强国际交流合作的同时,要注重维护国家信息安全和数据主权。

数据已经成为重要的战略资源和核心资产。数据时代,世界各国对数据的依赖快速上升,国家竞争焦点已经从资本、土地、人口、资源的争夺转向了对数据的争夺,对数据的开发、利用与保护的争夺日趋激烈,制信(数)权成为继制陆权、制海权、制空权之后的新制权。

数据安全已经成为国家最重要的战略安全之一。当前,借助大数据革命,美国等发达国家全球数据监控能力升级,美国先后推出《网络空间国际战略》《网络空间国际行动》等重要战略规划,确保自身在网络空间和数据空间的主导地位。数据安全的威胁随时都有可能发生。各种国家信息基础设施和重要机构所承载着的庞大数据信息,如由信息网络系统所控制的石油和天然气管道、水、电力、交通、银行、金融、商业和军事等,都有可能成为被攻击的目标,大数据安全已经上升成为国家安全极为关键的组成部分。

在人工智能领域加强与国际交流合作的同时,我们要尤其注意保护国家的信息安全和数据主权,避免在合作过程中我们核心数据资产遭到窃取和数据主权遭到侵犯。