时间: 2021-08-03 09:54:02 人气: 12 评论: 0
“我准备考虑一个问题:‘机器能思维吗?’”—阿兰.图灵,1950,《Computing Machinery and Intelligence》
前段时间在忙着炼丹(Deep Learning),还有几场大数据培训,很久没有动笔了。今天想和大家谈谈人工智能(Artificial Intelligence, AI),2017可谓人工智能元年,AI领域风投和创新、创业风起云涌,深度学习研究和应用持续火爆,以Facebook小扎和Tesla钢铁侠为代表的大佬们站队互掐,AlphaGo的成功营销与Watson的失败应用,国内BAT纷纷推出人工智能战略等等…这一波大数据驱动的AI热潮,发展势头强劲。下图是从我培训课件里截的,称之为四位一体看数据技术(Data Technology, DT),可以说AI高烧是大数据发展的必然。
图1 四位一体看DT
从上图可以看出,这些年从物联网,云计算,大数据到现在的人工智能,一个比一个热,这是DT前沿信息技术发展的大势,其内在的逻辑联系和发展趋势使然,终极目标直指人工智能。这就好比我们人体一样,物联网(移动互联网)构造了眼耳鼻舌身等感官,大数据是各种感官获取的感受信息,云计算是记忆存储,人工智能就是我们的认知决策。IT和DT技术发展本质是在拟人化、智能化,智能时代一定**到来是毫无疑问的,但是,发展过程也不要太乐观。
我在之前的文章里有讲到:
“大数据时代,我们周围充斥着各种不同的**、知识、信息和噪音,数据爆炸式增长和科技高速发展所带来的冲击,加大了未来的不确定性。当我们接收的数据和信息越多,面临的选择就越多,如若不善于过滤、挖掘和处理,对各种决策就可能**造成负面影响,当然也**放大我们对未来不确定性的恐惧。如何从混沌中发现规律,成为预测未来的“先知”,抑或是少出几只黑天鹅?是历代人类的梦想,不管是古人的占卜、算命还是现在的专家系统、商业智能、数据挖掘、机器学习、人工智能、智慧地球、智慧城市等技术和应用,都源于我们对未来不确定性的恐惧。”
如何降低决策过程中的不确定性,通过智能技术进行前瞻预测是关键,不管是物联网、大数据、云计算还是DT偌大的技术生态体系,其核心都是为这一目标服务。从这个角度讲,传统商业智能应用90%失败这一论断是有道理的,因为基础的数据管理和常规的统计分析,不能称之为智能,换句话说没有成熟机器学习技术的支撑和成功应用,要说多智能那就是忽悠(后面我**讲IBM Watson的问题)。
机器如何智能,系统如何智能,可谓仁者见仁智者见智。我们先来看图灵是如何定义这一问题的。作为计算机科学和人工智能领域的先驱,图灵在1950年发表的著名论文《Computing Machinery and Intelligence》中,详细讨论了机器能否拥有智能这一问题,但也只是个开放性的讨论,其实图灵也未能定义什么是智能(但提出了著名的“图灵测试”)。
在1956年的DARTMOUTH学术**议上,AI被正式提出,定义为:
“研究、开发用于模拟、延伸和扩展人的智能的**、方法、技术及应用系统的一门技术科学。通过了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,人工智能可以对人的意识、思维的信息过程进行模拟。人工智能不是人的智能,但能像人那样思考、也可能**过人的智能。智能涉及到诸如意识、自我、思维、心理、记忆等等问题。”
由于我们对人类智能本身还知之甚少,所以人工智能的发展比预想的要慢很多。图灵当时也做了个比较乐观的预测,他预测在2000年左右,机器极有可能**通过“图灵测试”,拥有初步的智能行为,现在看来这一时间是延后了,从当前自然语言处理领域的发展现状及问题来看,要解答图灵的智能之问,还需要AI研究人员多年的努力。
从历史来看,重大科学的研究往往呈螺旋形上升的过程,不可能一蹴而就,每一次基础科学研究的重大进步,科技应用的重大突破,往往先由一两个领军人物偶然点破,而后大家蜂拥而至,在很短的时间内做出大量更具突破性的成果,同时带来相关产业界的革命性增长。
经历过“三起三落”的人工神经网络,能够在换马甲为深度学习后成功逆袭,正是机器学习领域几十年来积累诞生的重大科学研究和工程应用成果,当前深度学习被看作是通向人工智能的关键技术,被寄予厚望。
图2 神经网络的“三起三落”
我在10多年前对神经网络和支持向量机两个机器学习方向都有过粗浅的学习和了解,见证了神经网络研究三起三落其中的一段时光,见证了以支持向量机为代表的浅层学习技术的火爆,但却始终少有看到机器学习技术真正走出实验室,直到最近几年,神经网络换马甲为深度学习后成功逆袭,使得机器学习领域这几十年来积累的成果,得以逐渐走出实验室,在学术界研究和产业界应用都一鸣惊人,并有望引领人工智能关键技术的跨越式发展。
图3 人工智能的泡沫
但从另一方面看,神经网络的三起三落也就代表了人工智能的三个泡沫期,这给过分热衷深度学习技术与人工智能研究应用的人来讲,也是该降降温的,期望越大,失望越大,毕竟深度学习技术没有想象中的那么强大,至少在智能算法层面的突破很有限(主要靠的还是大数据和计算力)。
换个角度看,深度炼丹术的兴起,**不**是因为机器学习算法研究几十年迟迟无重大进展,神经网络算法的一点小改进(正好遇到了大数据与GPU)就被当做了救命稻草? 或者说即使神经网络的深度架构碰巧撞到了类脑学习机制,但我们能全面解码它吗?不太了解神经科学的研究水平,这个需要大家去悟了。
AI目前的发展还处于弱AI(Artificial Narrow Intelligence ,ANI)阶段,但弱AI并不弱,如阿尔法狗一样,虽然只擅长某一方面的智能,但在这方面已然**过人类了。近年来,弱AI已经极大促进了信息化与智能化的发展,在很多领域提高了生产效率。如工业机器人、医疗机器人、智能问答、自动驾驶、疾病诊断、自动交易等系统工具,极大提高了生产力。
弱AI不能像人类一样靠理性或感性进行推理和解决各方面(哪怕很简单)问题,机器只不过看起来像是智能的,其实只是既定程序的执行而已,只能解决某一方面的问题(就像下围棋不能代表**下象棋),不**有自主意识,不**有创造性。而强AI(Artificial General Intelligence ,AGI)的定位是在各方面相当于人类或者**过人类,也称为通用人工智能。
现阶段的人工智能研究和应用主要聚焦在弱AI,强AI的研究可以说还是停滞不前,难有进展。
强AI能否实现还是未知,但要论人工智能的价值,我认为很有必要对两者进行对比,首先我个人是不支持发展强AI的,除非对其有绝对的控制能力,除非人类遇到了全球性灾难或需要星际移民,不然强AI出世就很可能是另外一种原子弹,绝对是弊大于利。
弱AI帮助人类,是我们的好助手,能提高我们的生产效率和生活水平,强AI**过或代替人类,将是大部分人类的“终结者”,至少是劳动终结者,总不可能几十亿人都去从事艺术职业吧?当然弱AI发展也**面临这一挑战,但更可控和缓和很多。
随着机器学习、深度学习和人工智能相关技术(强化学习、迁移学习、对抗学习等)的高速发展。阿尔法狗与人类顶尖棋手的人机大战,也注定成为人工智能的里程碑事件,当AI变得越来越复杂,越来越聪明,以至于在多个领域全面**越人类的时候,那时的AI**是提高人类生产力和生活质量的好助手?抑或是彻底控制奴役人类的天网?现在还难以下结论,但可以肯定的是接下来数十年里AI对人类生活造成的冲击将是巨大的。不管是技术层面还是产业应用层面,要对人工智能领域有个全面准确的理解和把握,可以说十分困难。下面提几点个人认为比较关键的问题供大家探讨。
这个问题乍看是废话,现在AI这么火,当然是**金时代啦。从人工智能的三起三落来看,现在是处于技术和产业发展的波峰。而这一热潮的兴起一是得益于深度神经网络技术的发展,二是通过物联网和移动物联网等技术,大数据的爆炸式增长成为常态。三是大数据分析预测是解决不确定性问题的必然,大数据条件下的复杂性问题,越来越难以应用传统建模技术加以解决,而客观世界的复杂性,传统的机械模型更是难以分析和预测。
图4 农业时代到智能时代
工业时代通过机械动力优化,放大了我们的体力,我们得以改造物理世界;智能时代通过算法优化,放大了我们的脑力,将极大改造我们的脑力世界。从人类社**发展大趋势来看,现在称之为AI**金时代并不为过。
但这里有个不确定性,那就是AI技术发展的瓶颈问题,深度学习技术能否担当重任,能否一鼓作气有更大的突破,或者几年后又得停滞不前几十年,都有可能。
但可以肯定的是,对弱AI来讲,现在是再好不过的**金时代,兴起的投资热潮也是看到了各个垂直领域应用弱AI的极大潜力;对强AI来讲,面临的技术瓶颈短期内难以突破,不过有没有可能多年后冒出个终极算法,全面解决类脑学习问题?不是没有可能,只是几率很小。
尽管人工智能的发展已经**过50年,但仍然还处于一个比较早期的发展阶段,其应用主要集中在弱AI和垂直行业相结合的领域。
从产业链上看,人工智能产业链包括基础支撑技术(如大数据、云计算等)、人工智能技术(机器学习、深度学习等)及人工智能应用(语音、对话、识别等)三个层面,其中基础技术支撑由数据中心及运算平台构成,即计算智能阶段,包括数据传输、运算、存储等;
人工智能技术是基于基础层提供的存储资源和大数据,通过机器学习建模,开发面向不同领域的应用技术,包含感知智能及认知智能两个阶段,感知智能如语音识别、图像识别、自然语音处理和生物识别等,认知智能如机器学习、强化学习、对抗学习、自然语言理解等;
人工智能应用主要为人工智能与传统产业相结合,以实现不同场景的应用,如机器人、无人驾驶、智能家居、智能医疗、智能问答等领域。
从上述几个方面可以看出,AI产业链的应用成熟度取决于关键技术在垂直领域的突破,如果想靠大规模投资来快速推进AI技术的突破是不现实的,而是要反推,技术成熟一个再应用一个,这样比较稳妥。
图5 谷歌产品线应用深度学习技术
这一波人工智能的发展,大数据处理、深度学习和GPU计算三个方面的技术起到了关键的推动作用。大数据的采集、基础管理和云计算、GPU计算等技术应该说比较成熟了。突破智能的难点还是在机器学习。
我在前文反复提到过,不谈机器学习的智能技术多是在耍流氓。作为机器学习的子领域,深度学习虽然很牛,但它还是神经网络那套算法**,几十年前就提出来了,换句话说还是在啃老本啊。不管是支持向量机、贝叶斯、决策树等浅层学习算法,还是深度网络衍生出来的深度强化学习、迁移学习、对抗学习等,大部分**、算法在几十年前的人工智能教材上都能找到,唯一不同的加了个深度,有强大的计算力支持,能处理大数据了。
图6 人工智能与机器学习
近年来的人工智能开源框架更是基本等同于深度学习,虽然TensorFlow、Keras、MXNet等深度学习框架备受开发人员推崇,但还是缺乏完整的人工智能技术链,深度学习被捧得太高不是好现象,传统的知识库、专家系统和规则式AI与深度强化、迁移、对抗等学习的融合才是AI发展的正途,另外从芯**、算法、平台、架构到应用等方面来看,弱AI要全面开花落地都还有较长的路要走。
再就是浮夸风问题,一些科技媒体抱着Arxiv的某篇论文,就能说解决了某重大应用问题,十分不严谨。如果要给AI技术成熟度打个分的话,个人认为总分100分的话最多算70分,而且还是抱了深度学习的大腿。至于深度学习技术发展的后劲如何,短时间内是否发展成为Musk所说的那样可怕,那要看IT巨头们机器农场中深度网络的工程能力和“进化”速度了,没有大数据资源和大规模计算资源的一般研究机构和人员是很难知晓的。
在提这个问题之前,大家可以思考一下,有没有非数据驱动的智能?换句话说,如果没有大数据,除了专家系统和规则式AI,人工智能怎么发展?能否在智能学习方面有所突破?现阶段的AI多是数据驱动的AI,因为没有数据的喂养,就没有深度学习的成功。
数据驱动的AI离不开大数据,大数据与AI是一种共生关系:
那么怎么做非数据驱动的AI呢?传统的规则式AI可以说是非数据驱动的,更多靠人工内置的经验和知识驱动,不过它最大的问题也是要人工介入,而且很难具有学习能力,靠的知识、记忆和经验建立的规则体系。强AI的目标是机器智能化、拟人化,机器要完成和人一样的工作,那就离不开知识、记忆和经验,也离不开通过知识、经验和记忆建立起来的认知体系(经验规则、知识本体)。
从这个角度讲,强AI要实现只靠深度学习还不够,但也不能绕过深度学习,通过深度学习进行物理世界基础知识的初步监督式或半监督学习(幼儿要人教),深度学习掌握的知识必须要能存储记忆并形成经验规则,只有这样遇到新的问题之后,才能智能响应(小孩通过知识经验的积累,不再需要人教而能自我学习)。这需要学习、存储、记忆、推理和构建知识体系,所以说强AI短期要实现很困难。
首先我们来看深度学习的“浅”,深度学习的核心**还是基于浅层神经网络的堆叠,核心技术本身并无新意,Hinton也只是做了有限的改造和提升。另外,伟大的东西往往很简单,好比爱因斯坦的EMC方程,深度学习是一种朴素、简单、优美而有效的方法:像小孩搭积木一样简单地构建网络结构;性能不够,加层来凑的朴素思想,这种标准化、易用性的处理架构,极大降低了机器学习的难度,当然最关键还是应用效果。从这个角度理解,深度学习并无深意,只是对传统浅层神经网络做了少量改造。
再来看深度学习的“深”,在我看来,深度学习绝不只是几个具体算法、模型那么简单,而是一种仿人脑多层异构神经元连接网络的机器学习思想、方法论和技术框架(可能**从传统机器学习学科中分离出来,传统浅层学习模型的深度化是一大研究趋势)。各类深度学习网络的变异、进化、融合,结合GPU**级计算将是未来现实大数据条件下大规模机器学习的重要方向,特别是海量多模态大数据条件下的机器学习,没有深度架构只靠浅层学习,将无法支撑大数据条件下自动特征学习、模型的有效表达和记忆存储。
当然,深度学习在当前看来是通向现实人工智能的一条有效途径,但不应该是一种包罗万象的解决方案。尽管深度学习的能力相比传统机器学习技术很强,但和真正的人工智能目标相比,仍然缺乏诸多重要的能力,如复杂的逻辑推理、知识抽象、情感经验、记忆和表达等。不过深度学习发展现在还处于初级阶段,能否真正实现类脑计算解码还需要时日加以验证;另外,随着深度学习的网络形式和深度架构的逐步演进, 与基于经验知识库的规则式AI相结合,能否形成终极的类脑学习框架,让我们拭目以待。
前段时间,Tesla钢铁侠Musk与Facebook小扎进行了一场谁不懂AI的嘴炮对决,大佬们纷纷站队,貌似支持小扎的大佬要多一些?他俩到底争个啥,在我看来绝不是单纯的AI技术问题,而是在讨论强AI的可能性和强AI的觉醒时间。
李嘉诚邀请阿尔法狗创始人戴密斯·哈萨比斯(Demis Hassabis)给他讲课,日本软银孙正义计划几百亿只投资人工智能相关项目,都是在押宝这一问题。
其实弱AI与强AI的二元划分不是太合理,我们都知道技术的发展是个量变到质变的过程,弱到强之间难有技术分水岭,就像神经网络的三起三落,十年前没有大数据支持,神经网络学习效果不佳就说他弱吗?现在换了个马甲,因为有大数据了,学习效果好太多了就说它强吗?某一方面的技术不能说明问题,一个领域的突破性发展往往是一系列关键技术的改进在推动,缺一不可。
图7 人类发展进程曲线
那么大佬们当下关注的关键问题-强AI何时到来?这也是小扎和钢铁侠争论的焦点,这个时间节点能否预测呢?首先看下上图的人类发展进程曲线,这个曲线表达的是核心意思是,我们的发展进程是经历突变还是渐变多一些?这个还真不好说,原子弹发明之前,大部分科学家预测短期不可能,至少要几十年,也有科学家预测只需要几年,人工智能的三起三落也是,前几十年的乐观预测都失败了,未来几年**不**产生突变呢?谁也说不准,首先我们不能以深度学习技术现有的局限来推断其未来的发展潜力,就像我们不能预测Hinton是在2006年提出DBN,而不是1996或是2026?另外强AI能否觉醒,这得看未来数年里,是否有Arxiv上的某篇论文提出了机器学习的终极算法?或是Facebook机器农场中的某个深度网络全面解码了人脑的学习机制,抑或是谷歌机器农场中的某个深度网络通过本体学习和记忆产生了初级意识。
上文说到,强AI的可能性,强AI何时能实现?是以小扎和钢铁侠为代表的大佬们,关于谁更懂AI展开嘴炮的焦点。要回答这一问题,首先得搞清楚AI技术发展的现状和瓶颈,下面就通过当今世界最顶级的两个AI系统,阿尔法狗(Alphago)和沃森(Watson)的对比分析,来深入探讨这一问题。
AlphaGo采用的核心技术我在前文《阿尔法狗(AlphaGo)彻底战胜人类意味着什么》中有深入分析,简单来讲,其基于深度学习+强化学习+蒙特卡洛树决策的组合式学习方法(或者说学习框架)应用说摸到了类脑学习的边,其学习下棋分为三个阶段:
Watson的系统架构如下图,IBM 关于 Watson的宣传资料提到,Watson原来只有1个 “深度问答”的API,现在已经有42个API应用于36个国家的几十个行业,内容涵盖文字图像识别、自然语言理解、专业知识学习、人类情绪分析等各个领域。通过其技术架构分析,可知Watson 的核心功能是文本挖掘和知识问答,核心技术采用了基于统计学习算法和规则式自然语言处理(NLP)技术。
从这个角度讲,IBM Watson的学习能力是十分有限的,依靠的海量非结构化大数据,加知识规则匹配,其重点宣传的认知智能是基于自然语言的情感分析和语义理解,是否采用了更为先进的深度学习算法不得而知。
可以肯定的是网上关于Watson系统的负面评价却不少,医疗智能诊断AI的失败,暴露出了不少问题,比如需要几个月时间进行繁重的训练,专家们需要给系统喂养海量条理清楚的数据(未经整理过的数据一般不能用,这是浅层学习模型的硬伤,而深度自动特征学习在一定程度上改善了这一问题,但还有相当大的技术瓶颈需要突破),而且不能在不同的数据集之间建立联系(这点是Palantir大数据系统的强项,详见前文《大数据独角兽Palantir之核心技术探秘》)。
图8 IBM Watson架构
几十年来,人工智能技术研究的五大门派(如下图)一直以来都在彼此争夺主导权。
图9 人工智能五大门派
通过上述比较分析,可以看出AlphaGo与Watson的优劣。AlphaGo的技术框架通用性更好,深度学习能力更强,而Watson更多采用的传统规则式AI技术,虽然有自然语言文本等非结构化大数据优势,但没有关联挖掘和深度学习能力,其智能化水平有待提高。
另外,通过AlphaGo与Watson核心技术架构的对比,在大数据条件下,联结派和符号派AI谁更牛高下立见,但都有各自的优点和缺点。根据Domingos的观点,机器学习五大门派有望交叉融合产生终极算法,但是时间上却难以推测。
个人认为,未来联结派和符号派的融合**是大势所趋,基于自动特征抽取和规则关联推理的深度学习,与基于知识经验的终身学习相结合,是AI进一步发展的关键技术方向。
最后做点展望,人工智能技术毫无疑问**改变我们的世界,越是强大的技术,其自身发展的速度(指数级)也是难以想象和预测的,当谷歌的自动驾驶狗(已行驶**200万公里)、医疗狗(DeepMind各种疾病诊断AI已初现身手)、翻译狗(谷歌几十种语言的自动翻译)、军事狗(Boston Dynamic机器人)、金融狗…等各种狗连成一**的时候,工业机器人很可能**走出牢笼,变身各种机器助手进入到我们家里和办公室里,而AI的服务端则**像电力一样提供源源不断的智能信息服务,到时我们的社**究竟**变成怎样,这不是一个单纯的技术问题,特别是面对强AI技术的研发和应用,我们应该重视其对社**、经济、政治产生的深远影响。假如有一天强AI真的觉醒,对于人类的未来,可以说是吉凶难测,这取决于我们的技术管控和团队协作等能力,还取决于更重要的一点,那就是人性。
李开复:
“类人机器人只是科幻,人形机器人将马上进入千家万户的说法,简直是无稽之谈。人工智能擅长对目标明确的工作进行优化(但是不能创造,没有感情);机械控制的发展速度较人工智能软件的发展要缓慢得多;传感器虽然得到迅猛发展,但价格昂贵、体积偏大且太耗电。机器人的开发要牢记实用性这一原则:机器人或能创造效益,或能节省成本,或能提高生产,或可以提供娱乐。过度担忧可能导致大众忽视AI正在带来的巨大机遇,也**让更多更紧迫的AI问题没有得到关注,这只**捡了芝麻丢了西瓜。未来十年,AI将大规模地取代那些依靠人力的、重复性的、分析性的岗位。因此,我们要肩负起创造更多社**服务性岗位的职责,而不是空想或谋划一个充斥着“不适用于人类”职位的社**…”
扎克伯格:
“人工智能威胁人类的观点“相当不负责任”,未来五到十年,人工智能**大为改善人类生活质量。人工智能已经在诊断疾病方面提供帮助,自动驾驶汽车也是人工智能改善人们生活的一种表现。科技应用一直都利弊兼有,创造技术的时候需要小心,但有人主张要放慢人工智能的研究步伐,其动机确实值得怀疑。”
Elon Musk:
“我认为,我们对待人工智能应当非常谨慎。如果让我猜测,人类最大的威胁是什么,那么就是人工智能。因此我们需要非常谨慎。我越来越感觉到,这里应当有一定的监管,或许是在全国层面,或许是国际层面,这只是为了确保我们不**去做一些蠢事。”
比尔盖茨:
“我和那些担心**级智能的人同处一个阵营。起先,机器将帮我们做许多工作,更不用说**级智能。如果控制得好,人工智能应该**非常有利。不过,几十年后人工智能**强大到足以令人担忧的地步。在这一点上我**同Elon Musk等人的看法,而且我不明白为什么一些人**对此仿佛若无其事。”
**:
“我认为人工智能,你是改变不了的,这是一个巨大的趋势,你只能改变自己。为未来来讲,三十年也好、五十年也好,人类的冲击一定**非常之大,而且一定**非常疼痛的,任何高科技带来的问题,带来好处也**带来坏处。有一点是肯定的,未来的机器一定比你更了解自己,人类最后了解自己,是有可能通过机器来了解的,因为我们的眼睛是往外看的,IT往外看的,但是DT是往内看的,往内走才是有很大的一个差异。至于前段时间比较热门的AIphaGo,人跟围棋下,我在深圳互联网大**上讲了一下,我认为这是一个悲剧,围棋是人类自己研究出来,自己玩的东西,人要跟机器去比围棋谁下得好,我第一天就不**比,就跟人要跟汽车比谁跑步跑得快,那不是自己找没趣吗,它一定比你算得快。”
王垠:
“很多人喜欢鼓吹人工智能,自动车,机器人等技术,然而如果你仔细观察,就**发现这些人不但不理解人类智能是什么,不理解人工智能有什么局限性,而且这些“AI 狂人”们的心,已经严重的机械化了。他们或多或少的失去了人性,仿佛忘记了自己是一个人,忘记了人最需要的是什么,忘记了人的价值。这些人就像卓别林在『大独裁者』最后的演讲里指出的:“机器一样的人,机器一样的心。”每当提到 AI,这些人必然野心勃勃地号称要“取代人类的工作”,“节省劳动力开销”。暂且不讨论这些目标能否实现,它们与我的价值观,从一开头就是完全矛盾的。一个伟大的公司,应该为社**创造实在的,新的价值,而不是想方设法“节省”什么劳动力开销,让人失业!想一下都觉得可怕,我创造一个公司,它最大的贡献就是让成千上万的人失业,为贪得无厌的人节省“劳动力开销”,让贫富分化加剧,让权力集中到极少数人手里,最后导致民不聊生,导致社**的荒芜甚至崩溃……”
作者:杜圣东
来源:点金大数据
本文由 @点金大数据 授权发布于人人都是产品经理,未经作者许可,禁止转载。
部分内容和图**选自网络;题图来自PEXELS,基于CC0协议