原标题:谷歌人工智能专家推荐!美亚有4.5颗星。这本关于机器学习的畅销书在美国Amazon.com引起了轰动,有大量关于机器学习的书籍。然而,这一领域的一本书仅用了100页的内容就进入了图书销售总额的前1000名。在亚马逊的官方网站上,这本书在亚马逊关于机器学习的书籍列表中一直处于领先地位,并获得了4.5星的好评,成为美亚在机器学习领域最畅销的书籍之一。这本书是 《机器学习精讲》 。
作者安德烈·布尔科夫,一位目前居住在加拿大魁北克的机器学习专家。他拥有人工智能博士学位,尤其是自然语言处理技术。目前,他是高德纳咨询公司机器学习开发团队的负责人。
为何要了解机器学习
自从人工智能诞生以来,人们一直期待这项技术颠覆传统,创造未来。今天的企业和个人正在经历工业化以来最重大的变化。人工智能技术不断应用于地面,许多企业突破了原有的商业布局。
不论你接不接受,一个属于人工智能的时代已经来临。Gartner预测,到2020年,人工智能将创造230万个就业机会,并消除180万个就业机会。对个人来说,因为他们无法抗拒时代的潮流,他们需要适应变化。然而,机器学习——是人工智能的重要驱动力。目前,这个领域的专家很少。雇主们都在为微软技术人员而战。因此,理解机器学习是进入人工智能领域的有效策略。
这本书讲了什么?
人工智能的核心是机器学习。本书《机器学习精讲》包含了机器学习的本质,以简洁的方式向读者解释了机器学习的基本原理。
具体内容包括监督和非监督学习、支持向量机、神经网络、积分算法、梯度下降、聚类和分类、降维、自编码、转移学习、特征工程和超参数调试。
《机器学习精讲》
译者有话说
作者:[·加拿大]安德烈·布尔科夫)
译者:汉·姜磊
初学者入门机器学习的第一个困难
l 可解释性
我第一次接触“机器学习”是在五年前,当时我刚刚决定在新加坡南洋理工大学攻读计算机科学博士学位。与计算机学院的主流课程相比,如数据库、软件开发、嵌入式系统等。“机器学习”的“新领域”既奇怪又令人望而生畏。当时,“学习”并不深入,“数据科学家”刚刚被《哈佛商业评论》宣布为“21世纪最有吸引力的职业”。回顾过去,大约在同一时间,“人工智能”正在积累能量,并获得空前增长的势头。
我在新加坡南洋理工大学的研究项目是一个工业应用问题,所以我可以访问各种工业数据和工具,并在我的研究工作中尝试一些机器学习模型。与此同时,与机器学习相关的各种文档、材料和开源项目在互联网上涌现出来。
l 内存中vs.内存外
与专业教科书相比,这本书更像一本科普书。任何有代数基础知识的读者都能理解它的大部分内容。这本书篇幅短,章节清晰。它既适合一般阅读,也适合精读。书中介绍的许多实用技巧也可以帮助读者快速入门。
对我个人来说,翻译一本专业书籍是一个全新的挑战。当时有两个主要的考虑:一方面,将原著内容翻译成另一种语言的过程也是加深对各种技术概念的印象和在精读中发现新的观点和问题的过程;另一方面,随着越来越多的行业加入人工智能的创新浪潮,对机器学习人才的需求将继续增加。我也希望,通过我自己的努力,更多对机器学习感兴趣但又不愿这样做的中国读者会接触到这本书。
l 特征数与样本数
对于初学者来说,如果他们想用机器学习来解决实际问题,他们面临的第一个问题是如何根据具体问题选择合适的算法。这需要考虑数据的大小、质量和性质、可用的计算时间、任务的紧迫性和数据。新手小白经常在这一步受阻。
异步君主分享本书的内容,为初学者选择学习算法提供理论指导。
选择机器学习算法并不容易。如果有足够的时间,我们应该尝试所有的算法。然而,总的来说,我们解决问题的时间有限。在开始解决问题之前,我们可以回答几个问题,根据答案缩小可选算法的范围,然后测试我们的数据。
l 类型特征vs.数值特征
我们的模型需要对非技术受众进行解释吗?许多高精度的学习算法就是所谓的“黑盒”算法。他们可以学习一个几乎不会出错的模型,但是做出特定预测的原因可能很难理解,甚至更难解释。例如,神经网络模型和集成模型。
此外,由K-近邻、线性回归或决策树算法生成的模型不一定是最精确的,但是它们预测的原因很简单。
l 数据的非线性
我们的数据集能完全加载到服务器或个人电脑的内存中吗?如果是这样,我们可以选择的算法范围相对较大。否则,我们可能需要考虑使用增量学习算法,通过逐渐增加数据来提高模型的性能。
l 训练时间
我们的数据集中有多少训练样本?每个样本有多少特征?一些算法可以处理大量样本和数百万个特征,包括神经网络和梯度下降(我们将在后面详细考虑这两个)。有些算法的容量要小得多,比如SVM。
l 预测时间
我们的数据是只包含类型特征还是只包含数字特征,还是两者兼而有之?根据具体的答案,有些算法可能不能直接应用于我们的数据集,类型特征需要首先转换为数字特征。
多位人工智能专家推荐
我们的数据是线性可分的吗?或者可以用线性模型来建模?如果是,SVM用线性核、配对率或线性回归可能会有很好的效果。否则,深层神经网络或集成算法可能更合适。我们将在第6章和第7章分别解释这两种算法。
这本书有什么特色?
我们想要一个学习算法花多长时间来建立一个模型?众所周知,神经网络的训练速度很慢。简单的算法,如配对率回归、线性回归或决策树,要快得多。一些特殊的算法库集成了非常有效的实现方法。我们可以通过网上调查找到这些图书馆。一些算法(如随机森林)可以减少构建具有多核处理器超高性能的模型所需的时间。
适合人群
我们希望模型多快生成预测结果?该模型将用于需要超高吞吐量的生产环境吗?如SVM、线性回归、配对率回归和神经网络模型,预测速度特别快。其他的,如最近邻,集成算法和非常深或循环的神经网络,相对较慢的[2]。
如果我们不想凭空猜测哪种算法最适合我们的数据,一个流行的选择是在验证集上进行测试。我们稍后再谈。另一种方法是,如果使用scikit⁃learn库,我们可以使用他们的算法来选择如图所示的图形。
scikit⁃learn特殊机器学习算法选择图表
全面地了解机器学习的基础知识
作者完成了一项非常重要但困难的任务——,将所有机器学习内容压缩到100多页。他选择的主题对实践者在理论和实践上都有很大帮助。
这本书很短,但它涵盖了非常广泛的主题。作者没有省略数学公式。我欣赏作者用简洁的语言解释核心概念的能力。这本书不仅可以帮助初学者,而且为读者提供了一个全面的视角,具有一定的机器学习基础。
——高级人工智能工程师奥雷连·格隆
这是一份简化的机器学习入门手册,我认为它将成为学习者和实践者的重要参考。较短的长度使读者能够很快读完这本书。即便如此,这本书涵盖了机器学习的大部分内容,从经典的线性和对数概率回归到现代支持向量机、深度学习、提升方法、随机森林等。本书详细介绍了这些方法。
阅读这本书不需要深入的数学、统计学或编程知识。这本书适合每个刚开始用机器学习的博士生。这本书通过代码解释了一些算法。Python是机器学习应用程序中常用的编程语言。如果你是机器学习的初学者或者想扩大知识储备的从业者,我强烈推荐这本书。
——加里思·詹姆斯,南加州大学马歇尔商学院统计学教授
这本书是专门为那些想在工作中应用机器学习技术但没有太多时间学习的工程师设计的。
——Deepak Agarwal,领英的人工智能助理总监
是机器学习的好介绍。
——亚马逊数学和科学主管卡罗利斯·城市单胞菌。
我希望在我还是研究生的时候就有这样一本书,并且刚刚接触到机器学习。
——研发负责人兼Lucidworks副主任韩超
这本书从第一页省略了细节,直接切入主题。效果很好。
——Sujeet Varakhedi,易趣工程总监
《机器学习精讲》
图书特色
首先,这本书是专门为机器学习的初学者设计的。随着大量与机器学习相关的文档、材料和开源项目出现在网络上,希望在工作中应用机器学习技术的工程师或研究人员一方面受益于大量信息带来的便利,另一方面,由于信息量大,他们往往不知道从哪里开始。
通过阅读这本书,初学者可以为理解这一领域的复杂问题和比-END-更深入的研究打下良好的基础。同时,该书还为有专业经验的读者提供了多种自学指导。作为参考书,它也适用于项目开始时的头脑风暴阶段。例如,评估机器学习是否适合解决技术或业务问题可以为这部分读者提供具体的解决方案。
今日福利
作者:加拿大[]安德烈·布尔科夫
译者:汉·姜磊
《机器学习精讲》
简化并直接进入主题——。长度很短,省略了第一页的细节,直接进入主题。读者只需100页的内容就能快速阅读和掌握机器学习技术的精髓。
●易于阅读,适合初学者——。阅读这本书不需要深入的数学、统计学或编程知识。这本书通过代码解释了一些方法,使用的Python语言也是机器学习应用程序中的一种常见编程语言。它非常适合机器学习的初学者或希望扩大知识储备来阅读和学习的从业者。
●支持网页——本书配有不断更新的网页,以补充本书的内容,包括问答、代码、推荐阅读材料、工具和其他相关内容。扫描书中的二维码来查看它。
●全色打印——色彩丰富,易于阅读。
如何获得:
在看
参与话题留言
作者:加拿大[]安德烈·布尔科夫
译者:汉·姜磊
转发本文至朋友圈访问[异步图书]微信公众号。在同名文章今日互动话题:“你了解过哪些机器学习的算法呢?”010-59000中,1月15日,异步王将选择2个读者给出《机器学习精讲》。
010-59000
010-59000