机器学习该怎么入门?

分享一篇如何机器学习如何入门的文章。考虑到机器学习是现在挺热门的技术专业,如果你的本科专业是计算机类的,面临着未来方向的一种选择(吐槽一下,计算机类的方向实在是太多了),那么选择一个比较热门的方向去做是非常OK的。这就像生在一个金庸宇宙,所有的人和事都在说会武功这件事多么的爽快、多么的厉害,还要是有追求的人都想去学学武功、闯荡江湖了。


 

l 门派之别

既然是学武功,咱得先认准门派是不是?不过我得先声明一下,江湖上门派林林总总,“人工智能”却不是一个门派,它是武功达到一定高的程度之后所呈现出的结果,就跟万千武功殊途同归于无招胜有招之境一样。那么江湖上到底有什么门派呢?说起来,计算机技术届的更新换代实在是太快了,但当今江湖有三大派已经屹立数年,它们就是“机器学习”“深度学习”“强化学习”——可见机器学习正是三大门派之一。

说到“机器学习”,它跟“人工智能”一样,是一个大概念,指的是能够赋予机器智能,能够像人类一样进行决策。同时,它也是实现“人工智能”的方法之一。


“机器学习”派本身包罗万象,有各种传统的来自于“数据挖掘”派的招式;有来自于神经网络的招式;有来自于机器人学的招式。创派之时江湖上还是硬件的天下,“机器学习”派在腥风血雨里苦苦挣扎。突然间,信息爆炸时代的来临、大数据的崛起让机器学习的春天到了,江湖都传言“机器学习”派的内功心法博大精深,会之可纵横天下。于是乎闻名而来之人之机构之应用数不胜数,门派发展一片繁荣,隐隐有一家独大之迹象。

 

l 各有所长

摊子大了,分家的时候也就到了,如前所述,“机器学习”派的招式来自于不同的地方,这些人互相谁也不服谁,所以干脆自己独立单干。然后就分成了几个独立的派系,其中基于神经网络的招式独立为“深度学习”派,基于机器人学的招式独立为“强化学习”派,剩下的基于早期数据挖掘的招式独立为“机器学习”派(江湖人称“传统机器学习”)。

传统机器学习,适用于结构化的数据(就是非常规整的表格型数据),适用于需要进行预测的场景(预测类别型结果、数值型结果):信用风险检测(预测类别)、销售预测(预测金额)、用户画像(预测类别)、商品推荐(预测类别、预测评分)等等。

强化学习,适用于需要探索和优化的场景,不一定需要结构化的数据,对于模拟环境的准确度有强要求,能够根据环境中参数的变化自动给出最优选择:制造业某种设备运行时参数自动调控、智能温控、智能污水处理、智能交通信号灯、Alpha Go围棋。


深度学习,适用于非结构化数据,比如图像、语音等,适用于识别类场景:图像识别、语音识别、语音合成、语义识别。

 

l 身兼数家

Ok,既然想要闯荡天下,那么身兼各家之所长肯定是最好不过啦。But,万事总要有个开始,建议你先找一个AI的使用场景,然后定义这个场景是属于前述哪个派别的,接着再开始学习这个派别的知识。等这个派别的知识掌握了,那么其它两派不说信手拈来,总可初窥门径——比如,想要做一个股价趋势预测,这个场景3个门派都可以实现。


当然啦,三大门派的招式也可以结合使用,比如传统机器学习在预测型场景中的强大作用可以作为强化学习所需模拟环境的建立;深度学习可以膨胀数据的维度,将非结构化数据转换为结构化数据,然后使用传统机器学习去处理;当强化学习碰到的环境状态的变化是连续的、无穷多的时候,深度学习可以提供强大的适应性,成为强化学习模型的一部分。

 

l 武功秘籍

接下来还有一个hin重要的事情,那就是学好python!学好python!学好python!

重要的事情说3遍也不够,不仅仅是因为现在有众多机器学习库支持python,也因为python脚本语言的特性、python语言简洁优雅,非常适合做数据处理(学好pandas、numpy两个库),常言道“建模5分钟,数据处理半年”。如果去看一些机器学习库、框架的教程,可能建模只需要5行代码以内就可以完成,这是因为这些库都封装了很多的机器学习的算法。这会给人一种成就感——“看!我也会人工智能了”,但其实吧,这种成就感是虚假的。

我建议还是要从算法原理本身入手,毕竟你我皆凡人,活在人世间,我们没有主角光环,只能像郭靖一样,踏踏实实的学起。但是也别悲观,这件事也没有那么难。我们也不会像小说里的路人甲一样,没有际遇、没有秘籍。接下来,我就推荐几本入门的书给题主以及和题主一样想学成功夫闯荡江湖的朋友:

《数据挖掘-概念与技术》,这是一本非常经典的讲数据挖掘的书,传统机器学习几乎所有的方法都在这本书里有讲解,算法讲述通俗易懂,例子上手非常简单


 

《Make Your Own Neural Network》,一步步的讲解神经网络的原理,引导搭建自己的神经网络,一本趣味性和技术性兼备的好书


 

《深入浅出强化学习:原理入门》,这是一本非常适合小白的讲强化学习的书,真的做到了深入浅出


 

l 神兵利器

当机器学习的知识积累了一部分之后,肯定要开始动手实践了,只有内功没有兵器,

那再好的功夫也出不来,一个强大的、不必关心细节的平台或者工具是非常重要的,尤其是涉及大量数据计算的时候个人电脑根本扛不住,还得自己费尽功夫搭集群。幸好现在有云计算了,各家云计算底层技术大同小异,在上层的应用上对比下来,最容易上手最简单的还属于华为云的EI。华为云EI下面有机器学习服务、深度学习服务等等,能够很快的将前述所学内功尽情发挥。


 

l 行走江湖

好了,学成了功夫,不管功夫如何,总该在江湖上闯一闯。在此要澄清一个问题,闯荡江湖并不要像金庸的武侠小说那样,非得拼出个功夫高低。现在很多公司招机器学习相关的人的时候已经不太看重对于算法的掌握,而是看掌握的东西与其公司本身的业务使用是否相关。毕竟一个图像处理的大牛再牛,也干不了设备自动控制的活儿,所以找准机器学习本身应用切入点更为重要。

最后,对于想要入门机器学习的你,再强调一遍“绝密心法”:应用大于算法!应用大于算法!应用大于算法!重要的事情此处再说3遍。