SKLearn基础教程(二)

机器学习（Machine learning）是人工智能的子集，是实现人工智能的一种途径，但并不是唯一的途径。它是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。

1.人工智能

人工智能（Artificial intelligence）是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它是一个笼统而宽泛的概念，人工智能的最终目标是使计算机能够模拟人的思维方式和行为。

2.机器学习

机器学习（Machine learning）是人工智能的子集，是实现人工智能的一种途径，但并不是唯一的途径。它是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科。

3.深度学习

深度学习（Deep learning）是机器学习的子集，灵感来自人脑，由人工神经网络（ANN）组成，它模仿人脑中存在的相似结构。在深度学习中，学习是通过相互关联的「神经元」的一个深层的、多层的「网络」来进行的。「深度」一词通常指的是神经网络中隐藏层的数量。大概在2012年以后爆炸式增长，广泛应用在很多的场景中。

4.机器学习三要素

机器学习研究的是计算机怎样模拟人类的学习行为，以获取新的知识或技能，并重新组织已有的知识结构，使之不断改善自身。从实践的意义上来说，机器学习是在大数据的支撑下，通过各种算法让机器对数据进行深层次的统计分析以进行「自学」，使得人工智能系统获得了归纳推理和决策能力。

机器学习三要素包括数据、模型、算法。这三要素之间的关系，可以用下面这幅图来表示：

数据：首先我们收集到的仅仅是一些原始数据（Raw Data），通过数据采集和分析整理转换为特征向量，特征是模型的输入，也称为特征向量。特征可以是原始数据的子集，也可以是对原始数据进行预处理后的数据。

模型：模型是机器学习的结果，这个学习过程，称为训练（Train）。一个已经训练好的模型，可以被理解成一个函数：y=f(x)。我们把数据（对应其中的 x）输入进去，得到输出结果（对应其中的 y）。这个输出结果可能是一个数值（回归），也可能是一个标签（分类），它会告诉我们一些事情。简单说，模型是基于数据，经由训练得到的。

算法：算法是机器学习和深度学习中最具技术含量的部分，算法的目标就是：让训练数据的所有 x 经过 f(x) 计算后，获得的 y’ 与它们原本对应的 y 的差别尽量小。需要强调的是：要得到高质量的模型，算法很重要。有监督学习需要标注数据。因此，在进入训练阶段前必须要经过一个步骤：人工标注。人工标注的过程看似简单，但实际上，标注策略和质量对最终生成模型的质量有直接影响。往往能够决定有监督模型质量的，不是高深的算法和精密的模型，而是高质量的标注数据。