← 返回首页
SKLearn基础教程(二)
发表时间:2023-05-29 02:25:02
机器学习基础

机器学习(Machine learning)是人工智能的子集,是实现人工智能的一种途径,但并不是唯一的途径。它是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。

1.人工智能

人工智能(Artificial intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。它是一个笼统而宽泛的概念,人工智能的最终目标是使计算机能够模拟人的思维方式和行为。

2.机器学习

机器学习(Machine learning)是人工智能的子集,是实现人工智能的一种途径,但并不是唯一的途径。它是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。

3.深度学习

深度学习(Deep learning)是机器学习的子集,灵感来自人脑,由人工神经网络(ANN)组成,它模仿人脑中存在的相似结构。在深度学习中,学习是通过相互关联的「神经元」的一个深层的、多层的「网络」来进行的。「深度」一词通常指的是神经网络中隐藏层的数量。大概在2012年以后爆炸式增长,广泛应用在很多的场景中。

4.机器学习三要素

机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构,使之不断改善自身。从实践的意义上来说,机器学习是在大数据的支撑下,通过各种算法让机器对数据进行深层次的统计分析以进行「自学」,使得人工智能系统获得了归纳推理和决策能力。

机器学习三要素包括数据、模型、算法。这三要素之间的关系,可以用下面这幅图来表示:

数据:首先我们收集到的仅仅是一些原始数据(Raw Data),通过数据采集和分析整理转换为特征向量,特征是模型的输入,也称为特征向量。特征可以是原始数据的子集,也可以是对原始数据进行预处理后的数据。

模型:模型是机器学习的结果,这个学习过程,称为训练(Train)。一个已经训练好的模型,可以被理解成一个函数:y=f(x)。我们把数据(对应其中的 x)输入进去,得到输出结果(对应其中的 y)。这个输出结果可能是一个数值(回归),也可能是一个标签(分类),它会告诉我们一些事情。简单说,模型是基于数据,经由训练得到的。

算法:算法是机器学习和深度学习中最具技术含量的部分,算法的目标就是:让训练数据的所有 x 经过 f(x) 计算后,获得的 y’ 与它们原本对应的 y 的差别尽量小。需要强调的是:要得到高质量的模型,算法很重要。有监督学习需要标注数据。因此,在进入训练阶段前必须要经过一个步骤:人工标注。人工标注的过程看似简单,但实际上,标注策略和质量对最终生成模型的质量有直接影响。往往能够决定有监督模型质量的,不是高深的算法和精密的模型,而是高质量的标注数据。