位置：首页 > 资讯大全 > 网站优化

大数据常用算法有什么（算法在大数据中的运用）

发布时间：2022-07-12 21:49:49

文章来源：快乐收录网

访问次数：

01.大数据的一些概念qo9快乐收录网

大数据：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。qo9快乐收录网

qo9快乐收录网

日常使用大数据的一些平台有hadoop 和Microsoft Azure，也有一些数据库软件平台，如：ORACLE （甲骨文）和SQL Server等。qo9快乐收录网

日常的大数据应用主要有：SQL查询和传统报表分析。一些技术应用包括：数据挖掘，机器学习，深度学习，人工智能等。qo9快乐收录网

人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。qo9快乐收录网

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也有可能超过人的智能。qo9快乐收录网

数据挖掘（Data Mining），顾名思义就是从海量数据中“挖掘”隐藏信息，按照教科书的说法，这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”，信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中，企业希望让存放在数据库中的数据能“说话”，支持决策。所以，数据挖掘更偏向应用。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。qo9快乐收录网

机器学习（Machine Learning）是指用某些算法指导计算机利用已知数据得出适当的模型，并利用此模型对新的情境给出判断的过程。机器学习的思想并不复杂，它仅仅是对人类生活中学习过程的一个模拟。而在这整个过程中，最关键的是数据。任何通过数据训练的学习算法的相关研究都属于机器学习，包括很多已经发展多年的技术，比如线性回归（Linear Regression）、K均值（K-means，基于原型的目标函数聚类方法）、决策树（Decision Trees，运用概率分析的一种图解法）、随机森林（Random Forest，运用概率分析的一种图解法）、PCA（Principal Component Analysis，主成分分析）、SVM（Support Vector Machine，支持向量机）以及ANN（Artificial Neural Networks，人工神经网络）。qo9快乐收录网

深度学习（Deep Learning）的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。qo9快乐收录网

机器学习是人工智能的一种实现方式，深度学习是机器学习的一种研究方向qo9快乐收录网

数据挖掘主要利用机器学习提供的技术来分析海量数据，利用数据库的技术来管理海量数据qo9快乐收录网

qo9快乐收录网

02.常用算法介绍qo9快乐收录网

qo9快乐收录网

单个样本qo9快乐收录网

qo9快乐收录网

我们可以根据单独样本，描述一个样本特征的向量。以此类推，针对多个群体，就会得出一个样本集。qo9快乐收录网

小明：【180,80,59,87,70,120,4.72,5】qo9快乐收录网

小李：【162,75,58,80,80,160,6.1,5.9】qo9快乐收录网

...........qo9快乐收录网

qo9快乐收录网

然后我们进行向量距离计算，qo9快乐收录网

计算公式有欧式距离，曼哈顿距离，切比雪夫距离，马氏距离......qo9快乐收录网

这里我们以欧式距离为例。qo9快乐收录网

欧式距离：欧几里得度量（educlidean metric），指在m维空间中两点之间的真实距离，或者向量的自然长度，即该点到原点的距离。qo9快乐收录网

qo9快乐收录网

X=[180,80,59,87,70,120,4.72,5]qo9快乐收录网

Y=[162,75,58,80,80,160,6.1,5.9]qo9快乐收录网

D(x,y)qo9快乐收录网

通过上式，我们就可以算出具体数值。qo9快乐收录网

接下来介绍三个概念：聚类、分类、线性回归。qo9快乐收录网

聚类（无监督）：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。qo9快乐收录网

简而言之：面对一堆样本，不知道可以有几个类，也不知道每个类是什么，需要跑出结果后，总结每个类的特征。qo9快乐收录网

qo9快乐收录网

Aqo9快乐收录网

qo9快乐收录网

Cqo9快乐收录网

聚类-Kmeansqo9快乐收录网

1、在A中，2个红色的点分别代表深浅两种颜色的样本点所在各自群的中心点。qo9快乐收录网

2、不考虑现在分群情况，分别计算各个样本点到2个红色中心点的距离，将距离相似的样本点形成一个新群；如B所示qo9快乐收录网

3、计算C中2个新群的中心点（图中红色的点）。qo9快乐收录网

4、如果C中新的中心点与之前A中的中心点相比较变化极小，则迭代结束；否则返回第1步。qo9快乐收录网

分类（有监督）：明确知道要分几类。由带标签的训练集“教”会计算机什么样的样本属于什么类，然后输入不带标签的“测试集”测试“教育成果”。qo9快乐收录网

qo9快乐收录网

分类算法示意图qo9快乐收录网

qo9快乐收录网

分类-KNN（K近邻）qo9快乐收录网

所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。俗话说：近朱者赤近墨者黑。qo9快乐收录网

KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。qo9快乐收录网

K值若较小，这里取内圈，红色三角占2/3，则绿色的未知物被判断为红色三角；qo9快乐收录网

K值若较大，这里取外圈，蓝色方块占3/5，则绿色未知物被判断为蓝色方块。qo9快乐收录网

模型评价指标：准确率，精度，F值qo9快乐收录网

查准率（Precision）＝（检索出的相关信息量/检索出的信息总量）*100%
查全率（Recall）＝（检索出的相关信息量/系统中的相关信息总量）*100%
F值=(（2*P*R）/(P+R)) *100%qo9快乐收录网

线性回归（Linear Regression）是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归，大于一个自变量情况的叫做多元回归。qo9快乐收录网

　　《大数据常用算法有什么（算法在大数据中的运用）》更新于时间：2022-07-12 21:49:49；由本站小编进行发布，目前浏览的小伙伴达到，感谢你们的支持，后期快乐收录网小编会继续为大家更新更多相关的文章，希望广大网友多多关注快乐收录网工作心得栏目，如果觉得本站不错，那就给我们一个分享的支持吧！

大数据常用算法有什么（算法在大数据中的运用）特别声明

本站快乐收录网提供的大数据常用算法有什么（算法在大数据中的运用）都来源于网络，不保证文章的准确性和真实性，同时，对于该文章所造成的影响，不由快乐收录网实际控制，在2022-07-12 21:49:49收录时，该网页上的内容，都属于合规合法，如有侵权违规，可以直接联系网站管理员进行整改或删除，快乐收录网不承担任何责任。

快乐收录网：致力于优质、实用的网络站点资源收集与分享！本文地址：https://nav.klxjz.cn/zixundaquan/wzyh/202207/8533.html转载请注明

标签：

资讯分类