数据分析 郭现伟数据分析知识点监督学习和非监督学习 监督学习 监督学习针对有标签数据集,它通过学习出一个模型(其实就是一个函数)来拟合数据,按照模 型(函数)的输出结果是否离散又可以分为两类,分别是:(1)输出结果为离散值,则为分类 问题(常见的分类算法:KNN、贝叶斯分类器、决策树、SVM、神经网络、GBDT、随机森林等); (2)输出结果为连续值,则为回归问题(有线性回归和逻辑回归两种)。 无监督学习 无监督学习针对没有标签的数据集,它将样本按照距离划分成类簇,使得类内相似性最大,类间 相似性最小。通过观察聚类结果,我们可以得到数据集的分布情况,为进一步分析提供支撑。常 见的聚类算法有K-means、高斯混合模型和LDA。 如何选择有监督和无监督? 1 、是否有标签和训练数据 2 、数据条件是否可改善 3 、看样本是否独立分布数据分析常用算法数据分析算法 回归算法 回归分析是一种预测性的建模技术。 它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关 系。例如:司机的鲁莽驾驶与道路交通事故数量之间的关系;比如股票价格受