分类与聚类
[TOC]
分类
定义:已有类别信息,通过对已知分类数据的训练和学习,找到不同类的特征。再对未分类数据进行分类。
特征:
- 属于监督学习
常见算法:
- 决策树
- 朴素贝叶斯
- 支持向量机(SVM)
- 神经网络
- K-最近邻(k-nearestneighbor, KNN)
- 模糊分类法
聚类
定义:未知分类信息,通过聚类分析将数据或者用户分为几个群体。聚类不需要对数据进行训练和学习。
特征:
- 属于无监督学习
常见算法:
- K均值(K-means)
- K中心点(K-medoids)
- clarans
- 基于层次(birch, cure, chameleon)
- 基于密度(dbscan, optics, denclue)
- 基于网格(sting, clique, wave-cluster)