分类与聚类

[TOC]

分类

定义:已有类别信息,通过对已知分类数据的训练和学习,找到不同类的特征。再对未分类数据进行分类。

特征:

  • 属于监督学习

常见算法:

  • 决策树
  • 朴素贝叶斯
  • 支持向量机(SVM)
  • 神经网络
  • K-最近邻(k-nearestneighbor, KNN)
  • 模糊分类法

聚类

定义:未知分类信息,通过聚类分析将数据或者用户分为几个群体。聚类不需要对数据进行训练和学习。

特征:

  • 属于无监督学习

常见算法:

  • K均值(K-means)
  • K中心点(K-medoids)
  • clarans
  • 基于层次(birch, cure, chameleon)
  • 基于密度(dbscan, optics, denclue)
  • 基于网格(sting, clique, wave-cluster)