分类 机器学习 下的文章

国际权威的学术组织the IEEE International Conference on Data Mining(ICDM)2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM,PageRank,AdaBoost, kNN, Naive Bayes, and CART.

不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。

1. C4.5
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 在树构造过程中进行剪枝;
3) 能够完成对连续属性的离散化处理;
4) 能够对不完整数据进行处理。
C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

- 阅读剩余部分 -

开始Andrew Ng的机器学习,这是一门非常有用的课程,可惜课上没好好听!

1、Machine Learning definition
在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域。

2、Supervised Learning
(1)Regression Problem
监督学习:算法提供了具体问题“标准答案”,例如根据房屋面积估算房屋价格,我们希望通过算法去学习标准输入 和标准答案之间的联系,以尝试对于其他输入给我们更为标准的答案——回归问题(Regression Problem)

(2)Classification Problem
分类问题,例如肿瘤问题:处理一些数据,不是0就是1,给定一个新的病人,判别肿瘤类别(恶性良性)。

3、Learning Theory

- 阅读剩余部分 -