`

机器学习 四 基本方法一

阅读更多

摘自: 《数据挖掘-实用机器学习技术》

一、推断基本规则,1规则(1-rule)

定义:建立一个只对单个属性进行测试的规则,并进行不同的分支。

,每一个分支对应一个不同的属性值。

过程为:

 

  对每个属性

    对每个属性值,建立如下一条规则

      计算每个类别(属性值-结果)出现的频率,找出出现最频繁的类别,建立规则,将 这个类别赋予这个属性值(如outlook sunny-no 2/5 overcast-yes 0/4 rainy-yes 2/5)

    计算规则的误差率(这个属性未覆盖的实例/实例数 2/5 0/4 2/5)

  选择误差率最小的规则(如(2+0+2)/(5+4+5))

 

1.解决残缺值,是把残缺值作为一个属性值

 

2.对于名词属性,对每个属性值类别非常简单,对于数值,需要进行划分法

如:

64 65 68 69 70 71 72 72 75 80 81 83 85

y  n  y  y  y  y  y  y  y  n  y  y  n

根据结果y,n划分区间,(避免属性过度拟合overfitting(如身份证,编码等对应结果都是一一对应,会导致分类也是一个一个分类),可以设置最小分类数,如3为最小分类树64 65 68 69 70 71 72 72 75就是一类n<75 y  n>80 n)

 

 

二、统计建模

使用所有的属性,并认为属性是独立且平等的,一起决定结果。

方法:列出所有的属性值,属性结果值,结论值,以及所有的属性结果百分比,结论百分比。对于新的实例,将属性对应的结果百分比相乘 再与所要结论百分比相乘,符合贝叶斯规则。

 

贝叶斯规则

Pr[H|E] = Pr[E|H]Pr[H]/Pr[E]

Pr[yes|E] = Pr[E1|yes]* Pr[E2|yes]* Pr[E2|yes]* Pr[E2|yes]*Pr[yes]/Pr[E]

Pr[A]指事件A发生的概率

Pr[A|B]是基于B发生,A发生的概率

 

贝叶斯规则在结合属性选择(排除冗余属性,会造成属性非独立)后,用于建模

(注意,在当一个属性未绝对概率时,如天气sunny为100%,需要补一,如有10个实例,两种属性值,则10+1/10+2,1/10+2为新的概率,这种技术成为拉普拉斯估计器

2+up1 4+up2 3+up3  /9+u  & p1+p2+p3=1)

 

1.解决残缺值,是忽略残缺值,因为统计模型用比例值,所以不会印象比例总和

 

2.处理数值,名词需要求出概念,数值需要求平均值,和标准差,并且假设他们拥有正态或者高斯的概率分布。

u平均值u= sum/num;

σ标准差 方差的平方根     方差sum((x-u)^2)/(num – 1)

 

3.文档分类的贝叶斯模型

采用多项朴素贝叶斯模型,前提是单词出现的次序和位置都不重要。那么文档E可以看做一袋子单词(单词在袋子中的顺序不考虑)

<!--[if !supportLists]-->例子,   <!--[endif]-->如{yellow,yellow,yellow}E  Pr[yellow|H]=75% Pr[blue|H]=25%

则Pr[{yellow,yellow,yellow}|H]=3! * 0.75^3/3! * 0.25^0/0! = 27/64

 

4.贝叶斯模型缺点

很显然会发现,贝叶斯模型默认属性独立,则在许多有冗余属性上会导致属性权重不一。对于数值来说,必须是正太分布。

  • 大小: 4.3 KB
  • 大小: 4.2 KB
分享到:
评论

相关推荐

    随机森林、LSTM、SVM、线性回归四种机器学习方法预测股价

    可以说对国内网络上参差不齐的简单机器学习股票预测做了一个复现整理。这对我的机器学习知识有一定帮助,也希望能帮助到需要它的人。 全部为jupterbook格式,代码注释全面且执行效果都在。 适合个人学习、课程团队...

    机器学习白皮书系列之四:机器学习流程和算法介绍及金融领域应用实例-20180207-长江证券-32页.pdf.zip

    长江证券发布的《机器学习白皮书系列之四:机器学习流程和算法介绍及金融领域应用实例-20180207-长江证券-32页.pdf.zip》是一份深度解析机器学习在金融领域应用的专业报告。本文档详细阐述了机器学习的流程和算法,...

    2017年最新机器学习入门与实战精品高清全套视频教程附讲义作业(anaconda2 4.3Pytyhon2.7 jupyter) 70课

    第六章机器学习四-SVM支持向量机 6.1、svm讲解 6.2、核函数 6.3、代码讲解(一) 6.4、代码讲解(二 6.5、代码讲解(三) 6.6、代码讲解(四) 第七章机器学习五-聚类分析+贝叶斯 7.1、01-聚类的相似性度量(距离公式) 7.2...

    机器学习算法在生物信息学中的应用 毕业论文

    机器学习是人工智能研究较为年轻的分支,它的发展过程大体上分为四个时 期。第一阶段是 20 世纪 50 年代中叶到 60 年代中叶,属于热烈时期。在这个时期, 所研究的是“没有知识”的学习,即“无知”学习。其研究目标是...

    人工智能项目资料-基于SVM的简单机器学习分类,可以使用svm, knn, 朴素贝叶斯,决策树四种机器学习方法进行分类.zip

    更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定基础,您可以基于这些源码进行修改和扩展,实现更多功能。 【期待与您同行】 我们真诚地邀请您下载并使用...

    MLclass:我的主要机器学习课程

    尽管第一届会议试图涵盖机器学习技术的全部范围,但随后的会议将重点讨论“超学习”问题,并将从四个不同的角度(贝叶斯角度,线性分离,神经网络和集成方法)对算法进行分类。 。 所采用的方法将Python中的自愿...

    决策树机器学习算法分类和回归问题

    决策树是一种常用的机器学习算法,用于解决分类和回归问题。它的可解释性和易于理解的特点使得决策树成为了智能决策的重要工具。本文将介绍决策树的原理、构建过程以及在实际应用中的优势和限制。 第一部分:决策树...

    模式识别 第四版

    讨论了贝叶斯分类、贝叶斯网络、线性和非线性分类器设计、特征生成、特征选取技术、学习理论的基本概念以及聚类概念与算法。与前一版相比,增加了大数据集和高维数据相关的*算法,提供了*的分类器和鲁棒回归的核方法...

    人工智能的基本教程.txt

    你需要学习机器学习的基本概念、算法以及评估方法。常见的机器学习算法包括线性回归、逻辑回归、决策树、支持向量机等。此外,你还需要了解如何选择合适的算法以及如何进行模型评估和优化。 三、深度学习 深度学习...

    蒙特卡罗方法.rar 经典

    第一讲:蒙特卡罗方法简介; 第二讲:MATLAB入门; 第三讲:蒙特卡罗方法基本思想; 第四讲:随机数的生成及随机变量抽样; 第五讲:蒙特卡罗方法的应用。 各章都有对应的例子和MATLAB程序。是学习蒙特卡罗方法的...

    战略中的数据科学:公司成长研究中的机器学习和文本分析-研究论文

    首先,我们使用包含 168,055 家公司的数据集,将不同的机器学习技术与传统回归方法的拟合优度进行比较,其中仅包括基本的人口统计和财务信息。 新方法的性能提高了三到四倍,随机森林技术实现了最佳拟合优度。 其次...

    机器学习算法与应用大作业-基于预处理的小麦品种的分类和聚类源码+数据+项目使用说明.zip

    经过本次项目的实践,我对机器学习常用算法的理解与编程能力有了进一步提升,了解了预处理的重要性,也进行了不同机器学习算法应用在同一个问题上的对比,并认识到了各种算法的优劣,在日后解决科研难题的过程中,...

    集成机器学习技术对糖尿病的预测-研究论文

    这项工作利用机器学习算法来提高糖尿病预测的准确性。 将获得的K-Mean聚类算法输出数据集输入到具有主成分分析和K-means聚类的集成模型中。 我们的集成方法仅产生八个错误分类的实例,与其他方法相比,该实例最低。...

    ChatGPT贝叶斯公式PPT课堂演示

    在这一部分中,我们将探讨机器学习的基本原理和方法。机器学习是一种通过训练算法和模型来使计算机从数据中学习和改进的方法。了解机器学习的基本概念和技术对于理解后续的贝叶斯定理的应用非常重要。 第三部分介绍...

    Tutorial_HYLee_Deep.pdf 深度学习讲座

    二、几种基本排序方法 82 第七部分 SQL知识 86 第八部分 数据挖掘案例分析 87 案例一 A Journey through Titanic 597c770e 87 案例二 Analysis for airplane-crashes-since-1908 94 案例三 贷款预测问题 98 案例四 ...

    Introduction to Machine Learning 机器学习导论

    第一章:介绍机器学习研究的总体思路,发展历史与关键问题; 第二章:介绍线性模型,包括线性预测模型,线性分类模型和线性高斯概率模型; 第三章:介绍神经网络的基础知识、基础结构和训练方法; 第四章:介绍深度...

    Machine-Learning:机器学习概述

    机器学习的工作原理构建机器学习应用程序(或模型)有四个基本步骤。 这些通常由数据科学家与正在为其开发模型的业务专业人员紧密合作来执行。步骤1:选择并准备训练数据集训练数据是用于解决潜在问题的数据集。 ...

    python numpy模块教程与使用numpy进行机器学习相关用法示例

    文章目录一、创建numpy的数组(矩阵)1 np.array()2 np.asarray()3 生成某一个值的特定矩阵4 创建等步长数组5 使用随机的方法创建数组二、numpy array 的基本属性和操作1 基本属性2 数据访问方法3 数组形状改变三、...

    《机器学习算法交易实战》随书代码-python

    它分为四个部分,涵盖数据源和策略开发过程的不同方面、基本 ML 和策略开发技术、自然语言处理的专业方法,以及从简单的多层前馈网络到 CNN、RNN、自动编码器和深度强化学习 本内容还在审核中; 如果您有任何建议...

    python机器学习算法实训 – (四)实现决策树

    决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。 简单来说,我们生活中随时会用到这样的判断方法,...

Global site tag (gtag.js) - Google Analytics