`

机器学习 二 输入

阅读更多

机器学习:输入

 

一、四种学习方式:

1.分类学习 classification learning : 用一个已分类的样本集表示学习方法

2.关联学习 association learning : 寻找任何特征之间的关联

3.聚类 clustering : 寻找能够组合在一起的样本,并以此分组

4.数值预测 numeric prediction : 预测出的是一个数值量,不是离散类

 

1.分类学习:有称指导supervised学习,因为每一个训练样本都有一个明确的结论。

2.关联学习:因为可以预测任何一个属性,所以导致关联规则数量过多。

所以要查找一个能够适用的最小样本数量,并且大于特定的最小正确率。

(小量规则覆盖大量未来样本)

3.聚类:样本可分配到多个聚类上,找出这些聚类,并且可以将新样本归入到聚类上

4.数值预测:是分类学习的变种,预测的是数值,而不是一个类

 

二、样本:

输入:实例,表示单一、独立的概念样本,由一组预先定义的属性来表示

(但是在实例之间有密切关系时,需要用并列样本,递归等方法,防止关系丢失)

 

三、属性:

是实例的一列,分为两种:名词性值和有序值

名词性值:有范围,可枚举,离散的属性(包括二分值true false)

有序值:数值,可连续的属性

 

四、数据准备

1.数据收集:

数据必须集中,整合和清理。

2.ARFF格式:

是有独立的、无序的实例组成的数据集的标准表示方法,该表示方法不涉及实例之间的关系。

以下ARFF格式的例子:

%

%注释

@relation weather  关系名称

 

@attribute outlook {sunny, overcast, rainy} 属性列表

@attribute temperature numeric

 

@data 实例集,缺少的数据用?补位

sunny 89

overcast 88

 

 

3.稀疏数据

如购物的商品,文章的单词出现都是全集中的一个稀疏矩阵,

所以用非0值属性的位置、值来表示实例,如:

0,10,0,0,21为{1 10,4 21}

在ARFF中的稀疏属性也是如以上表示出@data实例集

 

 

4.属性类型

ARFF允许两种基本类型:名词性值和数量之。

对于两种基本类型的定义取决于机器学习方案:

4.1 数值作为有序的刻度处理

4.2 数值是比率值测出(定义一个标准,如减去统计平均值后处以标准差,或处以最大的一个值,或减去最小值后处以最大和最小值之差)

4.3 将名词性质作为数值编码,如日期07080217的前两位为入学日期

4.4 将数值归纳为名词性值,如20为young,将名词性可续化

 

 

5.残缺值

指的是数据出现超出正常值,或者空缺。需要了解数据的人进行残缺值处理。

 

 

6不正确的值

 

 

 

0
2
分享到:
评论

相关推荐

    机器学习在汉字智能拼音输入中的应用.pdf

    机器学习在汉字智能拼音输入中的应用.pdf

    基于机器学习的模糊测试种子输入优化.pdf

    基于机器学习的模糊测试种子输入优化.pdf

    机器学习——BP神经网络例子(二维输入,单输出)

    内容概要:本程序利用BP神经网络进行了二维输入,单输出的机器学习,代码中含有详细注释 压缩包内含数据集,下载后在MATLAB中打开文件夹,运行BP.m文件即可出结果 结果包含预测值与实际值对比图,以及如下误差参数:...

    基于机器学习算法的糖尿病预测模型研究

    机器学习算法在处理较为复杂的问题上有较好的准确度和泛化能力。将样本集中 2728 条数据根据要求按照 7:2:1 的比例划分成训练集、测试集和独立样本集。基于 BP 人工神经网络、支持向量机和集成学习模型分别建立...

    python机器学习 XGBoost算法 多变量输入

    使用python完成的XGBoost算法,可以进行模型的保存、加载;输出调参过程;loss&accuracy图、预测真实值对比图;预测值写入表格 功能非常齐全 绝对能跑

    Scala机器学习Scala机器学习.zip

    机器学习(Machine Learning)是一种人工智能(AI)的分支领域,关注如何让计算机系统从数据中自动学习和改进,并且能够通过经验来完成任务,而无需明确地进行编程。简而言之,机器学习使计算机具备从经验中学习的...

    山东大学软件学院机器学习实验四 BP神经网络

    山东大学机器学习实验代码思路,没有套用框架的BP神经网络源码。输入数据是老师给的那个400*5000的数据集,这个神经网络在这个数据集的表现正确率基本为95左右。

    python机器学习房价预测实战案例

    机器学习房价预测实战案例:输入数据集,train和test分别是训练集和测试集,关注房价分布,剔除离群样本;进行特征工程,训练回归模型,stacking 集成学习以及多模型线性融合。

    机器学习实战 - k近邻算法(KNN算法)总结

    机器学习实战 - k近邻算法(KNN算法)总结 适合机器学习实战入门新手 K-近邻算法,又称为 KNN 算法,是数据挖掘技术中原理最简单的算法。 KNN 的工作原理:给定一个已知类别标签的数据训练集,输入没有标签的新数据...

    论文研究 - 购物中心中客户计费预测的聚类方法:一种机器学习机制

    机器学习的实现在科学和技术领域尤其是在医学流领域已经取得了长足的发展。 在本文中,我们将重点关注购物中心客户的机器学习实施,并基于他们的收入以及他们如何在购物中心购物中进行投资。 这说明了客户ID,性别,...

    人工智能与机器学习(1).pptx

    第一代神经网络 感知机(Perceptrons)模型[Rosenblatt, 1957] 二类分类,单个神经元的功能(输入输出关系) = f为激活函数,其中: = =1 = =0 5 Frank Rosenblatt(1957), The Perceptron--a perceiving and ...

    《人工智能》机器学习.pptx

    机器学习算法 (2) 经验 规律 归纳 预测 输入 新的问题 未来 历史数据 模型 训练 预测 输入 新的数据 未来属性 《人工智能》机器学习全文共99页,当前为第5页。 Created by: Jim Liang 机器学习算法与传统基于规则的...

    第8章机器学习.ppt

    机器学习的基本过程 西洋跳棋程序的具体学习过程 决策树学习 信息增益 基本的决策树学习算法——ID3算法 ID3算法举例 人工神经网络 MP模型 布尔函数的神经元实现 神经网络学习机制:有监督学习方式(神经网络根据...

    使用机器学习进行财务预测:价格与回报-研究论文

    使用机器学习工具预测股价的定向运动已经吸引了大量研究。 定向预测模型中两个最常见的输入特征是股票价格和回报。 前者和后者变量之间的选择通常是主观的。 在本研究中,我们比较了股票价格和回报作为方向预测模型...

    西电机器学习大作业-10个实验+源代码+文档说明+实验报告

    请使用线性回归算法从输入x估计y。 对于x = y + n进行同上述操作,但是依旧从x估计y。 对于上述题目的回归曲线进行比较。 4C4-2 a)实验内容 训练神经网络,计算森林火灾面积 6C5-1 a)实验内容 构建一个类别不平衡的...

    Apache TVM 是一个开放源代码的机器学习编译器框架,用于 CPU,GPU 和机器学习加速器.zip

    统计机器学习是基于对数据的初步认识以及学习目的的分析,选择合适的数学模型,拟定超参数,并输入样本数据,依据一定的策略,运用合适的学习算法对模型进行训练,最后运用训练好的模型对数据进行分析预测。...

    AICon北京 2018年全球人工智能与机器学习技术大会PPT合集(27份).zip

    AICon北京 2018年全球人工智能与机器学习技术大会PPT合集(27份)。 自然语言处理和视频大数据分析应用 主动学习和图谱挖掘在金融反欺诈中的应用实践 智能助手的技术与实践 智能机器人平台 知识图谱技术实践(上、...

    机器学习SVM作业基于Iris鸢尾花的数据样本实现SVM分类项目源码+报告

    机器学习SVM作业基于Iris鸢尾花的数据样本实现SVM分类项目源码+报告 1.将经典数据集——Iris鸢尾花的数据样本实现SVM分类。 2.进一步熟悉和应用SVM。 二、实验方法 使用python 3.9的IDLE作为编程环境,编程语言为...

    图解机器学习,算法实现.zip

    统计机器学习是基于对数据的初步认识以及学习目的的分析,选择合适的数学模型,拟定超参数,并输入样本数据,依据一定的策略,运用合适的学习算法对模型进行训练,最后运用训练好的模型对数据进行分析预测。...

    机器学习课件、期末复习资料

    有关机器学习的相关课件 机器学习是人工智能领域中的一个重要分支,旨在让计算机系统通过学习经验数据,不断改进其性能和决策能力。这一领域涉及到多种算法和技术,以实现从数据中提取模式、做出预测和自主学习的...

Global site tag (gtag.js) - Google Analytics