【机器学习】机器学习基础概念与初步探索

news/2024/7/14 18:33:21/文章来源:https://blog.csdn.net/EterNity_TiMe_/article/details/139183108

❀机器学习

  • 📒1. 引言
  • 📒2. 机器学习概述
  • 📒3. 机器学习基础概念
    • 🎉2.1 机器学习的分类
    • 🎉2.2 数据预处理
      • 🌈数据清洗与整合
      • 🌈 特征选择和特征工程
      • 🌈数据标准化与归一化
  • 📒4. 常见机器学习算法
  • 📒5. 机器学习模型实践
    • 🎉5.1 使用Python和scikit-learn进行模型训练
    • 🎉5.2 数据集加载与探索性数据分析
    • 🎉5.3 模型的训练与评估
  • 📒 6. 总结与展望
    • 🎉总结
    • 🎉机器学习领域的未来发展趋势
    • 🎉学习机器语言的建议
    • 🎉展望未来


📒1. 引言

在数字化时代的浪潮中,我们见证了前所未有的信息爆炸和数据处理挑战。随着数据量的不断增长和复杂性的日益提升,如何从中提取有价值的信息、做出智能的决策成为了各行各业共同面临的问题。这正是机器学习(Machine Learning)崭露头角并迅猛发展的背景。本章将简要介绍机器学习的定义和应用领域,提供对机器学习的基本认识。

在这里插入图片描述

📒2. 机器学习概述

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。作为人工智能的核心,机器学习是使计算机具有智能的根本途径。未来的机器学习将具有更高的自动化水平,能够处理更加复杂和抽象的问题,为人类带来更多的便利和价值。


📒3. 机器学习基础概念

在这里插入图片描述


🎉2.1 机器学习的分类

监督学习:

  • 监督学习是利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。在监督学习中,每个实例都是由一个输入对象和一个期望的输出值组成。监督学习算法通过分析训练数据,并产生一个推断的功能,可以用于映射出新的实例。
  • 常见的监督学习算法包括线性分类器、支持向量机(SVM)、决策树、k近邻和随机森林等,
  • 监督学习通过构建模型来识别模式和规律,从而能够做出预测和决策。

无监督学习:

  • 无监督学习与监督学习不同,其数据没有显式的标签或已知的结果变量,无监督学习的核心目的是从输入数据中发现隐藏的模式、结构和规律。
  • 常见的无监督学习算法有主成分分析、奇异值分解等。

强化学习:

  • 强化学习是机器学习的一种,是通过与环境交互来学习的机器学习方法。强化学习的主要特点是反复实验和获得奖励,并根据获得的奖励来调整行为策略
  • 强化学习中的时间非常重要,因为数据都是有时间关联的。强化学习在游戏、机器人控制、自然语言处理等领域有广泛应用。

综上所述:监督学习、无监督学习与强化学习各有其特点和优势,适用于不同的应用场景。在实际应用中,我们需要根据具体问题和数据特点来选择合适的机器学习类型。


🎉2.2 数据预处理

🌈数据清洗与整合

数据清洗:

  • 数据清洗是数据预处理中非常关键的一步,它涉及检查数据的一致性、完整性和准确性,并纠正或删除不准确或不完整的记录,然后对这些数据进行处理
  • 常见的数据清洗操作包括删除缺失值、填充缺失值、处理异常值和去重等

数据整合:
数据整合是把在不同数据源的数据收集、整理、清洗、转换后,加载到一个新的数据源,为数据消费者提供统一数据视图的数据集成方式


🌈 特征选择和特征工程

特征选择:

  • 特征选择是从原始特征集中选择出子集,使得这个子集在机器学习任务上能够获得更好的性能
  • 特征选择目标是减少过拟合,提高模型准确性,减少计算成本
  • 特征选择的方法主要有过滤法,包装法,嵌入法

特征工程:

  • 特征工程它涉及对原始数据通过数据转换、组合、编码等方式来提高模型的预测能力,简化模型,提高模型的性能和效果
  • 特征工程的主要操作包括数值化、独热编码、特征缩放

🌈数据标准化与归一化

数据标准化: 通常是通过将数据指将原始数据按比例缩放,使其落入一个特定的尺度,以便不同特征之间具有可比性,常见的标准化方法有Z-score标准化

数据归一化: 是将数据缩放到一个指定的范围,通常是[0, 1]或[-1, 1]。归一化通常是通过将数据减去最小值,然后除以数据的范围来实现的,常见的归一化方法有Z-score标准化

数据标准化代码示例(Python)

import pandas as pd  
from sklearn.preprocessing import StandardScaler  # 假设我们有一个名为df的DataFrame  
data = {  'feature1': [1, 2, 3, 4, 5],  'feature2': [90, 100, 110, 120, 130],  'feature3': [2.2, 3.4, 5.6, 7.8, 10.0]  
}  
df = pd.DataFrame(data)  # 初始化StandardScaler  
scaler = StandardScaler()  # 使用fit_transform方法在原始数据上进行标准化,并获取结果  
# 注意:这将直接在数据上进行就地变换(inplace),但我们在这里赋值给一个新的变量以显示变化  
df_scaled = scaler.fit_transform(df)  # 将标准化后的数据转换回DataFrame(如果需要的话)  
# 注意:列名可能与原始DataFrame相同,但数据已经是标准化的了  
df_scaled = pd.DataFrame(df_scaled, columns=df.columns)  # 输出处理后的数据  
print("原始数据:")  
print(df)  
print("\n标准化后的数据:")  
print(df_scaled)

📒4. 常见机器学习算法

线性回归算法

  • 线性回归:用于预测连续值的方法,它假设特征和目标之间的关系是线性的
  • 适用场景:线性回归适用于预测连续数值型目标变量,并且当自变量与目标变量之间存在线性关系时效果最佳
  • 优点:简单易懂,计算效率高,对于线性关系的数据有很好的拟合效果
  • 缺点:对于非线性关系的数据拟合效果较差,容易受到异常值的影响

逻辑回归

  • 逻辑回归:述逻辑回归的概念和应用,可以解释逻辑回归的sigmoid函数和损失函数
  • 适用场景:逻辑回归适用于二分类问题,特别是当输出结果为二元(是/否,真/假)时
  • 优点:计算效率高,易于实现,对于二分类问题有很好的分类效果
  • 缺点:对于多分类问题效果较差,且对于非线性关系的数据拟合效果有限

决策树与随机森林

  • 决策树与随机森林:介绍决策树的构建过程和随机森林的集成学习方法。可以通过可视化展示决策树的分裂过程
  • 适用场景:决策树适用于处理离散型和连续型数据,可以用于分类和回归问题。
  • 优点:直观易懂,可解释性强,能够处理非线性关系的数据。
  • 缺点:容易过拟合,对于高维数据效果不佳,且对于连续型数据的处理不够精细。

支持向量机(SVM)

  • 支持向量机:算法是一种广泛使用的监督学习算法,主要用于数据分类问题
    支持向量机算法特点:高效性,较好的泛化能力,非线性处理能力
    SVM算法在多个领域都有广泛的应用,如文本分类、图像识别、生物信息学、金融预测等。由于其出色的性能和广泛的应用前景,SVM已经成为机器学习领域中最受欢迎的算法之一

📒5. 机器学习模型实践

🎉5.1 使用Python和scikit-learn进行模型训练

Scikit-learn是一个用于机器学习和数据挖掘的开源Python库,scikit-learn库是一个常用的选择,因为它提供了许多现成的机器学习算法

import numpy as np  
from sklearn.model_selection import train_test_split  
from sklearn.preprocessing import StandardScaler  
from sklearn.linear_model import LinearRegression  
from sklearn.metrics import mean_squared_error  # 手动创建模拟数据  
np.random.seed(42)  # 为了结果的可复现性  
X = 2 * np.random.rand(100, 1)  # 100个样本,1个特征,值在[0, 2)之间  
y = 4 + 3 * X + np.random.randn(100, 1)  # 线性关系加上一些噪声  # 数据预处理
scaler = StandardScaler()  
X_scaled = scaler.fit_transform(X)  # 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)  # 初始化模型
model = LinearRegression()  # 训练模型  
model.fit(X_train, y_train.ravel())  # 注意y_train需要是一维数组,所以使用ravel()  # 使用模型进行预测  
y_pred = model.predict(X_test)  # 评估模型性能 
mse = mean_squared_error(y_test.ravel(), y_pred)  
rmse = np.sqrt(mse)  
print(f'Root Mean Squared Error: {rmse}')

🎉5.2 数据集加载与探索性数据分析

数据集加载与探索性数据分析是项目中至关重要的步骤\


数据集加载

数据集来源

  • 内置数据集:如scikit-learn库中的鸢尾花数据集(load_iris)、手写数字数据集(load_digits)等
  • 外部文件:从CSV、Excel、JSON、数据库等外部文件中加载数据
  • API接口:从在线API获取数据

加载方法

  • 使用scikit-learn内置函数:如load_iris()加载鸢尾花数据集
  • 使用Pandas库:如pd.read_csv(‘data.csv’)从CSV文件加载数据
  • 使用NumPy库:如np.load(‘data.npy’)从二进制文件加载数据
  • 使用SQLAlchemy库:从关系型数据库中加载数据

探索性数据分析
探索性数据分析的主要目的是了解数据的性质、结构和潜在模式,为后续的数据处理和建模提供指导。

数据收集与清洗

  • 数据收集:从各种来源收集数据
  • 数据清洗:去除重复值、缺失值、异常值和噪声

数据可视化

  • 使用直方图、散点图、折线图等可视化工具展示数据
    这有助于快速发现数据中的趋势、模式和异常

描述性统计

  • 计算均值、中位数、方差、标准差等描述性统计量
  • 了解数据的基本特征,如中心趋势、离散程度等

深入探索

  • 相关性分析:探索变量之间的关系
  • 回归分析:研究一个或多个自变量与因变量之间的关系
  • 聚类分析:将数据划分为不同的组或簇

🎉5.3 模型的训练与评估

模型的训练

模型训练:指使用已知的数据集来训练机器学习模型,使其能够学习数据中的模式和规律。训练集通常包括一组特征(输入)和对应的标签(输出),模型的目标就是根据输入特征预测输出标签

模型的评估

模型评估:是验证模型性能的过程,旨在评估模型对新数据的预测能力。评估模型通常使用独立的测试集,该测试集在训练过程中是未知的,以确保评估结果的客观性和公正性

我们举个简单的例子,实际中有更复杂的模型

from sklearn.model_selection import train_test_split  
from sklearn.linear_model import LogisticRegression  
from sklearn.metrics import accuracy_score, classification_report  
from sklearn.datasets import load_iris 
# 加载数据集  
iris = load_iris()  
X = iris.data  # 特征  
y = iris.target  #  # 为了示例简单,我们只取两个类别  
X = X[y < 2]  
y = y[y < 2]  # 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 初始化模型  
model = LogisticRegression()  # 训练模型  
model.fit(X_train, y_train)  # 使用模型进行预测  
y_pred = model.predict(X_test)  # 评估模型:计算准确率  
accuracy = accuracy_score(y_test, y_pred)  
print(f'Accuracy: {accuracy}')  # 评估模型:打印分类报告  
report = classification_report(y_test, y_pred)  
print(report)

模型的训练和评估是机器学习和数据科学项目中非常重要的两个步骤。通过训练模型,我们可以使其学习数据中的模式和规律;通过评估模型,我们可以验证其性能并确定是否满足实际需求。在评估模型时,我们需要选择合适的评估指标,并使用独立的测试集或交叉验证等技术来确保评估结果的客观性和公正性


📒 6. 总结与展望

🎉总结

在本文中,深入探讨了机器学习的基础概念、常见算法,模型实践希望能够从中获得对机器学习的全面了解,并对其在未来发展的重要性和应用价值做出了判断

🎉机器学习领域的未来发展趋势

机器学习领域的未来重要性和应用价值是不可忽视的。随着技术的不断发展和数据的不断增长,机器学习正逐渐成为推动社会进步和经济发展的关键力量,机器学习将在金融、医疗、零售等传统领域继续深入应用,同时在新兴领域如物联网、自动驾驶、智能家居等也将发挥更加重要的作用,它不仅将推动科技进步和经济发展,还将为人类社会带来更加美好的未来

🎉学习机器语言的建议

要学好机器学习,首先要夯实数学基础,特别是线性代数、概率论和统计学。其次,选择权威的教程或课程,系统学习机器学习算法和原理。同时,熟练掌握编程语言(如Python),熟悉常用机器学习库。勤做实践项目,将所学知识应用于实际问题。保持对新技术的好奇心,持续学习,紧跟行业前沿。勇于探索,不怕失败,通过不断实践和挑战自我,逐渐掌握机器学习的精髓

🎉展望未来

机器学习将继续引领科技革新的浪潮,其应用将愈发广泛且深入。随着算法的不断优化和计算能力的显著提升,机器学习将能够处理更加复杂、多样化的数据,从而为我们提供更准确、更智能的决策支持。我们期待看到机器学习在医疗、金融、教育、交通等领域发挥更大的作用,解决现实生活中的诸多难题。同时,随着技术的不断进步,让我们共同期待机器学习技术在未来的发展
在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_1053098.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mesa Gallium框架入门初探

Mesa Gallium框架入门初探 MESA Gallium框架 MESA源码里面有2套架构&#xff0c;现在驱动主要基于Gallium架构。 这里我们重点来看看Gallium架构: 经典架构 Gallium架构 Gallium展开 Gallium中主要包含下面几块&#xff1a; Auxiliary模块&#xff1a;一些公共函数或者辅助…

菜鸟的JavaSE学习之旅5

这是一个目录 面向对象类和对象类对象类的定义一个对象的内存成员变量和局部变量定义位置不同作用范围不同默认值不同内存位置不同生命周期不同 关键字this关键字 构造方法标准的类 面向对象 当需要实现一个功能的时候&#xff0c;不关心具体的步骤&#xff0c;而是找一个具有…

Python考试复习--day4

1.三角函数计算 import math aeval(input()) beval(input()) x(-bpow(2*a*math.sin(math.pi/3)*math.cos(math.pi/3),0.5))/(2*a) print(x) math库 2.分段函数B import math xeval(input()) if -6<x<0:yabs(x)5 elif 0<x<3:ymath.factorial(x) elif 3<x<6:y…

JMM 理解

JMM&#xff1a; Java Memory Model (JAVA内存模型) 【JMM】 允许编译器和缓存以数据在处理器特定的缓存(或寄存器)和主存之间的移动次序拥有重要的特权。 非程序员使用了volatitle 或 synchronized明确请求了某些可见性的保证。 从几个方面学习 1、什么是JMM&#xff1f; 答…

素数判断的奥秘与编程实践

新书上架~&#x1f447;全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目录 一、素数定义的深入理解 二、非素数的例子与思考 三、素数判断的编程实现 1. 穷举法判断素…

什么是知识中台?为什么企业需要知识中台?

如今市面上的企业数不胜数&#xff0c;企业的任何一个小细节都会产生很大的影响。近几年来一直很热门的知识中台备受企业关注。关于如何高效地管理、整合和运用知识&#xff0c;成为了每一家企业都在重点关注的问题。而知识中台&#xff0c;就是为了解决这一问题而诞生的一个全…

Java整合EasyExcel实战——2 导出复杂表头

详情代码 实体类 Data public class ComplexHeadData {ExcelProperty({"主标题", "字符串标题"})private String string;ExcelProperty({"主标题", "日期标题"})private Date date;ExcelProperty({"主标题", "数字标…

Zigbee +PC上位机 无线控制二维云台开发笔记

今日尝试开发一款简单好学的PC上位机无线控制二维云台的小试验品&#xff1a; 主要开发环境与工具介绍&#xff1a; 单片机 STM32F103C8T6 使用标准库函数编程 Visual Studio 2022软件C# Winform 开发 上位机控制软件 DL_20 无线串口模块 &#xff0b; USB-TTL 模块 实现无线通…

解读:Mint Blockchain 最新路线图,释放 NFT 生态重磅发展计划

作者&#xff1a;Mint Ecosystem 关于 Mint Blockchain&#xff1a;Mint Blockchain 是一个以太坊原生 L2 网络&#xff0c;核心是发展 NFT 生态和产业&#xff0c;促进 NFT 领域的 Mass Adoption 产生。MintCore 团队致力于将 Mint Blockchain 打造成一个围绕服务 NFT 资产的…

spring-boot集成slf4j(二)logback配置详解

一、configuration 根节点&#xff1a;configuration&#xff0c;作为顶级标签&#xff0c; 可以用来配置一些lockback的全局属性&#xff0c;常见的属性如下&#xff1a; &#xff08;1&#xff09;scan“true” &#xff1a;scan是否开启自动扫描&#xff0c;监控配置文件更…

mac安装的VMware虚拟机进行桥接模式配置

1、先进行网络适配器选择&#xff0c;选择桥接模式 2、点击网络适配器 设置... 3、选择WiFi&#xff08;我使用的是WiFi&#xff0c;所以选择这个&#xff09;&#xff0c;注意看右边的信息&#xff1a;IP和子网掩码&#xff0c;后续配置虚拟机的ifcfg-ens文件会用到 4、编辑if…

mipi-csi笔记

数据格式 长包&#xff0c;短包 用DI来判断数据类型 测试帧率&#xff0c;如用1G的示波器 下面的代表这是一张图片,用帧间隙来测试YUV422视频的帧率 fps10hz的外同步

❤ Vscode和Idea都可以使用的-AI插件(官方-百度出的)

❤ Vscode和Idea都可以使用的-AI插件&#xff08;官方-百度出的&#xff09; 最新AI特别火&#xff0c;给大家推荐一下最新出的VScode插件&#xff0c;辅助我们写代码&#xff01; 1、下载地址&#xff1a; > https://comate.baidu.com/zh/shopping?inviteCodefkzlak8f …

B站pink老师CSS学习(一)

文章目录 一、CSS基础选择器1.标签选择器2.类选择器3. id选择器4.通配符选择器 二、字体属性1.字体2.字体大小3.字体粗细4.文字样式5.复合属性 三、文本属性1.文本颜色2.对齐文本3.装饰文本4.文本缩进5.行间距 四、CSS引入方式1. 内部样式表2.行内样式表3.外部样式表 一、CSS基…

CTF流量分析之wireshark使用

01.基本介绍 在CTF比赛中&#xff0c;对于流量包的分析取证是一种十分重要的题型。通常这类题目都是会提供一个包含流量数据的pcap文件&#xff0c;参赛选手通过该文件筛选和过滤其中无关的流量信息&#xff0c;根据关键流量信息找出flag或者相关线索。 pcap流量包的分析通常…

质量评估门户:您AI内容的质量守护者

在当今这个内容饥渴和内容疯狂的世界里&#xff0c;AI驱动的内容创作既是一种流行趋势&#xff0c;有时也是一个改变游戏规则的存在。但强大的能力伴随着巨大的责任……即确保质量的责任。 想象一下&#xff1a;你拥有一个AI[和创意团队]&#xff0c;他们以闪电般的速度输出博…

关于如何通过APlayer+MetingJS为自己的wordpress博客网页添加网易音乐播放器(无需插件)

本文转自博主的个人博客&#xff1a;https://blog.zhumengmeng.work,欢迎大家前往查看。 原文链接&#xff1a;点我访问 序言&#xff1a;最近在网上冲浪&#xff0c;发现大家的博客大部分都有一个音乐播放器能够播放音乐&#xff0c;随机我也开始寻找解决方法。可是找来找去我…

【openlayers系统学习】3.4波段数学计算(计算NDVI)

四、波段数学计算&#xff08;计算NDVI&#xff09; 我们已经看到了如何使用 ol/source/GeoTIFF​ 源代码来渲染真彩色和假彩色合成。我们通过将缩放的反射率值直接渲染到红色、绿色或蓝色显示通道中的一个来实现这一点。还可以对来自GeoTIFF&#xff08;或其他数据瓦片源&…

finetuning大模型准备(基于Mac环境)

为finetuning进行的热身准备&#xff0c;涉及周边的软件工具&#xff0c;方法。 问题1&#xff1a;finetuning过程较长&#xff0c;采用系统自带命令行没有后台&#xff0c;前台被杀后&#xff0c;容易造成训练失败。 解决方法&#xff1a; tmux可以开启后台训练 问题2&…

盖雅技能发展云,助力制造企业人效合一

制造行业尽管经历多次变革&#xff0c;但企业对人的管理始终是一项高度依赖经验和耗费人力的工作。随着供应链管理和生产设备的自动化、数字化升级&#xff0c;如何将第一生产要素——人&#xff0c;通过数字化的工具融入制造过程的闭环&#xff0c;对企业实现自动化工厂和智能…