1、人工智能的实现:机器学习
机器学习的一个方法人工神经网络,深度学习由此发展而来。
2、数据集的构成:特征值+目标值
在这里插入图片描述
3、机器学习算法分类:
监督学习:
     目标值:类别——分类问题(图片区别猫和狗)
     目标值:连续性的数据——回归问题(预测房屋价格)
目标值:无——无监督学习
算法:
分类算法:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
回归算法:线性回归、岭回归
无监督学习:
聚类 、k-means
4、机器学习开发流程
1)获取数据
2)数据处理
3)特征工程
4)机器学习算法训练
5)模型评估
6)应用
5、可用数据集:
1)sklearn特点:数据量小、方便学习
2)kaggle:大数据竞赛平台、数据量巨大
3)uci:收录360个数据集、数据量几十万
6、特征工程:
1)特征提取:
     机器学习算法——统计方法——数学公式
文本类型->数值
字典->数值
图像特征提取
例如:文本特征提取:关键词,区分文章类型。使用Tf-idf(原理、公式)提取
可以找到一篇文章中词的重要程度
2)特征预处理
归一化:通过对原始数据进行变换把数据映射到(默认[0,1])之间
原理、公式
归一化的缺点:容易受到异常点的影响,适合精确小数据场景。
标准化:通过对原始数据进行变换把数据变换到均值为0,标准差为1的范围内
公式
3)特征降维
降低随机变量的个数
效果:特征与特征之间不相关
     filter过滤式:
          方差选择法:低方差特征过滤
          相关系数:特征与特征之间的相关程度       原理、公式
          特征与特征之间相关程度高:选取其中一个、加权求和
     enbeded嵌入式:
          决策树
          正则化
          深度学习
主成分分析(PCA):
将高维数据转化为低维数据,可能舍弃原有数据,创造新的变量
7、sklearn的转换器和预估器
特征工程的接口叫做转换器(特征工程的父类)
估计器:sklearn机器学习算法的实现
1)用于分类的估计器:
          sklearn.neighbors k—近邻算法
          sklearn.naive_bayes 贝叶斯
          sklearn.linear_model.LogisticRegression 逻辑回归
          sklearn.tree 决策树与随机森林
2)用于回归的估计器
          sklearn.linear_model.LogisticRegression 线性回归
          sklearn.linear_model.Ridge 岭回归
          
3)用于无监督学习的估计器
sklearn.cluster.KMeans 聚类
估计器使用方法:
        实例化一个estimator
        estimator.fit(x_train,y_train)计算
          ——调用完毕,模型生成
      模型评估:
          直接比对真实值和预测值(estimator.predict())、计算准确率(estimator.score())