ml基础

2021-04-05

字数：911字 | 预计阅读时长：3分钟

ml知识点

softmax和logistic
- sigmoid: 导数在(0,1/4)，当x>1/4或者<-1/4时，导数非常小 1/1+e^(-x)
- 当分类数为2时，可以推导出两个一致
- softmax建模使用的分布是多项式分布，而logistic则基于二项式分布
- softmax回归进行的多分类，类与类之间是互斥的，即一个输入只能被归为一类
- 多个logistic回归进行多分类，”苹果”这个词语既属于”水果”类也属于”3C”类别。
二项式和多项式分布
- 二项
  - 二项分布是n重伯努利试验中正例发生次数的离散概率分布
  - import numpy; a = numpy.random.binomial(n=10, p=0.7, size = 1)
- 多项
  - 二项分布是单变量分布，而多项分布是多变量分布
  - 多项分布的例子是扔骰子，每次试验有多种可能，进行多次试验，多项分布描述的是每种可能发生次数的联合概率分布
  - a = numpy.random.multinomial(n=10, pvals=[0.2,0.4,0.4], size = 1)
逻辑回归梯度下降伪代码
- https://blog.csdn.net/qq_33391629/article/details/108711228
最小均方误差和最小二乘
- 算术平均数可以让均方误差误差最小
- 如果误差的分布是正态分布，那么最小二乘法得到的就是最有可能的值。即：最小二乘法是概率密度(误差的概率密度)是高斯分布的最大似然估计的状况
- 线性回归模型用最小二乘法得到的估计的均方误差怎么得到
并行直方图
- 分裂节点时，数据在block中按列存放，而且已经经过了预排序，因此可以并行计算，即同时对各个属性遍历最优分裂点
特征点分割
- 树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点
- 当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，XGBoost采用了一种近似的算法
- 近似的算法对每维特征加权分位进行分桶，具体的算法利用到了损失函数关于待求树的二阶导数。
偏导数与残差
- 偏导数的计算可以确定每个相关数据对最终结果的局部/全局最小值的一个梯度。
  顺着梯度进行调整，会让结果逐步趋向局部/全局最小值。
- gbdt是用梯度来近似残差：损失函数L对当前所学模型F预测值的负梯度，所以模型的更新是沿着梯度下降方向的。

auc计算
- (auc计算)[https://blog.csdn.net/qq_22238533/article/details/78666436]
- 为啥auc
  - 随机抽出一对样本（一个正样本，一个负样本），然后用训练得到的分类器来对这两个样本进行预测，预测得到正样本的概率大于负样本概率的概率。
模型评估
- 精确率
  - 分类正确的正样本占判定为正样本的总数。
- 召回率
  - 分类正确的正样本占真正正样本总数。
- 问题
  - 提高精确率，会更倾向于 “更有把握才把样本判定为正” ，此时保守而降低了召回率
  - 即排序的TOPN，精确率很高，但是会漏掉很多其他正样本。导致用户找不到自己想要的。
  - 综合考虑
    - PR 曲线
      - x召回，y精确。
    - f1 score
      - 调和平均值
    - ROC 曲线

本文作者： yuqing wang
本文链接： https://satyrswang.github.io/2021/04/05/ml基础/
版权声明： 本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。转载请注明出处！