零散问题repo

2021-04-05

字数：3.4k字 | 预计阅读时长：12分钟

无中心、碎片知识点

如何选择监督还是reinforcement？
半监督：无label 的数据对学习也有帮助。
transfer learning：和任务无关的数据也有帮助。
无监督：无任何label。看了大量数据后自己创造一些数据(有output得到input)。
structured learning（未知领域）：输出结构性的output。如一段信号输出一个完整的句子长文本。
reinforcement learning：和监督学习的区别，监督有label，reinforcement只有一个分数作为反馈-learning from critics。
根据不同的情景选择监督半监督或是reinforcement，再根据task选择method。
梯度是指：微分组成的向量。
linear regression无局部最优。因此得到的就是全局最优
计算参数对loss function的微分，为-则增加参数w，为正则减小参数；3step size：取决于为微分值以及一个已定常数项(learning rate)
梯度下降的问题：在非线性时需要考虑。linear regression不用担心，因为loss function是convex的-无局部最优。
为什么正则化能够解决overfitting
- 复杂的model在training data上已定越来越低的error，但在testing data上可能并不导致更低的error–叫做overfitting。
- 原来的loss只考虑了error，现在加入∑α*参数平方(这里的参数不考虑bias，bias和平滑程度无关，只是平移)。意味着，参数绝对值越小越好。
- 因为参数值接近0，则function是更平滑的，即输入值变化很小时，目标值变化也小–对输入值不敏感，尤其当testing data有noise时。
- 而当α越大，training的error越大，因为加大对regularization的考虑，但是testing上error反而没有更大。因为平滑的function对testing data的noise不敏感。但也不希望太平滑，因为太平滑一条直线，error还是会增加。需要调整α。
error来自bias和variance。
- 复杂的model（function set更大），不同的data得到的 function的variance大，散布开。简单的model比较不会受data影响，所以散布紧。
- function的期望离f*(真实)越近，bias越小。但是并不知道f，所以对f进行假设。越复杂的model，虽然variance很大，但是平均起来，会发现更加接近f*。
- 简单的model的set小，space小，可能不包含真正的f，而复杂的model可能包含f,那么平均起来，复杂model的bias就更小。
error大多来自variance，则为overfitting；来自bias很大，则为underfitting。如果model无法fit training data则为underfitting，即large bias，则需要redesign model，加入更多的features、或者增加model复杂度；
如果training很好，testing很差则overfitting，则增加每次的data(generate 假的training data，制造更多data)、或者regularization(调整α更平滑来减少variance，但有可能增加bias)。
get post
- GET请求是通过URL直接请求数据，而POST请求是放在请求头中
- GET提交有数据大小的限制，POST请求在HTTP协议中也没有做说明，一般来说是没有设置限制的，但是实际上浏览器也有默认值
- 登录操作的时候，尽量使用HTTPS请求，安全性更好
gmv gtv
- 总销售额，总交易额
Adagrad：不同参数不同learning rate– 常数/过去所有微分平方和的开方– 为什么？：一个参数，步长应与一次微分成正比；参数量多的时候应与一次微分/二次微分成正比。我们使用一次微分平方和的开方近似二次微分，这样的做没有增加计算二次微分的计算量。
因为没有足够的data所以才需要学习。当有一切图片时不需要dl。
数据不平衡时，将原来的问题切分成小问题。
如果长发男1、长发女9、短发男9、短发女9中，长发男数据量小，那么分类可以先做一个分类器一分男女，根据分类器一已知男女，分类器二分长短发则正负样本数量为10：18要好很多，分类器二的结果为最后的结果，而非直接找分为四类的分类器。
感受野
如果两个33和一个55对原始输入后卷积都得到了11的输出
那么哪个filter好呢？
从计算量和参数个数来看，选择多层卷积，而每个卷积为33的更好。
feature scaling：将feature的scale化同，即减去均值除以标准差。使得对loss的影响相同，更有效地调learning rate进行梯度下降。
梯度下降的理论-限制？
- 给一个参数值作为初始值，该点领域中可使用泰勒级数表示loss function，这个loss function对参数求偏导，为了最小化loss，选择参数为初始值-常数*偏导。即在领域中，泰勒级数成立时，梯度下降成立。
- 当learning rate很大，则不在初始值领域中，泰勒级数不成立，则可能梯度下降无法使loss逐步变小反增。
- 泰勒也可以考虑到二次微分-牛顿，但是dp中计算量太大不现实。
- Saddle point 或者local minimal 或者 plateau处停止-微分值很小，但是离最小很远处停下来。
为什么NLP和Speech的很多问题也可以用CNN解出来？为什么AlphaGo里也用了CNN？这几个不相关的问题的相似性在哪里？

CNN抓住此共性的手段主要有四个：局部连接／权值共享／池化操作／多层次结构。
如果每一个点的处理使用相同的Filter，则为全卷积，如果使用不同的Filter，则为Local-Conv。

人脸在不同的区域存在不同的特征（眼睛／鼻子／嘴的分布位置相对固定），当不存在全局的局部特征分布时，Local-Conv更适合特征的提取。

用贝叶斯机率说明Dropout的原理

从训练集有替换采样构造 k 个不同的数据集,然后在训练集上训练模型 i。
Dropout的目标是在指数级数量的神经网络上近似这个过程。

在n维空间中，以下哪一个方法最适用于异常点检测？

Mahalonobis 距离是基于卡方分布的多变量异常的程度的统计量

共线性

vif检测
正则、删除

异常点

卡方分布

聚类

划分聚类 k-means、k-medoids、k-modes、k-medians、kernel k-means
层次聚类 Agglomerative 、divisive、BIRCH、ROCK、Chameleon、HAC
密度聚类 DBSCAN、OPTICS、HDBScan
网格聚类 STING
模型聚类 GMM
图聚类 Spectral Clustering（谱聚类）

使用SVM模型遇到了欠拟合的问题，以下哪个选项能提高模型性能？

增加 c gamma。
c越大，支持向量和分离平面距离越小，要求越严格。
gamma越大，空间维度越高。

说明如何用支持向量机实现深度学习(列出相关数学公式)
广义线性模型是怎被应用在深度学习中?

深度学习从统计学角度，可以看做递归的广义线性模型

Weights Initialization. 不同的方式，造成的后果。为什么会造成这样的结果。

几种主要的权值初始化方法： lecun_uniform / glorot_normal / he_normal / batch_normal

为什么网络够深(Neurons 足够多)的时候，总是可以避开较差Local Optima？
Loss. 有哪些定义方式（基于什么？），有哪些优化方式，怎么优化，各自的好处，以及解释。

Cross-Entropy / MSE / K-L散度

backbone
hdcnn
cascade
小目标检测
caffe源码里的底层设计模式、数据流、cuda细节、如何添加新层
更倾向于给你一个场景看你的思路，场景里你怎么分析
怎么挑出来好的样本、选择什么样子的模型
特征工程的做法–
ab背后的正交
特征管理的方案
知识图谱好的应用方式
模型选型，为啥用图模型
一维的卷积的加速
模型的可解释性、业务上解释
长尾item
采样方式–正负样本的做法
实时模型
实时特征落地
adam优化器背后的优化，解决了什么问题
sgd有什么问题
你是如何调参的
图模型有什么弊端
xgb的特征重要性怎么算出来的
ab正交机制
gnn的输入 gnn的思路是？
文本的情感类别，比如美食领域的正向还是负向怎么判断
Self attention和普通attention的区别
多种transformer的架构、对比
cnn输入的如果是长文本怎么处理
各种loss
图模型还有哪些
同构图和异构图的区别
vae的loss
分裂加速
Mmoe
Highway network
Bidaf
Elmo
esmm
逻辑回归的时候问一下odds的概念，
贝叶斯线性回归要是需要强制系数非负该怎么办，
核函数，relu函数是什么意思。
半监督学习或者时间序列
lasso，逻辑回归，非负矩阵分解，svm的目标函数
什么叫显著，什么叫p值，
rerank阶段的强化学习、多目标任务
tf-serving的搭建
推荐中多样性、头部问题
其他的排序模型、召回框架
召回更好的做法，优化思路
计算量（样本量、分类效果or打分效果、epoch、时间，在线学习设计）
各个场景推荐策略的区别
目的是什么。
CET
概率图的条件独立？
spark解决数据倾斜
widedeep，为什么需要wide+deep好处的解释
如何避免落入局部最优
约束方程怎么解 – y>=0的条件下……
hmm具体内容
attention bert transformer
pytorch的常用函数整理
全连接层有什么作用？做一个图像识别的网络，可以不要全连接层吗？
机器学习训练误差由哪些构成；
BN层加在激活函数前与后效果有何不同；
如何判断异常点；
逻辑回归的分布函数；
逻辑回归的参数求解在优化方面属于什么类型；
seq-seq有哪些结构形式；
soft-attention与hard-attention的区别；
数据分类不均匀的话，要做哪些处理；
手写逻辑回归极大似然函数的数学推导；
Glove与word2vec的比较；
PageRank是怎么回事；
在resnet中，什么是残差，有何意义？
在GEMM中，如何优化缓存？
在ARM平台上，SIMD(单指令多数据)介绍一下大概？
是否了解其他平台的SIMD指令？intel的AVX和ARM NEON有何不同？
在实现一个SIMD程序时，应该注意哪些方面？如何判断一个算法适不适合SIMD加速？
如何证明，SIMD已经达到了最优化性能？
在大量的SIMD指令中，如何选择性能最佳的指令？
实现memcpy.
如何在main函数之外之行一个函数。
这样声明变量有没有问题：int a[10000000].
static修饰符有什么用？如果不加会出现什么后果？
常见的语言模型；
文本表达方法；
新词如何发现；
句子中关键词如何提取（tfidf，textrank）；
如何计算两个句子相似度；
讲一下Bert；讲一下fastText；
文本处理常用步骤；
分词分得不准确的话，该如何处理。
DenseNet的网络结构？与全连接有何不同？
简历项目中网络用了多少层FeatureMap，每层面积？
FeatureMap提取了哪些特征？
词向量怎么训练的？
word2vec两种常用模式？
词向量后面的Softmax如何优化？
CBOW和Skipgram哪个更适合采用？（大规模训练的话Skipgram要更好）
Glove的原理？（简历上有体现）
讲一下fastText（简历上有体现），说一下与word2vec的联系；
Huffman树；
如果用seq-seq进行embedding，做相似度计算，会如何（替代Glove的话）；
Glove如何训练的，用的多少维；
解释下TextRank（简历有体现）；
为什么数据量越大SVM训练越慢；
分词是如何处理的；
语料中遇到新词如何处理；
决策树和SVM在数据预处理上有何不同（缺失值）；SVM对文本要先做什么处理；
fastText最初先对文本如何处理（固定格式）；
词性标注比较好的方法是哪些，有没有最新的模型。
手推SVM；LSTM的结构，优势在哪里。
生成模型主流就那几个
VAE系列
Glow系列
GAN系列
思考，VAE的优缺点有哪些，为什么VAE的结果通常是比较模糊的？VQVAE的提出是希望解决什么问题，他存在VAE类似的问题吗？如果存在，那是为什么。
Glow的优缺点？为什么用Glow？Glow的分布会对结果产生什么影响？
GAN的稳定训练措施有哪些？各个稳定方法的优缺点比较？pair与非pair数据对GAN的训练影响？
从生成模型的角度来看，当我们希望对生成内容的属性进行控制的时候，你会选哪些方法，为什么？
进一步地，从模型训练的角度。参数初始化，激活函数选择，数据的均值方差，正则化，归一化，优化器（adam以及变种），自回归与非自回归的选择。
最后的最后，从训练数据而言。因为我接触信号比较多，那么，这段信号有什么特点，怎么提取feature输入网络？干净的数据怎么做，带噪的数据怎么做，数据的干净程度对结果的影响，一定要用深度学习吗，传统的信号分析能作为辅助loss吗？怎么衡量你的模型效果？
最最后的深坑，这个东西可以用强化学习做吗

本文作者： yuqing wang
本文链接： https://satyrswang.github.io/2021/04/05/零散问题repo/
版权声明： 本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。转载请注明出处！