文章目录
- Transformer|Encoder编码器
 - 注意力机制
 - 残差
 - 残差的作用
  
 
 
 
Transformer|Encoder编码器

注意力机制

比如说已经得到腰围和体重的两份数据,此时给出一个查询——腰围为57的人的体重为多少?可以根据以往的腰围数据对体重进行估计,比如说腰围为56的体重为43,腰围为58的人体重为48,那么腰围为57的人体重应该介于43和48之间。
而不妨假设43占一半的作用,48占一半的作用,所以预测的体重为45.5.
而“一半的作用”就是所谓的权重系数(注意力权重,为了得出结果应该放多少注意力到这个级别的体重上来),而这个权重系数需要计算出来。
所以,做个小总结,Query通过Key和Value得到对应的估计值。
而以上有个问题,就是并没有将Key矩阵的51纳入到考虑中。
所以进一步,为了考虑到所有的影响,我们可以使用softmax来归一化Key矩阵每一个元素对答案的贡献的占比。算出注意力权重的具体过程如下——

得到注意力权重系数后,我们就可以对查询对应的结果进行进一步的估计了。

残差

残差的作用

 
- 残差的作用
  
 
 
 
 
猜你喜欢
- 2月前梦中生日宴请宾客的深层寓意
 - 2月前梦见吃面条的寓意解析
 - 2月前18种好运来临的征兆
 - 2月前梦见小孩丢了预示吉凶解析
 - 2月前梦见很多鬼预示什么征兆
 - 2月前梦见枕头的寓意解析
 - 2月前梦见考试预示什么心理暗示
 - 2月前孕妇梦见棺材的寓意解析
 - 2月前梦见老虎象征哪位仙家
 - 2月前梦中垂钓 一竿即中的奇妙预兆
 
网友评论
- 搜索
 
- 最新文章
 
- 热门文章
 
