应用情境
输入任意长度个向量进行处理。
从输入看:
- 文字处理(自然语言处理)
- 声音信号处理
- 每个时间窗口(Window, 25ms)视为帧(Frame),视为向量
- 图
- 每个节点视为一个向量
- Social graph(社交网络图)
- 分子式【one-hot】
从输出看
- √ 输入输出数量相等【每个向量都有一个标签】⇒sequence Labeling
- 词性标注(POS tagging)
- 语音辨识(每个vector对应phoneme)
- 社交网络(每个节点(人)进行标注【是否推送商品】)
- 整个输入序列只有一个输出
- 由模型决定输出的数目【seq2seq】
Sequence Labeling
- 对每一个向量,用Fully-connected network分别进行处理
- 问题:忽略了序列上下文的关系
- 同一个向量在序列号中不同的位置、不同的上下文环境下,得到的输出可能不同(需要考虑序列)
- 改进:串联若干个向量
Self-attention

特点:考虑整个序列sequence的所有向量,综合向量序列整体和单个向量个体,得到对每一个向量处理后的向量
⇒将这个向量链接一个FC,FC可以专注于处理这一个位置的向量,得到对应结果。
Self-attention+FC可以交替使用