应用情境

输入任意长度个向量进行处理。

从输入看：

文字处理（自然语言处理）
- 将word表示为向量
  - one-hot
  - word-embedding
声音信号处理
- 每个时间窗口（Window, 25ms）视为帧（Frame）,视为向量
图
- 每个节点视为一个向量
  - Social graph（社交网络图）
  - 分子式【one-hot】

从输出看

√ 输入输出数量相等【每个向量都有一个标签】⇒sequence Labeling
- 词性标注（POS tagging）
- 语音辨识（每个vector对应phoneme）
- 社交网络（每个节点（人）进行标注【是否推送商品】）
整个输入序列只有一个输出
- 文本情感分析
- 语者辨认
- 分子的疏水性
由模型决定输出的数目【seq2seq】
- 翻译
- 语音辨识

Sequence Labeling

对每一个向量，用Fully-connected network分别进行处理
- 问题：忽略了序列上下文的关系
  - 同一个向量在序列号中不同的位置、不同的上下文环境下，得到的输出可能不同（需要考虑序列）
- 改进：串联若干个向量
  - 问题：
    - 只能考虑固定个，不能考虑”任意长度“
    - 网络参数大

Self-attention

Untitled

特点：考虑整个序列sequence的所有向量，综合向量序列整体和单个向量个体，得到对每一个向量处理后的向量

⇒将这个向量链接一个FC，FC可以专注于处理这一个位置的向量，得到对应结果。

Self-attention+FC可以交替使用