Hierarchical Attention Network(HAN)

Hierarchical Attention Network(HAN,层级注意力网络)是一种面向长文本(如文档、篇章)分类的深度学习模型,由 Zichao Yang 等人在 2016 年提出。其核心思想是通过模仿人类阅读文档时的层次化注意力机制,捕捉不同层次的文本重要性差异。以下是其核心解析:

1. 模型设计动机

2. 模型架构

HAN 分为四个模块,形成“双向编码器+注意力机制”的层级结构:

(1) 词级别处理

  1. 词编码器(Word Encoder)

    • 使用双向 GRU(或 LSTM)对句子中的每个词进行编码,生成上下文感知的词表示。
    • 输出:每个词的隐藏状态(正向+反向拼接)。
  2. 词注意力(Word Attention)

    • 通过可学习的上下文向量(Context Vector)计算各词的重要性权重。
    • 权重越大,表示该词对当前句子的语义贡献越高。
    • 输出:句子的向量表示(加权求和后的词向量)。

(2) 句子级别处理

  1. 句子编码器(Sentence Encoder)

    • 使用双向 GRU 编码所有句子的向量表示,捕捉句子间的上下文依赖。
  2. 句子注意力(Sentence Attention)

    • 类似词注意力,计算各句子的重要性权重。
    • 输出:文档的最终向量表示(加权求和后的句子向量)。

(3) 分类层


3. 注意力机制详解


4. 技术特点与优势

5. 应用场景