Transformers | Fridays with Faraday

Attention Variants Compared: MHA, MQA, GQA, and MLA

Technical comparison of Multi-Head Attention, Multi-Query Attention, Grouped-Query Attention, and Multi-head Latent Attention. Analysis of memory-compute trade-offs and implementation considerations.

Nov 7, 2024 · 22 min read

#attention#mha#mqa +4

transformers advanced

Grouped Query Attention: Memory-Throughput Trade-offs

Analysis of GQA's KV cache reduction mechanism, optimal group sizes, and performance implications for inference at scale. Includes benchmarks across different model sizes.

Nov 6, 2024 · 16 min read

#attention#gqa#mha +3

transformers advanced

RoPE Embeddings: Implementation and Long Context Scaling

Understanding Rotary Position Embeddings, their efficient implementation, and techniques for extending context length including YaRN and Dynamic NTK scaling.

Oct 31, 2024 · 17 min read

#rope#positional-encoding#transformers +2

← All Categories