Distributed Systems | Fridays with Faraday

Tensor Parallelism Implementation: AllReduce Patterns and Efficiency

Detailed analysis of tensor parallelism for multi-GPU inference, including column/row splitting strategies, AllReduce optimization, and practical implementation considerations.

Nov 5, 2024 · 21 min read

#tensor-parallelism#distributed#multi-gpu +2

distributed systems intermediate

Request Routing for LLM Inference: Load Balancing Strategies

Analysis of load balancing algorithms for multi-replica LLM serving, including least-connections, weighted routing, and queue-depth-aware strategies.

Nov 1, 2024 · 14 min read

#load-balancing#routing#inference +2

← All Categories