/Tech1d ago

Researchers Release Preprint Analyzing SGD and ASGD Efficiency Across Batch Sizes

673222932.7K

Original post

Momentum accelerates training, but are the savings compute or serial runtime? New work: we prove compute-efficiency (CE: total compute to reach a target loss, not serial steps) lower bounds for stochastic Heavy Ball (HB) and Accelerated SGD (ASGD) [Kidambi et al., 2018]

1:45 PM · Jun 24, 2026 · 30.4K Views

Sentiment

Users praise the new work proving compute-efficiency lower bounds for stochastic momentum methods because of its amazing collaborators.

Pos

100.0%

Neg

0.0%

1 comments with sentiment.

Cluster Engagement

Digg Deeper

No Digg Deeper questions have been answered for this story yet.

ARXIV.ORGVia

#164

Posts from X

Most Activity

Sham Kakade@ShamKakade6

For linear regression on Gaussian covariates, we show HB improves serial runtime over SGD, but it does not improve the CE frontier. Takeaway: HB raises the critical batch size — you can use bigger batches to cut serial steps — but needs same compute as SGD to hit a target loss.

Sham Kakade@ShamKakade6

1d73820

BOOKMARKS1LIKES7RETWEETS3

Sham Kakade@ShamKakade6

Work done with amazing collaborators: @depen_morwani, @alexmeterez, @pranavn1008 . Preprint: https://arxiv.org/abs/2606.19179

Sham Kakade@ShamKakade6

We extend to ASGD, a momentum variant with an extra buffer, which achieves a better serial runtime at batch size 1. For power law spectra w/ fast-decaying exponents, ASGD improves small-batch CE, but as batch size grows, it trades that advantage for better serial runtime.

1d56471

REPLIES1

Sham Kakade@ShamKakade6

1d57110

Sham Kakade@ShamKakade6

Tagging some folks: @QuanquanGu, @jainprateek_, @PNetrapalli, @aaron_defazio, @BachFrancis, @konstmish, @ddrusvyat, @KempnerInst, @_arohan_, @jxbz

Sham Kakade@ShamKakade6

Work done with amazing collaborators: @depen_morwani, @alexmeterez, @pranavn1008 . Preprint: https://arxiv.org/abs/2606.19179

1d45630