/Tech17h ago

Stefan Horoi and Google DeepMind's Gintare Karolina Dziugaite show overtraining standalone expert models causes parameter interference when merged

Overtraining shifts expert model behavior from memorization to interference.

021283K

#1267

Original post

Gintare Karolina Dziugaite@gkdziugaite#1268inTech

Merging models but seeing an unexpected drop in performance? We dive into the shift from memorization to parameter interference in our new #ICML 2026 paper. Huge shoutout to @stefanhoroi for leading this work!

Stefan Horoi@stefanhoroi

🎉 Our paper "𝗙𝗿𝗼𝗺 𝗠𝗲𝗺𝗼𝗿𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝘁𝗼 𝗣𝗮𝗿𝗮𝗺𝗲𝘁𝗲𝗿 𝗜𝗻𝘁𝗲𝗿𝗳𝗲𝗿𝗲𝗻𝗰𝗲: 𝗛𝗼𝘄 𝗢𝘃𝗲𝗿𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗘𝘅𝗽𝗲𝗿𝘁𝘀 𝗛𝗮𝗿𝗺𝘀 𝗠𝗼𝗱𝗲𝗹 𝗠𝗲𝗿𝗴𝗶𝗻𝗴" was accepted at ICML 2026! 🔎 Do better expert models always lead to better merged models? Not necessarily! 📜Read the paper: https://arxiv.org/abs/2506.14126v2 🧵 1/9

3:49 AM · Jun 19, 2026 · 3K Views

Sentiment

Sentiment building, check back later.

Cluster Engagement

Digg Deeper

No Digg Deeper questions have been answered for this story yet.