16h ago

StateKV scales pretrained video VLMs linearly with video length at inference time without retraining

It reduces GFLOPs while preserving accuracy on VideoMME.

StateKV scales pretrained video VLMs linearly with video length at inference time without retraining · Digg