15h ago

Qwen Team releases Qwen-VLA, a vision-language-action model achieving a 97.9% success rate on the LIBERO robotic benchmark

The model uses a Diffusion Transformer-based action decoder

Qwen Team releases Qwen-VLA, a vision-language-action model achieving a 97.9% success rate on the LIBERO robotic benchmark · Digg