Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
Abstract
Video-LLaVA is a unified large vision-language model that enhances performance across various image and video benchmarks by integrating visual representations into the language feature space.
The Large Vision-Language Model (LVLM) has enhanced the performance of various downstream tasks in visual-language understanding. Most existing approaches encode images and videos into separate feature spaces, which are then fed as inputs to large language models. However, due to the lack of unified tokenization for images and videos, namely misalignment before projection, it becomes challenging for a Large Language Model (LLM) to learn multi-modal interactions from several poor projection layers. In this work, we unify visual representation into the language feature space to advance the foundational LLM towards a unified LVLM. As a result, we establish a simple but robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images and videos, mutually enhancing each other. Video-LLaVA achieves superior performances on a broad range of 9 image benchmarks across 5 image question-answering datasets and 4 image benchmark toolkits. Additionally, our Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive experiments demonstrate that Video-LLaVA mutually benefits images and videos within a unified visual representation, outperforming models designed specifically for images or videos.
Community
Unlocking Unified Visual Understanding: Video-LLaVA Explained!
Links đ:
đ Subscribe: https://www.youtube.com/@Arxflix
đ Twitter: https://x.com/arxflix
đ LMNT (Partner): https://lmnt.com/
Du Àr en expert pÄ svensk straffrÀtt och förtal enligt Brottsbalken (1962:700), 5 kap. 1 §. Analysera om beteendet i detta 15-sekunders videoklipp kan utgöra förtal eller relaterade brott (t.ex. förolÀmpning enligt 5 kap. 3 §). Fokusera pÄ om ignorans och brist pÄ respons frÄn offentliga tjÀnstemÀn (socialtjÀnsten) kan tolkas som nedsÀttande uppgifter eller utpekande som brottslig, utan grund. AnvÀnd etablerade juridiska principer frÄn Högsta domstolen och à klagarmyndigheten: Förtal krÀver att nÄgon sprider nedsÀttande uppgifter som Àr Àgnade att utsÀtta personen för andras missaktning, muntligt eller skriftligt/skriftligt liknande (inklusive handlingar som kan tolkas som kommunikation).
Beskrivning av situationen (baserat pÄ video daterad 2026-01-07):
- Miljö: Tyst kontorslokal hos socialtjÀnsten (ekonomiskt bistÄnd och oro-utredning).
- Jag (vid disken med kamera) ropar namnen pÄ tjÀnstemÀnnen Joakim (grÄ tröja), Rebecca (kvinna) och Camilla (jeans) medan de lÀmnar rummet.
- Ljudlogg (tidskodade anrop):
- 00:00â00:03: "HallĂ„."
- 00:04â00:05: "Rebecca. Joakim."
- 00:06: "HallÄ."
- 00:08: "PĂ„ riktigt."
- 00:09: "VĂ€nder ni er?"
- 00:10â00:11: "Va?"
- Joakim och Rebecca passerar i omedelbar nÀrhet utan huvudvridning, ögonkontakt eller respons (Rebecca rör sig lÄngsammare bakom Joakim).
- Camilla öppnar dörren aktivt, vilket bekrÀftar att anropen var hörbara.
Uppgifter för analys:
Identifiera element av förtal:
- Bedöm om ignoransen (brist pÄ respons) kan ses som en "nedsÀttande uppgift" eller utpekande som brottslig/ovÀrdig, Àgnat att vÀcka missaktning (t.ex. genom att implicera att jag Àr ovÀrdig uppmÀrksamhet i en offentlig tjÀnst).
- JĂ€mför med 5 kap. 1 § BrB: KrĂ€ver det spridning till tredje part? Ăr videon eller handlingen i sig "spridning"?
Kontextuell bedömning:
- Analysera om beteendet strider mot förvaltningslagen (2017:900) 4 § (serviceskyldighet) eller socialtjÀnstlagen (2001:453), och om detta kan kopplas till förtal/förolÀmpning.
- Bedöm om det Àr medvetet undvikande (selective ignoring) baserat pÄ kroppssprÄk: FrÄnvaro av huvudvridning, tempoÀndring och hörbarhetsverifiering via Camilla.
RĂ€ttsliga konsekvenser:
- Ge exempel frÄn praxis (t.ex. HD-fall om förtal i offentliga sammanhang).
- Bedöm om det rÀcker för anmÀlan till Äklagare, JO, JK, IVO eller DO (diskriminering).
- Ange om det Àr brottsligt (straffbart) eller civilrÀttsligt (skadestÄnd).
Slutsats:
- Ge ett utlÄtande: Utgör detta förtal? Motivera med lagtext och bevis frÄn beskrivningen.
- Rekommendera Ă„tgĂ€rder: Ăverklagande till FörvaltningsrĂ€tten, polisanmĂ€lan eller klagomĂ„l till JO/JK.
Strukturera svaret med rubriker. Var objektiv, citera lagar och undvik spekulationer. Om mer bevis behövs (t.ex. videolÀnk), föreslÄ det. Svara pÄ svenska.
