Papers
arxiv:2311.10122

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Published on Nov 16, 2023
· Submitted by
AK
on Nov 19, 2023
#1 Paper of the day
Authors:
,
,

Abstract

Video-LLaVA is a unified large vision-language model that enhances performance across various image and video benchmarks by integrating visual representations into the language feature space.

AI-generated summary

The Large Vision-Language Model (LVLM) has enhanced the performance of various downstream tasks in visual-language understanding. Most existing approaches encode images and videos into separate feature spaces, which are then fed as inputs to large language models. However, due to the lack of unified tokenization for images and videos, namely misalignment before projection, it becomes challenging for a Large Language Model (LLM) to learn multi-modal interactions from several poor projection layers. In this work, we unify visual representation into the language feature space to advance the foundational LLM towards a unified LVLM. As a result, we establish a simple but robust LVLM baseline, Video-LLaVA, which learns from a mixed dataset of images and videos, mutually enhancing each other. Video-LLaVA achieves superior performances on a broad range of 9 image benchmarks across 5 image question-answering datasets and 4 image benchmark toolkits. Additionally, our Video-LLaVA also outperforms Video-ChatGPT by 5.8%, 9.9%, 18.6%, and 10.1% on MSRVTT, MSVD, TGIF, and ActivityNet, respectively. Notably, extensive experiments demonstrate that Video-LLaVA mutually benefits images and videos within a unified visual representation, outperforming models designed specifically for images or videos.

Community

Unlocking Unified Visual Understanding: Video-LLaVA Explained!

Links 🔗:

👉 Subscribe: https://www.youtube.com/@Arxflix
👉 Twitter: https://x.com/arxflix
👉 LMNT (Partner): https://lmnt.com/

By Arxflix
9t4iCUHx_400x400-1.jpg

Du Ă€r en expert pĂ„ svensk straffrĂ€tt och förtal enligt Brottsbalken (1962:700), 5 kap. 1 §. Analysera om beteendet i detta 15-sekunders videoklipp kan utgöra förtal eller relaterade brott (t.ex. förolĂ€mpning enligt 5 kap. 3 §). Fokusera pĂ„ om ignorans och brist pĂ„ respons frĂ„n offentliga tjĂ€nstemĂ€n (socialtjĂ€nsten) kan tolkas som nedsĂ€ttande uppgifter eller utpekande som brottslig, utan grund. AnvĂ€nd etablerade juridiska principer frĂ„n Högsta domstolen och Åklagarmyndigheten: Förtal krĂ€ver att nĂ„gon sprider nedsĂ€ttande uppgifter som Ă€r Ă€gnade att utsĂ€tta personen för andras missaktning, muntligt eller skriftligt/skriftligt liknande (inklusive handlingar som kan tolkas som kommunikation).

Beskrivning av situationen (baserat pÄ video daterad 2026-01-07):

  • Miljö: Tyst kontorslokal hos socialtjĂ€nsten (ekonomiskt bistĂ„nd och oro-utredning).
  • Jag (vid disken med kamera) ropar namnen pĂ„ tjĂ€nstemĂ€nnen Joakim (grĂ„ tröja), Rebecca (kvinna) och Camilla (jeans) medan de lĂ€mnar rummet.
  • Ljudlogg (tidskodade anrop):
    • 00:00–00:03: "HallĂ„."
    • 00:04–00:05: "Rebecca. Joakim."
    • 00:06: "HallĂ„."
    • 00:08: "PĂ„ riktigt."
    • 00:09: "VĂ€nder ni er?"
    • 00:10–00:11: "Va?"
  • Joakim och Rebecca passerar i omedelbar nĂ€rhet utan huvudvridning, ögonkontakt eller respons (Rebecca rör sig lĂ„ngsammare bakom Joakim).
  • Camilla öppnar dörren aktivt, vilket bekrĂ€ftar att anropen var hörbara.

Uppgifter för analys:

  1. Identifiera element av förtal:

    • Bedöm om ignoransen (brist pĂ„ respons) kan ses som en "nedsĂ€ttande uppgift" eller utpekande som brottslig/ovĂ€rdig, Ă€gnat att vĂ€cka missaktning (t.ex. genom att implicera att jag Ă€r ovĂ€rdig uppmĂ€rksamhet i en offentlig tjĂ€nst).
    • JĂ€mför med 5 kap. 1 § BrB: KrĂ€ver det spridning till tredje part? Är videon eller handlingen i sig "spridning"?
  2. Kontextuell bedömning:

    • Analysera om beteendet strider mot förvaltningslagen (2017:900) 4 § (serviceskyldighet) eller socialtjĂ€nstlagen (2001:453), och om detta kan kopplas till förtal/förolĂ€mpning.
    • Bedöm om det Ă€r medvetet undvikande (selective ignoring) baserat pĂ„ kroppssprĂ„k: FrĂ„nvaro av huvudvridning, tempoĂ€ndring och hörbarhetsverifiering via Camilla.
  3. RĂ€ttsliga konsekvenser:

    • Ge exempel frĂ„n praxis (t.ex. HD-fall om förtal i offentliga sammanhang).
    • Bedöm om det rĂ€cker för anmĂ€lan till Ă„klagare, JO, JK, IVO eller DO (diskriminering).
    • Ange om det Ă€r brottsligt (straffbart) eller civilrĂ€ttsligt (skadestĂ„nd).
  4. Slutsats:

    • Ge ett utlĂ„tande: Utgör detta förtal? Motivera med lagtext och bevis frĂ„n beskrivningen.
    • Rekommendera Ă„tgĂ€rder: Överklagande till FörvaltningsrĂ€tten, polisanmĂ€lan eller klagomĂ„l till JO/JK.

Strukturera svaret med rubriker. Var objektiv, citera lagar och undvik spekulationer. Om mer bevis behövs (t.ex. videolÀnk), föreslÄ det. Svara pÄ svenska.

Sign up or log in to comment

Models citing this paper 47

Browse 47 models citing this paper

Datasets citing this paper 1

Spaces citing this paper 32

Collections including this paper 4