Tom Lu's picture

Tom Lu

eigentom

·

https://eigentom.github.io

EigenTom

AI & ML interests

MLLM, Generative AI, Agentic RL

Recent Activity

updated a Space about 9 hours ago

ReviewGrounder/GradioDemo

authored a paper about 23 hours ago

RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought

authored a paper about 23 hours ago

VEU-Bench: Towards Comprehensive Understanding of Video Editing

View all activity

Organizations

upvoted 3 papers 1 day ago

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Paper • 2604.05015 • Published 6 days ago • 224

Watch Before You Answer: Learning from Visually Grounded Post-Training

Paper • 2604.05117 • Published 6 days ago • 31

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Paper • 2604.08523 • Published 3 days ago • 96

upvoted a paper 3 days ago

SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding

Paper • 2603.16124 • Published 25 days ago • 2

upvoted a paper 16 days ago

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Paper • 2603.20278 • Published 25 days ago • 94

upvoted a paper 24 days ago

AI Can Learn Scientific Taste

Paper • 2603.14473 • Published 27 days ago • 419

upvoted 6 papers 2 months ago

Self-Refining Video Sampling

Paper • 2601.18577 • Published Jan 26 • 25

VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Paper • 2601.16973 • Published Jan 23 • 40

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Paper • 2601.18631 • Published Jan 26 • 48

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

Paper • 2601.20354 • Published Jan 28 • 112

DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

Paper • 2509.25454 • Published Sep 29, 2025 • 148

LongLive: Real-time Interactive Long Video Generation

Paper • 2509.22622 • Published Sep 26, 2025 • 189

upvoted a paper 3 months ago

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Paper • 2601.06943 • Published Jan 11 • 215

upvoted 2 papers 4 months ago

Rethinking Chain-of-Thought Reasoning for Videos

Paper • 2512.09616 • Published Dec 10, 2025 • 19

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

Paper • 2512.02014 • Published Dec 1, 2025 • 74

upvoted 4 papers 5 months ago

OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

Paper • 2511.16334 • Published Nov 20, 2025 • 96

Visual Spatial Tuning

Paper • 2511.05491 • Published Nov 7, 2025 • 53

Emu3.5: Native Multimodal Models are World Learners

Paper • 2510.26583 • Published Oct 30, 2025 • 114

VisCoder2: Building Multi-Language Visualization Coding Agents

Paper • 2510.23642 • Published Oct 24, 2025 • 22

upvoted a paper 6 months ago

WithAnyone: Towards Controllable and ID Consistent Image Generation

Paper • 2510.14975 • Published Oct 16, 2025 • 87