future - a MercedeSnape Collection

MercedeSnape 's Collections

Technical Report

Problem Definition

reasoning evaluation

agent reasoning

future

updated Apr 3

Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

Paper • 2512.21337 • Published Dec 24, 2025 • 31

Note 对比流行非流行建筑的年代检测准确性，可以看出VLM泛化能力/是否更多依靠memory？（这是典型任务？）