JobBench

community

AI & ML interests

None defined yet.

Recent Activity

yichen-f authored a paper 2 days ago

BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers?

yichen-f authored a paper 2 days ago

Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?

yichen-f updated a dataset 14 days ago

JobBench/job-bench

View all activity

authored 2 papers 2 days ago

BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers?

Paper • 2510.18003 • Published Oct 20, 2025

Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?

Paper • 2605.12684 • Published 9 days ago • 11

updated a dataset 14 days ago

JobBench/job-bench

Viewer • Updated 14 days ago • 128 • 1.82k • 2

published a dataset about 1 month ago

JobBench/job-bench

Viewer • Updated 14 days ago • 128 • 1.82k • 2

authored a paper 12 months ago

VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL

Paper • 2505.23977 • Published May 29, 2025 • 10