Precise-Debugging-Benchmarking

community

https://precise-debugging-benchmark.github.io/

Activity Feed Request to join this org

AI & ML interests

None defined yet.

updated a Space 3 months ago

README

updated 3 datasets 3 months ago

Precise-Debugging-Benchmarking/PDB-Multi

Viewer • Updated May 6 • 256 • 67

Precise-Debugging-Benchmarking/PDB-Single-Hard

Viewer • Updated May 6 • 5.75k • 78

Precise-Debugging-Benchmarking/PDB-Single

Viewer • Updated May 6 • 7.59k • 53

submitted a paper to Daily Papers 4 months ago

Precise Debugging Benchmark: Is Your Model Debugging or Regenerating?

Paper • 2604.17338 • Published Apr 19 • 4

published a Space 4 months ago

README

published 3 datasets 4 months ago

Precise-Debugging-Benchmarking/PDB-Multi

Viewer • Updated May 6 • 256 • 67

Precise-Debugging-Benchmarking/PDB-Single-Hard

Viewer • Updated May 6 • 5.75k • 78

Precise-Debugging-Benchmarking/PDB-Single

Viewer • Updated May 6 • 7.59k • 53

authored 4 papers over 1 year ago

Generalization Differences between End-to-End and Neuro-Symbolic Vision-Language Reasoning Systems

Paper • 2210.15037 • Published Oct 26, 2022 • 1

TLDR: Token-Level Detective Reward Model for Large Vision Language Models

Paper • 2410.04734 • Published Oct 7, 2024 • 19

MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

Paper • 2410.10563 • Published Oct 14, 2024 • 37

VisualLens: Personalization through Visual History

Paper • 2411.16034 • Published Nov 25, 2024 • 18