Agentless | Jatin Ganhotra

Jul 26, 2025	The Visual Complexity Penalty in Code Understanding - SWE-bench Multimodal Analysis How visual complexity penalizes SWE-agents on SWE-bench Multimodal — testing SWE-agent, Agentless and OpenHands with Claude 3.7 Sonnet and OpenAI o3 on visually rich GitHub issues.
Apr 15, 2025	Cracking the Code: How Difficult Are SWE-Bench-Verified Tasks Really? Task-difficulty distribution in SWE-bench Verified from human annotations — what easy, medium and hard mean for SWE-agents like SWE-agent and Agentless running Claude and OpenAI o1.
Mar 30, 2025	The Multi-File Frontier: Why SWE-Bench Verified Doesn't Reflect Real-World Programming Challenges Why SWE-bench Verified's focus on single-file changes misses real-world multi-file programming — analyzed across SWE-agent, Agentless, Claude 3 Opus, Claude 3.5 Sonnet, OpenAI o1 and Amazon Q.
Jan 05, 2025	Do SWE-Agents Solve Multi-File Issues Like Humans? A Deep Dive into SWE-Bench Verified How SWE-agents (OpenHands, SWE-agent, Agentless) handle multi-file software engineering tasks compared to human developers on SWE-bench Verified, with Claude 3.5 Sonnet and OpenAI models.
Dec 26, 2024	SWE-Bench Verified ⊊ real-world SWE tasks Why SWE-bench Verified is only a subset of real-world software engineering tasks — comparing SWE-agents such as OpenHands CodeAct v2.1, Amazon Q, SWE-agent, Agentless and AutoCodeRover, with Claude 3.5 Sonnet.