Publications | DAPLab

fog: Expressing Motion and Emotion through Function Composition of AI-Generated Code

Vivian Liu , Lydia B. Chilton

arXiv 2026

PersonaJudge: Simulating Individual Human Preference Judgments with Evaluator-Specific Demonstration Data

Zeyu He , Xuan Qi , Subramanian Chidambaram , Zhichao Xu , Vinayak Arannil , Lydia Chilton , Alex C. Williams

arXiv 2026

Latent Cache Flow: Model-to-Model Communication Without Text

Maximillian Rossi , Prajwal Raghunath , Eugene Wu

AdaptFM Workshop at ICML 2026

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All

Chenxi Huang , Alex Mathai , Feiyang Yu , Aleksandr Nogikh , Petros Maniatis , Franjo Ivancic , Eugene Wu , Kostis Kaffes , Junfeng Yang , Baishakhi Ray

ICML 2026

LAKEQA: An Exploratory QA Benchmark over a Million-Scale Data Lake

Haonan Wang* , Jiaxiang Liu* , Yurong Liu , Austin Senna Wijaya , Tianle Zhou , Eden Wu , Yijia Chen , Wanting You , Reya Vir , Daniela Pinto Veizaga , Grace Fan , Yusen Zhang , Juliana Freire , Eugene Wu

ICML 2026

BranchBench: An Extensible Benchmark for Agentic Database Branching

Elaine Ang , Kostis Kaffes , Eugene Wu

CAIS Workshop 2026

Behavior Cloning is Not All You Need: The Optimality of On-Policy Distillation for Noisy Expert Feedback

Ved Sriraman , Peihan Liu , Daniel Hsu , Adam Block

ICML 2026 Workshop on Decision-Making from Offline Datasets to Online Adaptation: Black-Box Optimization to Reinforcement Learning

OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks

Mengqi Yuan , Zilong Zhou , Xinzhuang Xiong , Weiming Wu , Jiayang Sun , Jiamin Song , Kaiqian Cui , Bowen Wang , Haoyuan Wu , Yitong Li , Dunjie Lu , Haikong Lu , Qi Zhen , Xinyuan Wang , Jiaqi Deng , Yuhao Yang , Cheng Chen , Boyuan Zheng , Alex Su , Xiao Yu , Hao Zou , Saaket Agashe , Xing Han Lu , Manpreet Kaur , Zhengyang Qi , Vincent Sunn Chen , Frederic Sala , Dayiheng Liu , Junyang Lin , Zhou Yu , Yu Su , Siva Reddy , Xin Eric Wang , Peng Qi , Tianbao Xie , Tao Yu

arXiv 2026

Invisible Impact of Empathy on Behavioral Change: Isolating the Effect of Empathy in Long-term Physical Activity Coaching Chatbot Interactions

Li Siyan , Kai-Hui Liang , Shopnil Shahriar , Yilin Ye , Shiyoh Goetsu , Wei-Wei Du , Masahiro Yoshida , Tsunayuki Ohwa , Xuhai Xu , Zhou Yu

arXiv 2026

GIF: Locally Sound Geometric Information Flow Control for LLMs

Adam Storek , Nikolaus Holzer , Zhuo Zhang , Suman Jana

arXiv 2026

Skills for the Future Software Profession: Beyond Agentic AI!

Sungmin Kang , Baishakhi Ray , Abhik Roychoudhury

arXiv 2026

MortarBench: Evaluating Mortgage Loan Origination Agents

Matthew Toles , Yunan Lu , Manav Munjal , Bojun Liu , Yuanhao Deng , Stephanie Selig , Derek Rindner , Cheng Li , Zhou Yu

arXiv 2026

Detect, Remask, Repair: Diffusion Editing for Faithful Summarization of Evolving Contexts

Hao Zou , Zachary Horvitz , Chandhru Karthick , Zhou Yu , Kathleen McKeown

arXiv 2026

Fixed Universal Transformer

Jingwen Liu , Alexandr Andoni , Daniel Hsu

Mechanistic Interpretability Workshop at ICML 2026

VISTA: A Versatile Interactive User Simulation Toolkit for Agent Evaluation

Yunan Lu , Ryan Shea , Yusen Zhang , Zhou Yu

arXiv 2026

Data Flow Control: Data Safety Policies for AI Agents

Charlie Summers , Eugene Wu

arXiv 2026

SANA: What Matters for QA Agents over Massive Data Lakes?

Austin Senna Wijaya , Jiaxiang Liu , Haonan Wang , Eugene Wu

arXiv 2026

Orchard: An Open-Source Agentic Modeling Framework

Baolin Peng , Wenlin Yao , Qianhui Wu , Hao Cheng , Xiao Yu , Rui Yang , Tao Ge , Alessandro Sordoni , Xingdi Yuan , Yelong Shen , Pengcheng He , Tong Zhang , Zhou Yu , Jianfeng Gao

arXiv 2026

AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions

Minghao Chen , Xinyi Hu , Zhou Yu , Yufei Yin

ICML 2026

Detecting Privilege Escalation in Polyglot Microservices via Agentic Program Analysis

Penghui Li , Hong Yau Chong , Yinzhi Cao , Junfeng Yang

IEEE S&P 2026

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Yunan Lu , Luigi Liu , Omar Yahia , Arpit Sharma , Zhou Yu

arXiv 2026

Orchard: An Open-Source Agentic Modeling Framework

Baolin Peng , Wenlin Yao , Qianhui Wu , Hao Cheng , Xiao Yu , Rui Yang , Tao Ge , Alessandro Sordoni , Xingdi Yuan , Yelong Shen , Pengcheng He , Tong Zhang , Zhou Yu , Jianfeng Gao

arXiv 2026

SemaTune: Semantic-Aware Online OS Tuning with Large Language Models

Georgios Liargkovas , Mihir Nitin Joshi , Hubertus Franke , Kostis Kaffes

arXiv 2026

Conversational Customization of Productivity Systems: A Design Probe of Malleable AI Interfaces

Karthik Sreedhar , Aryan Kaul , Lydia Chilton

arXiv 2026

ScarfBench: A Benchmark for Cross-Framework Application Migration in Enterprise Java

Advait Pavuluri , Bridget McGinn , Ashita Saxena , George Safta , Srikanth Tamilselvam , Raju Pavuluri , Michele Merler , Baishakhi Ray , Rahul Krishna

arXiv 2026

Panprediction: optimal predictions for any downstream task and loss

Sivaraman Balakrishnan , Nika Haghtalab , Daniel Hsu , Brian Lee , Eric Zhao

AISTATS 2026

Prior makes it possible: from sublinear graph algorithms to LLM test-time methods

Avrim Blum , Daniel Hsu , Cyrus Rashtchian , Donya Saless

AISTATS 2026

Your Compiler is Backdooring Your Model: Understanding and Exploiting Compilation Inconsistency Vulnerabilities in Deep Learning Compilers

Simin Chen , Jinjun Peng , Yixin He , Junfeng Yang , Baishakhi Ray

IEEE S&P 2026

Estimating Tail Risks in Language Model Output Distributions

Rico Angell , Raghav Singhal , Zachary Horvitz , Zhou Yu , Rajesh Ranganath , Kathleen McKeown , He He

ICML 2026

BranchBench: Aligning Database Branching with Agentic Demands

Elaine Ang , Sam Weldon , In Keun Kim , Kevin Durand , Kostis Kaffes , Eugene Wu

arXiv 2026

MIND: Empowering Mental Health Clinicians with Multimodal Data Insights through a Narrative Dashboard

Ruishi Zou , Shiyu Xu , Margaret E Morris , Jihan Ryu , Timothy D. Becker , Nicholas Allen , Anne Marie Albano , Randy Auerbach , Dan Adler , Varun Mishra , Lace Padilla , Dakuo Wang , Ryan Sultan , Xuhai Orson Xu

CHI 2026

More than Decision Support: Exploring Patients' Longitudinal Usage of Large Language Models in Real-World Healthcare-Seeking Journeys

Yancheng Cao , Yishu Ji , Chris Yue Fu , Sahiti Dharmavaram , Meghan Turchioe , Natalie C Benda , Lena Mamykina , Yuling Sun , Xuhai Orson Xu

CHI 2026

VineLM: Trie-Based Fine-Grained Control for Agentic Workflows

Nikos Pagonas , Matthew Lou , Tianyi Peng , Dan Rubenstein , Kostis Kaffes

arXiv 2026

SYN-DIGITS: A Synthetic Control Framework for Calibrated Digital Twin Simulation

Grace Jiarui Fan , Chengpiao Huang , Tianyi Peng , Kaizheng Wang , Yuhang Wu

arXiv 2026

AgentOpt v0.1 Technical Report: Client-Side Optimization for LLM-Based Agents

Wenyue Hua , Sripad Karne , Qian Xie , Armaan Agrawal , Nikos Pagonas , Kostis Kaffes , Tianyi Peng

arXiv 2026

Quantifying Trust: Financial Risk Management for Trustworthy AI Agents

Wenyue Hua , Tianyi Peng , Chi Wang , Jiaxin Pei , Ian Kaufman , Bryan Lim , Chandler Fang

arXiv 2026

Agentic Data Environments

Elaine Ang , Chenxi Huang , Georgios Liargkovas , Jerry Liu , Jinhui Liu , Nikos Pagonas , Charlie Summers , Haonan Wang , Jiakai Xu , Tianle Zhou , Yusen Zhang , Zhou Yu , Zhuo Zhang , Tianyi Peng , Kostis Kaffes , Eugene Wu

IEEE Data Bulletin 2026

Coherence Collapse: Diagnosing Why Code Agents Fail After Reaching the Right Code

Myeongsoo Kim , Dingmin Wang , Siwei Cui , Farima Farmahinifarahani , Terry Yue Zhuo , Shweta Garg , Baishakhi Ray , Rajdeep Mukherjee , Varun Kumar

arXiv 2026

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Jean-Daniel Fekete , Yifan Hu , Dominik Moritz , Arnab Nandi , Senjuti Basu Roy , Eugene Wu , Nikos Bikakis , George Papastefanatos , Panos K. Chrysanthis , Guoliang Li , Lingyun Yu

SIGMOD Record 2026

Group-realizable multi-group learning by minimizing empirical risk

Navid Ardeshir , Samuel Deng , Daniel Hsu , Jingwen Liu

ALT 2026

Trustworthy AI Software Engineers

Aldeida Aleti , Baishakhi Ray , Rashina Hoda , Simin Chen

arXiv 2026

Please Don't Kill My Vibe: Empowering Agents with Data Flow Control

Charlie Summers , Haneen Mohammed , Eugene Wu

CIDR 2026 Slides

LLM Generated Persona is a Promise with a Catch

Ang Li , Haozhe Chen , Hongseok Namkoong , Tianyi Peng

NeurIPS 2025 Position Paper

Agents for Web Testing: A Case Study in the Wild

Naimeng Ye , Xiao Yu , Ruize Xu , Tianyi Peng , Zhou Yu

LAw Workshop at NeurIPS 2025

Data Mixture Optimization: A Multi-Fidelity Multi-Scale Bayesian Framework

Tzu-Ching Yen , Andrew Wei Tung Siah , Haozhe Chen , C. Daniel Guetta , Tianyi Peng , Hongseok Namkoong

NeurIPS 2025

Tail-Optimized Caching for LLM Inference

Wenxin Zhang , Yueying Li , Ciamac C. Moallemi , Tianyi Peng

NeurIPS 2025

Multi-Agent Markov Entanglement

Shuze Chen , Tianyi Peng

NeurIPS 2025 (Spotlight)

Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper

Xinyue Zhu* , Binghao Huang* , Yunzhu Li

NeurIPS 2025

Q-learning with Posterior Sampling

Priyank Agrawal , Shipra Agrawal , Azmat Azati

NeurIPS 2025

RAISE: Reliable Agent Improvement via Simulated Experience

Sahar Omidi Shayegan , Joshua Meyer , Victor Shih , Sebastian Sosa , Tianyi Peng , Kostis Kaffes , Eugene Wu , Andi Partovi , Mehdi Jamei

NeurIPS 2025 (SEA Workshop)

LLM Agents for Always-On Operating System Tuning

Georgios Liargkovas , Vahab Jabrayilov , Hubertus Franke , Kostis Kaffes

NeurIPS 2025

Fast attention mechanisms: a tale of parallelism

Jingwen Liu , Hantao Yu , Clayton Sanford , Alexandr Andoni , Daniel Hsu

NeurIPS 2025

A Decade of Systems for Human Data Interaction

Eugene Wu , Yiru Chen , Haneen Mohammed , Zezhou Huang

ArXiV 2025

SAGE: A Top-Down Bottom-Up Knowledge-Grounded User Simulator for Multi-turn AGent Evaluation

Ryan Shea , Yunan Lu , Liang Qiu , Zhou Yu

EACL 2026

Set It and Forget It: Zero-Mod ML Magic for Linux Tuning

Georgios Liargkovas , Prabhpreet Singh Sodhi , Kostis Kaffes

PACMI Workshop at SOSP 2025

Cortex: Workflow-Aware Resource Pooling and Scheduling for Agentic Serving

Nikos Pagonas , Yeounoh Chung , Kostis Kaffes , Arvind Krishnamurthy

SAA Workshop at SOSP 2025

Toward Systems Foundations for Agentic Exploration

Jiakai Xu , Tianle Zhou , Eugene Wu , Kostis Kaffes

SAA Workshop at SOSP 2025

Do Spammers Dream of Electric Sheep? Characterizing the Prevalence of LLM-Generated Malicious Emails

Wei Hao , Van Tran , Vincent Rideout , Zixi Wang , AnMei Dasbach-Prisk , M. H. Afifi , Junfeng Yang , Ethan Katz-Bassett , Grant Ho , Asaf Cidon

IMC 2025

PickleBall: Secure Deserialization of Pickle-based Machine Learning Models

Andreas Kellas , Neophytos Christou , Wenxin Jiang , Penghui Li , Laurent Simon , Yaniv David , Vasileios P. Kemerlis , James C. Davis , Junfeng Yang

CCS 2025

The Anatomy of a Personal Health Agent

A. Ali Heydari , Ken Gu , Vidya Srinivas , Hong Yu , Zhihan Zhang , Yuwei Zhang , Akshay Paruchuri , Qian He , Hamid Palangi , Nova Hammerquist , Ahmed A. Metwally , Brent Winslow , Yubin Kim , Kumar Ayush , Yuzhe Yang , Girish Narayanswamy , Maxwell A. Xu , Jake Garrison , Amy Armento Lee , Jenny Vafeiadou , Ben Graef , Isaac R. Galatzer-Levy , Erik Schenck , Andrew Barakat , Javier Perez , Jacqueline Shreibati , John Hernandez , Anthony Z. Faranesh , Javier L. Prieto , Connor Heneghan , Yun Liu , Jiening Zhan , Mark Malhotra , Shwetak Patel , Tim Althoff , Xin Liu , Daniel McDuff , Xuhai Orson Xu

arXiv 2025

Suna: Scalable Causal Confounder Discovery over Relational Data

Jiaxiang Liu , Siyuan Xia , Daniel Alabi , Eugene Wu

VLDB 2025

EditLord: Learning Code Transformation Rules for Code Editing

Weichen Li , Albert Jan , Baishakhi Ray , Chengzhi Mao , Junfeng Yang , Kexin Pei

ICML 2025

Learning to Rewrite: Generalized LLM-Generated Text Detection

Ran Li , Wei Hao , Weiliang Zhao , Junfeng Yang , Chengzhi Mao

ACL 2025

Performance of LLMs on Stochastic Modeling Operations Research Problems: From Theory to Practice.

Akshit Kumar , Tianyi Peng , Yuhang Wu , Assaf Zeevi

Winter Simulation Conference 2025

Prompt Editor: A Taxonomy-driven System for Guided LLM Prompt Development in Enterprise Settings

Jeffery Cao , Lampros Flokas , Yujian Xu , Eugene Wu , Xu Chu , Cong Yu

SIGMOD Demo 2025

Towards a Framework for Optimizing Hierarchical Text Segmentation using LLMs

Lampros Flokas , Jeffrey Cao , Yujian Xu , Eugene Wu , Xu Chu , Cong Yu

DEEM Workshop at SIGMOD 2025

Position Paper: A System-Centric Approach is Necessary for AI Agents

Nikos Pagonas , Haonan Wang , Jiaxiang Liu , Tianle Zhou , Deepak Dastrala , Raman Jatkar , Anirudh Sivaraman , Zhou Yu , Kostis Kaffes , Eugene Wu

arXiv 2025

Twin-2K-500: A dataset for building digital twins of over 2,000 people based on their answers to over 500 questions

Olivier Toubia , George Z. Gui , Tianyi Peng , Daniel J. Merlau , Ang Li , and Haozhe Chen

Marketing Science

Diversity Helps Jailbreak Large Language Models

Weiliang Zhao , Daneil Ben-Levi , Wei Hao , Junfeng Yang , Chengzhi Mao

NAACL 2025

CrashFixer: A Crash Resolution Agent for the Linux Kernel

Alex Mathai , Chenxi Huang , Suwei Ma , Jihwan Kim , Hailie Mitchell , Aleksandr Nogikh , Petros Maniatis , Franjo Ivančić , Junfeng Yang , Baishakhi Ray

Arxiv 2025

FeedQUAC: Quick Unobtrusive Agent-Generated Commentary

Tao Long , Kendra Wannamaker , Jo Vermeulen , George Fitzmaurice , Justin Matejka

arXiv 2025

Steering Semantic Data Processing With DocWrangler

Shreya Shankar , Bhavya Chopra , Mawil Hasan , Stephen Lee , Bjoern Hartmann , Joseph Hellerstein , Aditya Parameswaran , Eugene Wu

UIST 2025

Throughput-Optimal Scheduling Algorithms for LLM Inference and AI Agents

Yueying Li , Jim Dai , Tianyi Peng

Arxiv 2025

AgentDynEx: Nudging the Mechanics and Dynamics of Multi-Agent Simulations

Jenny Ma , Riya Sahni , Karthik Sreedhar , Lydia Chilton

Under Submission

DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing

Shreya Shankar , Tristan Chambers , Tarak Shah , Aditya G. Parameswaran , Eugene Wu

VLDB 2025

Program Synthesis Dialog Agents for Interactive Decision-Making

Matthew Toles , Nikhil Balwani , Rattandeep Singh , Valentina Giulia Sartori Rodriguez , Zhou Yu

arXiv 2025

How Well do LLMs Compress their Own Chain-of-Thought? A Token Complexity Approach

Ayeong Lee , Ethan Che , Tianyi Peng

ICML, Efficient Systems for Foundation Models Workshop 2025

ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning

Xiao Yu , Baolin Peng , Vineeth Vajipey , Hao Cheng , Michel Galley , Jianfeng Gao , Zhou Yu

ICLR 2025

AnimationAgents: A Multi-Modal Team of Agents for Generating, Debugging, and Human Editing of Animation Code

Vivian Liu , Rubaiat Habib Kazi , Li-Yi Wei , Matthew Fisher , Timothy Langlois , Seth Walker , Lydia Chilton

CHI 2025

ACE: A LLM Agent-based Negotiation Coaching System

Ryan Shea , Aymen Kallala , Xin Lucy Liu , Michael W. Morris , Zhou Yu

EMNLP 2024

Fast Userspace Networking for the Rest of Us

Alireza Sanaee , Vahab Jabrayilov , Ilias Marinos , Anuj Kalia , Divyanshu Saxena , Prateesh Goyal , Kostis Kaffes , Gianni Antichi

arXiv 2025

DynEx: Agentic Assistance to Bridge Design and Code

Jenny Ma , Karthik Sreedhar , Vivian Liu , Pedro Alejandro Perez , Sitong Wang , Riya Sahni , Lydia Chilton

CHI 2025

DietGlance: dietary monitoring and personalized analysis at a glance with knowledge-empowered AI assistant

Zhihan Jiang , Running Zhao , Lin Lin , Yue Yu , Handi Chen , Xinchen Zhang , Xuhai Orson Xu , Yifang Wang , Xiaojuan Ma , Edith CH Ngai

ACM HEALTH

Data Cleaning Using Large Language Models

Shuo Zhang , Zezhou Huang , Eugene Wu

DAIS Workshop at ICDE 2025

Alexpaca: Learning Factual Clarification Question Generation Without Examples

Matthew Toles , Yukun Huang , Zhou Yu , Luis Gravano

GEM^2 Workshop at ACL 2025

KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution

Alex Mathai , Chenxi Huang , Petros Maniatis , Aleksandr Nogikh , Franjo Ivančić , Junfeng Yang , Baishakhi Ray

NeurIPS 2024

Simulating Cooperative Prosocial Behavior with Multi-Agent LLMs

Karthik Sreedhar , Alice Cai , Jenny Ma , Jeffrey V. Nickerson , Lydia Chilton

IUI 2025

Law-Abiding Agents: Demonstrating Safe Tax Preparation with Data Flow Control

Charlie Summers , Prajwal Raghunath , Zhibin Shen , Hardik Gupta , Eric Choi , Mayur Kulkarni , Sally Go , Peter Yu , Akriti Agarwal , Zhuo Zhang , Oliver Kennedy , Eugene Wu

Preprint 2026

All Publications