1

MatMoE: Matryoshka Mixture-of-Experts with Dynamic Mixed-Precision Quantization for Efficient Inference

Renjie Wei, Haochen Huang, Chuyu Qiu, Jinqi Wen, Dehao Xu, Meng Li

Helios: Melting Kernel Boundaries for GPU-Accelerated HE via Graph Rewriting and Microarchitecture-Aware Mapping

Yi Chen, Ziyu Tang, Chao Yang, Guang Fan, Mingzhe Zhang, Meng Li

OptiPrime: Optimizing Private Inference through protocol-hardware codesign

Jiangrui Yu, Ye Yu, Si Chen, Chenqi Lin, Wenxuan Zeng, Junfeng Fan, Mingyu Gao, Meng Li

Aging Aware Adaptive Voltage Scaling for Reliable and Efficient AI Accelerators

Tong Xie, Zuodong Zhang, Chao Yang, Yuan Wang, Runsheng Wang, Meng Li

NICE: 3D-NAND-based In-Memory-Computing with In-Situ ECC-Protection for Fault-Tolerant and Efficient LLM Inference

Boyi Fu, Weikai Xu, Tong Xie, Jin Luo, Yaoyu Tao, Meng Li

RePart: Efficient Hypergraph Partitioning with Logic Replication Optimization for Multi-FPGA System

Zizhuo Fu, Yifan Zhou, Zhaoxin Lu, Guangyu Sun, Runsheng Wang, Meng Li, Yibo Lin

Attention Sink Forges Native MoE in Attention Layers: Sink-Aware Training to Address Head Collapse

Zizhuo Fu, Wenxuan Zeng, Runsheng Wang, Meng Li

HyPER: Bridging Exploration and Exploitation for Scalable LLM Reasoning with Hypothesis Path Expansion and Reduction

Shengxuan Qiu, Haochen Huang, Shuzhang Zhong, Pengfei Zuo, Meng Li

TEAM: Temporal–Spatial Consistency Guided Expert Activation for MoE Diffusion Language Model Acceleration

Linye Wei, Zixiang Luo, Pingzhi Tang, Meng Li

Breaking the Reward Barrier: Accelerating Tree-of-Thought Reasoning via Speculative Exploration

Shuzhang Zhong, Haochen Huang, Shengxuan Qiu, Pengfei Zuo, Runsheng Wang, Meng Li