Hardware Acc

Compact Non-Volatile Lookup Table Architecture based on Ferroelectric FET Array through In-Situ Combinatorial One-Hot Encoding for Reconfigurable Computing

Weikai Xu, Meng Li, Qianqian Huang, Ru Huang

LightMamba: Efficient Mamba Acceleration on FPGA with Quantization and Hardware Co-design

Renjie Wei, Songqiang Xu, Linfeng Zhong, Zebin Yang, Qingyu Guo, Yuan Wang, Runsheng Wang, Meng Li

SCALES: Boost Binary Neural Network for Image Super-Resolution with Efficient Scalings

Renjie Wei, Zechun Liu, Yuchen Fan, Runsheng Wang, Ru Huang, Meng Li

AdapMoE: Adaptive Sensitivity-based Expert Gating and Management for Efficient MoE Inference

Shuzhang Zhong, Ling Liang, Yuan Wang, Runsheng Wang, Ru Huang, Meng Li

HG-PIPE: Vision Transformer Acceleration with Hybrid-Grained Pipeline

Qingyu Guo, Jiayong Wan, Songqiang Xu, Meng Li, Yuan Wang

MCUBERT: Memory-Efficient BERT Inference on Commodity Microcontrollers

Zebin Yang, Renze Chen, Taiqiang Wu, Ngai Wong, Yun (Eric) Liang, Runsheng Wang, Ru Huang, Meng Li

OSCA: End-to-end Serial Stochastic Computing Neural Acceleration with Fine-grained Scaling and Piecewise Activation

Yixuan Hu, Yikang Jia, Meng Li, Yuan Wang, Runsheng Wang, Ru Huang

ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel Decoding

Shuzhang Zhong, Zebin Yang, Ruihao Gong, Runsheng Wang, Ru Huang, Meng Li

FastQuery: Communication-efficient Embedding Table Query for Private LLMs inference

Chenqi Lin, Tianshi Xu, Zebin Yang, Meng Li, Runsheng Wang, Ru Huang

ASCEND: Accurate yet Efficient End-to-End Stochastic Computing Acceleration of Vision Transformer

Tong Xie, Yixuan Hu, Renjie Wei, Meng Li, Runsheng Wang, Yuan Wang, Ru Huang