Hardware Acc

HG-PIPE: Vision Transformer Acceleration with Hybrid-Grained Pipeline

Qingyu Guo, Jiayong Wan, Songqiang Xu, 李萌, Yuan Wang

MCUBERT: Memory-Efficient BERT Inference on Commodity Microcontrollers

Zebin Yang, Renze Chen, Taiqiang Wu, Ngai Wong, Yun (Eric) Liang, Runsheng Wang, Ru Huang, 李萌

OSCA: End-to-end Serial Stochastic Computing Neural Acceleration with Fine-grained Scaling and Piecewise Activation

Yixuan Hu, Yikang Jia, 李萌, Yuan Wang, Runsheng Wang, Ru Huang

PrivQuant: Communication-Efficient Private Inference with Quantized Network/Protocol Co-Optimization

Tianshi Xu, Shuzhang Zhong, Wenxuan Zeng, Runsheng Wang, 李萌

ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel Decoding

Shuzhang Zhong, Zebin Yang, Ruihao Gong, Runsheng Wang, Ru Huang, 李萌

CASCADE: A Framework for CNN Accelerator Synthesis with Concatenation and Refreshing Dataflow

Qingyu Guo, Haoyang Luo, 李萌, Xiyuan Tang, Yuan Wang

FastQuery: Communication-efficient Embedding Table Query for Private LLMs inference

Chenqi Lin, Tianshi Xu, Zebin Yang, 李萌, Runsheng Wang, Ru Huang

ASCEND: Accurate yet Efficient End-to-End Stochastic Computing Acceleration of Vision Transformer

Tong Xie, Yixuan Hu, Renjie Wei, 李萌, Runsheng Wang, Yuan Wang, Ru Huang

A 16.38TOPS and 4.55POPS/W SRAM Computing-in-Memory Macro for Signed Operands Computation and Batch Normalization Implementation

Xin Qiao, Qingyu Guo, Xiyuan Tang, Jiahao Song, Renjie Wei, 李萌, Runsheng Wang, Yuan Wang

MixCIM: A Hybrid-Cell-Based Computing-in-Memory Macro with Less-Data-Movement and Activation-Memory-Reuse for Depthwise Separable Neural Networks

Xin Qiao, Jiahao Song, Youming Yang, Renjie Wei, Xiyuan Tang, 李萌, Runsheng Wang, Yuan Wang