Archive
2026-02
- 图解 Infra 视角下的强化学习性能优化 2/12/2026
- 在 PyTorch 中正确使用 non_blocking 和 pin_memory() 2/7/2026
- 高效强化学习训练 - 优化 verl 中的内存使用 2/5/2026
- NCCL Debug 全栈手段:常用环境变量、日志/拓扑/通信诊断与 Hang/性能/数据异常排查 2/5/2026
- nccl-tests:NCCL 排障与性能定位的“复现机”与标尺 2/5/2026
- 高效强化学习训练 - 优化 slime 中的权重同步 2/5/2026
2026-01
- RoPE 究竟是怎么计算的 1/30/2026
- AWQ:面向端侧 LLM 压缩与加速的激活感知权重量化(Activation-aware Weight Quantization) 1/29/2026
- Long Context 推理优化技术梳理 1/27/2026
- Context Parallel 技术解析 1/27/2026
- FlashAttention 原理与实现 1/27/2026
- CUDA 012 - 编译链接流程 1/27/2026
- 【部分观点记录】翁家翌:OpenAI,GPT,强化学习,Infra,后训练,天授,tuixue,开源,CMU,清华 | WhynotTVPodcast 1/18/2026
- RDMA 在大模型推理框架中的应用 1/13/2026
- MTP 理论加速比分析:从公式到工程决策 1/6/2026
- DeepGEMM 学习指南:面向初学者的 FP8 GEMM 库解析 1/6/2026
- 一种 TP-SP-EP 混合并行策略 1/4/2026
2025-12
- Inside NVIDIA GPUs: Anatomy of high performance matmul kernels 12/29/2025
- Inside vLLM: Anatomy of a High-Throughput LLM Inference System 12/29/2025
- 通过零开销逐层权重卸载技术将 SGLang Diffusion wan2.2 的推理速度加速 60% 12/28/2025
- CUDA Graph 学习笔记 12/27/2025
- Code is not only an implementation, but also a presentation of a way of thinking 12/26/2025
- Understanding Conway’s Law(康威定律) 12/25/2025