
PANews 4月23日消息,GitHub页面显示,DeepSeek 开源高性能 GPU 算子库 TileKernels,该项目基于 TileLang 开发。该库针对大语言模型(LLM)的训练与推理进行了深度优化,其算子性能已接近硬件计算强度与内存带宽的极限。
TileKernels 涵盖了 MoE 路由、FP8/FP4 量化及多种融合算子,并已在 DeepSeek 内部环境投入使用。该库目前适配 NVIDIA SM90 及最新的 SM100(Blackwell)架构,运行环境要求 CUDA 13.1 及以上版本。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。