满血版的deepseek-R1, 参数671B,理论上起码需要350G以上显存/内存才能够部署FP4的量化版本。对绝大多数家用电脑来说,这是不可能有实际意义的部署的,哪怕是最新的5090显卡32G显存,推理速度也不高,推理一次半天时间就没有了。
deepseek-R1-distill蒸馏版模型,这是大家可以真正用得上的版本;模型大小从1.5B到70B都有。
他们和满血版的区别是,满血版是基于deepseek-v3再训练的,而上述的蒸馏版,就是在另外的开源模型阿里的QWEN千问和META的LLAMA基础上再训练实现的。
一般情况下,ollama可以自适应显卡,Nvidia和AMD都可以。
在windows环境下,大家可以在ollama.com下载ollama软件,安装完成后,打开一个CMD窗口输入下列指令:
ollama run deepseek-r1
模型就会自动下载,默认下载的是7B大小的模型。如果需要32B,则需要输入:
ollama run deepseek-r1:32b
ollama部署的都是量化版本。因此对显存的要求大幅降低,一般来说,8G显存可以部署8B级别模型;24G显存可以刚好适配到32B的模型。
一般家庭用户7b版本足够使用了,然后不想在cmd窗口显示推理内容,需要配置chatbox使用。