5090D用ollama跑deepseek r1 32b的效果。

momoka · 发表于 2025-2-7 19:24

这不是我们想知道的德国骨科啊，AI不可能不知道的，它是在故意插科打诨么

YsHaNg · 发表于 2025-2-7 19:58

我輩樹である发表于 2025-2-7 11:19
但它是docker，我喜欢。

我喜欢open webui生态能换掉ollama就好了

Jugg · 发表于 2025-2-7 20:11

M2MAX
total duration: 36.834713s
load duration: 27.641916ms
prompt eval count: 404 token(s)
prompt eval duration: 3.894s
prompt eval rate: 103.75 tokens/s
eval count: 438 token(s)
eval duration: 32.708s
eval rate: 13.39 tokens/s

naobaijin · 发表于 2025-2-7 20:26

关键得同模型同量化才有对比意义吧。我4070tis， 32BQ4，产不忍赌，没有用到共享显存。显存占用14G左右。运行的时候利用率上不去，功耗温度上不去，不知道为什么

lh4357 · 发表于 2025-2-7 20:30

naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis， 32BQ4，产不忍赌，没有用到共享显存。显存占用14G左右。运 ...

32BQ4需要24G吧。。

Hsz · 发表于 2025-2-7 20:41

pdvc 发表于 2025-2-7 12:08
题目太简单，测不出来，我给你出一道：

7900XTX
total duration:    2m15.7828113s
load duration:       22.5937ms
prompt eval count: 56 token(s)
prompt eval duration: 93ms
prompt eval rate:    602.15 tokens/s
eval count:          3580 token(s)
eval duration:       2m15.662s
eval rate:          26.39 tokens/s

pdvc · 发表于 2025-2-8 10:45

Technik 发表于 2025-2-7 13:18
4090D
total duration: 37.2562216s
load duration: 20.0582ms

输出token有点少，重新测测看，一般2000token左右的输出。

Technik · 发表于 2025-2-8 13:17

pdvc 发表于 2025-2-8 10:45
输出token有点少，重新测测看，一般2000token左右的输出。

跑了几遍终于有超过2k的。

微信截图_20250208131634.png

guoqingkong · 发表于 2025-2-8 13:33

本帖最后由 guoqingkong 于 2025-2-8 13:35 编辑

M4MAX 128G

r1 32b 4bit
total duration:    56.539353667s
load duration:       569.800875ms
prompt eval count: 764 token(s)
prompt eval duration: 4.512s
prompt eval rate:    169.33 tokens/s
eval count:          918 token(s)
eval duration:       51.283s
eval rate:          17.90 tokens/s

R1 70b 4bit
total duration:    1m16.8164695s
load duration:       32.170875ms
prompt eval count: 12 token(s)
prompt eval duration: 7.326s
prompt eval rate:    1.64 tokens/s
eval count:          658 token(s)
eval duration:       1m9.457s
eval rate:          9.47 tokens/s

Technik · 发表于 2025-2-8 13:37

lh4357 发表于 2025-2-7 12:13
total duration: 1m23.9839825s
load duration: 13.0599ms
prompt eval count: 56 token ...

你跑的时候cuda占用率多少？4090D是94%，36t/s。

lh4357 · 发表于 2025-2-8 13:41

本帖最后由 lh4357 于 2025-2-8 13:44 编辑

Technik 发表于 2025-2-8 13:37
你跑的时候cuda占用率多少？4090D是94%，36t/s。

反正跑32b是永远吃不满。

he8898 · 发表于 2025-2-10 07:39

m1 mx 64g macbookpro，32b deepseek r1 ，每秒15-20tokens，整机功耗70-90w

ben19910518 · 发表于 2025-2-10 09:30

lh4357 发表于 2025-2-7 12:13
total duration: 1m23.9839825s
load duration: 13.0599ms
prompt eval count: 56 token ...

相同问题
4090
total duration:    1m19.9946994s
load duration:       10.8066ms
prompt eval count: 1977 token(s)
prompt eval duration: 903ms
prompt eval rate:    2189.37 tokens/s
eval count:          2033 token(s)
eval duration:       1m18.913s
eval rate:          25.76 tokens/s

brucelee1126 · 发表于 2025-2-10 09:38

不懂就问，下载到本地的大模型需要训练吗，在线接入的大模型都是提供商训练好的吗，找了个deepseek r1 70b免费接入的，感觉就是个智障

godspeed66 · 发表于 2025-2-10 09:49

本帖最后由 godspeed66 于 2025-2-10 09:52 编辑

pdvc 发表于 2025-2-7 12:08
题目太简单，测不出来，我给你出一道：

m4 max

70b q4km

ollama run deepseek-r1:70b-ctx32k --verbose
>>> 如果用标准滤波器来模拟声笼和声障现象给我一组数据，表示遮挡面积从0%到100%的声音Low pass和High pass对应的频率，每10%遮挡面积给出一个频率值。
<think>
好的，我现在需要帮助用户解决他们的问题：用标准滤波器模拟声笼和声障现象，给出一组从0%到100%遮挡面积对应的低通和高通频率，每10%一个点。

首先，我得理解问题。声笼和声障是指阻碍声音传播的结构，通过遮挡物体来吸收或反射声波。标准滤波器常用来处理声音信号，这里用户想将遮挡面积与滤波器的截止频率关联起来。

接下来，我需要考虑声学中的传播损耗和衍射效应。低频声波通常更容易绕过障碍物，而高频声波则更易被遮挡或吸收。因此，随着遮挡面积增加，可能低通滤波器的截止频率会上升（允许更多低频通过），而高通滤波器的截止频率下降（阻隔高频）。

然后，我得设定一个合理的范围。假设可听音频大约在20Hz到20000Hz之间，取中间值1000Hz作为基准点。遮挡面积为0%时，低通和高通滤波器可能分别设置在较低和较高的位置，比如低通500Hz，高通2000Hz。当遮挡增加到50%，低通可能上升至1000Hz，而高通下降到
1500Hz。到了100%遮挡时，低通可能达到2000Hz，高通降至500Hz。

每10%遮挡面积对应一个频率值，这样需要生成11个数据点。我可以选择线性变化，但考虑实际情况，遮挡的增加在开始阶段影响较大，后面趋于平稳。因此，在低遮挡时变化快，比如0%到50%，然后放缓。

具体计算的话，每10%遮挡面积对应的低通和高通频率分别增加和减少一定值。例如，从0%到100%，低通从500Hz上升至2000Hz，跨度为1500Hz，每步增加约136Hz；而高通从2000Hz降到500Hz，同样每10%下降约136Hz。

这样，我就能生成一个表格，从0%到100%，每隔10%给出对应的低通和高通频率值。同时，在解释中说明这是理想化模型，实际情况可能更复杂，还需考虑声学材料特性等因素。
</think>

以下是一组假设数据，表示遮挡面积从0%到100%时的声音Low pass（低通）和High pass（高通）对应的频率值。这些数据是基于标准滤波器的理想化模型，并不完全符合实际声学环境，但可以作为一个初步参考。

| 遮挡面积 (%) | 低通滤波器截止频率 (Hz) | 高通滤波器截止频率 (Hz) |
|---------------|-------------------------|-------------------------|
| 0          | 500                   | 2000                   |
| 10          | 600                   | 1900                   |
| 20          | 700                   | 1800                   |
| 30          | 800                   | 1700                   |
| 40          | 900                   | 1600                   |
| 50          | 1000                   | 1500                   |
| 60          | 1100                   | 1400                   |
| 70          | 1200                   | 1300                   |
| 80          | 1300                   | 1200                   |
| 90          | 1400                   | 1100                   |
| 100          | 1500                   | 1000                   |

### 解释：
1. **低通滤波器截止频率**：随着遮挡面积的增加，低通滤波器的截止频率逐渐提高。这是因为更高的遮挡面积会阻碍部分低频声音通过，导致需要较高的截止频率来允许更多的声音信号通过。

2. **高通滤波器截止频率**：随着遮挡面积的增加，高通滤波器的截止频率逐渐降低。这是因为更高的遮挡面积会阻碍部分高频声音通过，导致需要较低的截止频率来允许更多的声音信号通过。

3. **频率范围**：假设声学系统的可听音频范围大致在20 Hz到20000 Hz之间，这里选择了一个中间值（1000 Hz）作为基准点，并根据遮挡面积的变化对截止频率进行调整。

4. **线性变化**：这些数据是基于线性变化假设的，实际声学环境中可能会出现非线性效应，但这可以作为一个简单的近似模型。

请注意，这只是一个简化的示例数据集。实际应用中，声音的传播和阻挡现象会受到多种因素影响，如材料的吸收特性、声波的衍射效应以及环境的复杂度等。如果需要更精确的模型，建议结合具体声学实验或仿真工具进行分析。

total duration:    2m30.488800833s
load duration:       30.070166ms
prompt eval count: 66 token(s)
prompt eval duration: 16.869s
prompt eval rate:    3.91 tokens/s
eval count:          1221 token(s)
eval duration:       2m13.588s
eval rate:          9.14 tokens/s

pdvc · 发表于 2025-2-10 09:54

godspeed66 发表于 2025-2-10 09:49
m4 max

70b q4km

10-20t速度基本是可读速度了

wesleyxy · 发表于 2025-2-10 11:55

guoqingkong 发表于 2025-2-8 13:33
M4MAX 128G

r1 32b 4bit

m4max果然强。。。
丐版m4pro才12t/s：

kanshuderen · 发表于 2025-2-10 12:09

本帖最后由 kanshuderen 于 2025-2-10 12:17 编辑

M1MAX 64G内存跑 70B

total duration:    8m43.437042667s
load duration:       41.004875ms
prompt eval count: 65 token(s)
prompt eval duration: 13.201s
prompt eval rate:    4.92 tokens/s
eval count:          3044 token(s)
eval duration:       8m30.192s
eval rate:          5.97 tokens/s

zhgna · 发表于 2025-2-10 12:28

Hoshigami 发表于 2025-2-7 16:56
7900xtx
total duration: 49.4484531s
load duration: 37.3087ms

同7900xtx，问同问题，表现还可以，居然输5090不多

。

掌定乾坤 · 发表于 2025-2-11 11:54

问下2个5090原版能跑deepseek70B么？速度会怎样？

lh4357 · 发表于 2025-2-11 11:59

掌定乾坤发表于 2025-2-11 11:54
问下2个5090原版能跑deepseek70B么？速度会怎样？

你要是只为了跑这个，来俩2080ti 22G就行。

wjm47196 · 发表于 2025-2-11 12:04

manwomans 发表于 2025-2-7 13:21
这么看，4090 4090d 5090d完全拉不开差距

跟7900xtx也拉不开差距。。。

wjm47196 · 发表于 2025-2-11 12:04

naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis， 32BQ4，产不忍赌，没有用到共享显存。显存占用14G左右。运 ...

32bq4要24g，你这个已经爆显存了

8xwob3ko · 发表于 2025-2-11 12:38

firebase 发表于 2025-2-7 17:01
7b相比于14b会有速度或者智力的区别吗，只下了个7b的，问硬件问题都说错了，而且问两次结果差距很大 ...

目前llm的原理决定了模型规模越大能力越强，自己本地部署的相比云端都是玩具

hjmfun · 发表于 2025-2-11 13:33

4090,给了个比较难的问题

total duration:    1m43.4704055s
load duration:       26.2912ms
prompt eval count: 886 token(s)
prompt eval duration: 493ms
prompt eval rate:    1797.16 tokens/s
eval count:          4165 token(s)
eval duration:       1m42.949s
eval rate:          40.46 tokens/s

bennq · 发表于 2025-2-11 14:48

我4080,16gb显存,也用 32b Q4,爆显存后,优化cpu显存,能有10tokens/s,速度个人用已经满意了,就是智商还不满意

bennq · 发表于 2025-2-11 14:52

naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis， 32BQ4，产不忍赌，没有用到共享显存。显存占用14G左右。运 ...

4k上下文应该能上10t/s,8k上下文9.5t/s左右,32k上下文就8t/s

23srruymfw · 发表于 2025-2-11 15:23

naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis， 32BQ4，产不忍赌，没有用到共享显存。显存占用14G左右。运 ...

我是Ollama自动部署的32B，没有更改设置。 4070tis，显存占用15.6G，内存占用11G-16G.等于是爆显存了。运行速度大约是6token每秒。7900x CPU占用40%，GPU浮动上上下下，大约三成不到的功率。

秦南瓜 · 发表于 2025-2-13 13:43

chip_discovery 发表于 2025-2-7 11:45
跑32B的话，2080ti 22g 大概20tokens ，对比下来5090D会稍微快一点，但是说实话有个20基本上不影响使用了 ...

2080ti*2我测下来7~8

zcyandrew · 发表于 2025-2-16 04:31

ollama run deepseek-r1:32b --verbose (19G模型，滤波器那道问题)

5090：

结合之前的4090/4090D的成绩和5090D差不多，难道真的阉割了？

是不是限制了功耗？我可以跑到480w

账号		自动登录	找回密码
密码			加入我们

[显卡] 5090D用ollama跑deepseek r1 32b的效果。

浏览过的版块