找回密码
 加入我们
搜索
      
楼主: lh4357

[显卡] 5090D用ollama跑deepseek r1 32b的效果。

[复制链接]
发表于 2025-2-7 19:24 | 显示全部楼层
这不是我们想知道的德国骨科啊,AI不可能不知道的,它是在故意插科打诨么
发表于 2025-2-7 19:58 来自手机 | 显示全部楼层
我輩樹である 发表于 2025-2-7 11:19
但它是docker,我喜欢。

我喜欢open webui生态 能换掉ollama就好了
发表于 2025-2-7 20:11 | 显示全部楼层
M2MAX
total duration: 36.834713s
load duration: 27.641916ms
prompt eval count: 404 token(s)
prompt eval duration: 3.894s
prompt eval rate: 103.75 tokens/s
eval count: 438 token(s)
eval duration: 32.708s
eval rate: 13.39 tokens/s
发表于 2025-2-7 20:26 | 显示全部楼层
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运行的时候利用率上不去,功耗温度上不去,不知道为什么
 楼主| 发表于 2025-2-7 20:30 | 显示全部楼层
naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...

32BQ4需要24G吧。。
发表于 2025-2-7 20:41 | 显示全部楼层
pdvc 发表于 2025-2-7 12:08
题目太简单,测不出来,我给你出一道:

7900XTX
total duration:       2m15.7828113s
load duration:        22.5937ms
prompt eval count:    56 token(s)
prompt eval duration: 93ms
prompt eval rate:     602.15 tokens/s
eval count:           3580 token(s)
eval duration:        2m15.662s
eval rate:            26.39 tokens/s
发表于 2025-2-8 10:45 来自手机 | 显示全部楼层
Technik 发表于 2025-2-7 13:18
4090D
total duration:       37.2562216s
load duration:        20.0582ms

输出token有点少,重新测测看,一般2000token左右的输出。
发表于 2025-2-8 13:17 | 显示全部楼层
pdvc 发表于 2025-2-8 10:45
输出token有点少,重新测测看,一般2000token左右的输出。

跑了几遍终于有超过2k的。

微信截图_20250208131634.png
发表于 2025-2-8 13:33 | 显示全部楼层
本帖最后由 guoqingkong 于 2025-2-8 13:35 编辑

M4MAX 128G

r1 32b 4bit
total duration:       56.539353667s
load duration:        569.800875ms
prompt eval count:    764 token(s)
prompt eval duration: 4.512s
prompt eval rate:     169.33 tokens/s
eval count:           918 token(s)
eval duration:        51.283s
eval rate:            17.90 tokens/s


R1 70b 4bit
total duration:       1m16.8164695s
load duration:        32.170875ms
prompt eval count:    12 token(s)
prompt eval duration: 7.326s
prompt eval rate:     1.64 tokens/s
eval count:           658 token(s)
eval duration:        1m9.457s
eval rate:            9.47 tokens/s
发表于 2025-2-8 13:37 | 显示全部楼层
lh4357 发表于 2025-2-7 12:13
total duration:       1m23.9839825s
load duration:        13.0599ms
prompt eval count:    56 token ...

你跑的时候cuda占用率多少?4090D是94%,36t/s。
 楼主| 发表于 2025-2-8 13:41 | 显示全部楼层
本帖最后由 lh4357 于 2025-2-8 13:44 编辑
Technik 发表于 2025-2-8 13:37
你跑的时候cuda占用率多少?4090D是94%,36t/s。


1.png

反正跑32b是永远吃不满。
发表于 2025-2-10 07:39 来自手机 | 显示全部楼层
m1 mx 64g macbookpro,32b deepseek r1 ,每秒15-20tokens,整机功耗70-90w
发表于 2025-2-10 09:30 | 显示全部楼层
lh4357 发表于 2025-2-7 12:13
total duration:       1m23.9839825s
load duration:        13.0599ms
prompt eval count:    56 token ...

相同问题
4090
total duration:       1m19.9946994s
load duration:        10.8066ms
prompt eval count:    1977 token(s)
prompt eval duration: 903ms
prompt eval rate:     2189.37 tokens/s
eval count:           2033 token(s)
eval duration:        1m18.913s
eval rate:            25.76 tokens/s
发表于 2025-2-10 09:38 | 显示全部楼层
不懂就问,下载到本地的大模型需要训练吗,在线接入的大模型都是提供商训练好的吗,找了个deepseek r1 70b免费接入的,感觉就是个智障
发表于 2025-2-10 09:49 | 显示全部楼层
本帖最后由 godspeed66 于 2025-2-10 09:52 编辑
pdvc 发表于 2025-2-7 12:08
题目太简单,测不出来,我给你出一道:


m4 max

70b q4km

ollama run deepseek-r1:70b-ctx32k --verbose
>>> 如果用标准滤波器来模拟声笼和声障现象 给我一组数据,表示遮挡面积从0%到100%的声音Low pass和High pass对应的频率,每10%遮挡面积给出一个频率值。
<think>
好的,我现在需要帮助用户解决他们的问题:用标准滤波器模拟声笼和声障现象,给出一组从0%到100%遮挡面积对应的低通和高通频率,每10%一个点。

首先,我得理解问题。声笼和声障是指阻碍声音传播的结构,通过遮挡物体来吸收或反射声波。标准滤波器常用来处理声音信号,这里用户想将遮挡面积与滤波器的截止频率关联起来。

接下来,我需要考虑声学中的传播损耗和衍射效应。低频声波通常更容易绕过障碍物,而高频声波则更易被遮挡或吸收。因此,随着遮挡面积增加,可能低通滤波器的截止频率会上升(允许更多低频通过),而高通滤波器的截止频率下降(阻隔高频)。

然后,我得设定一个合理的范围。假设可听音频大约在20Hz到20000Hz之间,取中间值1000Hz作为基准点。遮挡面积为0%时,低通和高通滤波器可能分别设置在较低和较高的位置,比如低通500Hz,高通2000Hz。当遮挡增加到50%,低通可能上升至1000Hz,而高通下降到
1500Hz。到了100%遮挡时,低通可能达到2000Hz,高通降至500Hz。

每10%遮挡面积对应一个频率值,这样需要生成11个数据点。我可以选择线性变化,但考虑实际情况,遮挡的增加在开始阶段影响较大,后面趋于平稳。因此,在低遮挡时变化快,比如0%到50%,然后放缓。

具体计算的话,每10%遮挡面积对应的低通和高通频率分别增加和减少一定值。例如,从0%到100%,低通从500Hz上升至2000Hz,跨度为1500Hz,每步增加约136Hz;而高通从2000Hz降到500Hz,同样每10%下降约136Hz。

这样,我就能生成一个表格,从0%到100%,每隔10%给出对应的低通和高通频率值。同时,在解释中说明这是理想化模型,实际情况可能更复杂,还需考虑声学材料特性等因素。
</think>

以下是一组假设数据,表示遮挡面积从0%到100%时的声音Low pass(低通)和High pass(高通)对应的频率值。这些数据是基于标准滤波器的理想化模型,并不完全符合实际声学环境,但可以作为一个初步参考。

| 遮挡面积 (%) | 低通滤波器截止频率 (Hz) | 高通滤波器截止频率 (Hz) |
|---------------|-------------------------|-------------------------|
| 0             | 500                     | 2000                    |
| 10            | 600                     | 1900                    |
| 20            | 700                     | 1800                    |
| 30            | 800                     | 1700                    |
| 40            | 900                     | 1600                    |
| 50            | 1000                    | 1500                    |
| 60            | 1100                    | 1400                    |
| 70            | 1200                    | 1300                    |
| 80            | 1300                    | 1200                    |
| 90            | 1400                    | 1100                    |
| 100           | 1500                    | 1000                    |

### 解释:
1. **低通滤波器截止频率**:随着遮挡面积的增加,低通滤波器的截止频率逐渐提高。这是因为更高的遮挡面积会阻碍部分低频声音通过,导致需要较高的截止频率来允许更多的声音信号通过。
   
2. **高通滤波器截止频率**:随着遮挡面积的增加,高通滤波器的截止频率逐渐降低。这是因为更高的遮挡面积会阻碍部分高频声音通过,导致需要较低的截止频率来允许更多的声音信号通过。

3. **频率范围**:假设声学系统的可听音频范围大致在20 Hz到20000 Hz之间,这里选择了一个中间值(1000 Hz)作为基准点,并根据遮挡面积的变化对截止频率进行调整。

4. **线性变化**:这些数据是基于线性变化假设的,实际声学环境中可能会出现非线性效应,但这可以作为一个简单的近似模型。

请注意,这只是一个简化的示例数据集。实际应用中,声音的传播和阻挡现象会受到多种因素影响,如材料的吸收特性、声波的衍射效应以及环境的复杂度等。如果需要更精确的模型,建议结合具体声学实验或仿真工具进行分析。

total duration:       2m30.488800833s
load duration:        30.070166ms
prompt eval count:    66 token(s)
prompt eval duration: 16.869s
prompt eval rate:     3.91 tokens/s
eval count:           1221 token(s)
eval duration:        2m13.588s
eval rate:            9.14 tokens/s
发表于 2025-2-10 09:54 来自手机 | 显示全部楼层
godspeed66 发表于 2025-2-10 09:49
m4 max

70b q4km

10-20t速度基本是可读速度了
发表于 2025-2-10 11:55 | 显示全部楼层

m4max果然强。。。
丐版m4pro才12t/s:

IMG2676.jpg
发表于 2025-2-10 12:09 | 显示全部楼层
本帖最后由 kanshuderen 于 2025-2-10 12:17 编辑

M1MAX 64G内存 跑 70B

total duration:       8m43.437042667s
load duration:        41.004875ms
prompt eval count:    65 token(s)
prompt eval duration: 13.201s
prompt eval rate:     4.92 tokens/s
eval count:           3044 token(s)
eval duration:        8m30.192s
eval rate:            5.97 tokens/s
发表于 2025-2-10 12:28 | 显示全部楼层
Hoshigami 发表于 2025-2-7 16:56
7900xtx
total duration:       49.4484531s
load duration:        37.3087ms

同7900xtx,问同问题,表现还可以,居然输5090不多

122450.jpg
发表于 2025-2-11 11:54 | 显示全部楼层
问下2个5090原版能跑deepseek70B么?速度会怎样?
 楼主| 发表于 2025-2-11 11:59 | 显示全部楼层
掌定乾坤 发表于 2025-2-11 11:54
问下2个5090原版能跑deepseek70B么?速度会怎样?

你要是只为了跑这个,来俩2080ti 22G就行。

发表于 2025-2-11 12:04 来自手机 | 显示全部楼层
manwomans 发表于 2025-2-7 13:21
这么看,4090 4090d 5090d完全拉不开差距

跟7900xtx也拉不开差距。。。
发表于 2025-2-11 12:04 来自手机 | 显示全部楼层
naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...

32bq4要24g,你这个已经爆显存了
发表于 2025-2-11 12:38 来自手机 | 显示全部楼层
firebase 发表于 2025-2-7 17:01
7b相比于14b会有速度或者智力的区别吗,只下了个7b的,问硬件问题都说错了,而且问两次结果差距很大 ...

目前llm的原理决定了模型规模越大能力越强,自己本地部署的相比云端都是玩具
发表于 2025-2-11 13:33 | 显示全部楼层
4090,给了个比较难的问题

total duration:       1m43.4704055s
load duration:        26.2912ms
prompt eval count:    886 token(s)
prompt eval duration: 493ms
prompt eval rate:     1797.16 tokens/s
eval count:           4165 token(s)
eval duration:        1m42.949s
eval rate:            40.46 tokens/s
发表于 2025-2-11 14:48 | 显示全部楼层
我4080,16gb显存,也用 32b Q4,爆显存后,优化cpu显存,能有10tokens/s,速度个人用已经满意了,就是智商还不满意
发表于 2025-2-11 14:52 | 显示全部楼层
naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...

4k上下文应该能上10t/s,8k上下文9.5t/s左右,32k上下文就8t/s
发表于 2025-2-11 15:23 | 显示全部楼层
naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...

我是Ollama自动部署的32B,没有更改设置。 4070tis,显存占用15.6G,内存占用11G-16G.等于是爆显存了。运行速度大约是6token每秒。7900x CPU占用40%,GPU浮动上上下下,大约三成不到的功率。
发表于 2025-2-13 13:43 | 显示全部楼层
chip_discovery 发表于 2025-2-7 11:45
跑32B的话,2080ti 22g  大概20tokens ,对比下来5090D会稍微快一点,但是说实话有个20基本上不影响使用了 ...


2080ti*2我测下来7~8
发表于 2025-2-16 04:31 | 显示全部楼层
ollama run deepseek-r1:32b --verbose (19G模型,滤波器那道问题)

5090:

1739651363250.png

结合之前的4090/4090D的成绩和5090D差不多,难道真的阉割了?

是不是限制了功耗?我可以跑到480w
您需要登录后才可以回帖 登录 | 加入我们

本版积分规则

Archiver|手机版|小黑屋|Chiphell ( 沪ICP备12027953号-5 )沪公网备310112100042806 上海市互联网违法与不良信息举报中心

GMT+8, 2025-4-26 23:07 , Processed in 0.015721 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5 Licensed

© 2007-2024 Chiphell.com All rights reserved.

快速回复 返回顶部 返回列表