momoka 发表于 2025-2-7 19:24

这不是我们想知道的德国骨科啊,AI不可能不知道的,它是在故意插科打诨么

YsHaNg 发表于 2025-2-7 19:58

我輩樹である 发表于 2025-2-7 11:19
但它是docker,我喜欢。

我喜欢open webui生态 能换掉ollama就好了

Jugg 发表于 2025-2-7 20:11

M2MAX
total duration: 36.834713s
load duration: 27.641916ms
prompt eval count: 404 token(s)
prompt eval duration: 3.894s
prompt eval rate: 103.75 tokens/s
eval count: 438 token(s)
eval duration: 32.708s
eval rate: 13.39 tokens/s

naobaijin 发表于 2025-2-7 20:26

关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运行的时候利用率上不去,功耗温度上不去,不知道为什么

lh4357 发表于 2025-2-7 20:30

naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...

32BQ4需要24G吧。。

Hsz 发表于 2025-2-7 20:41

pdvc 发表于 2025-2-7 12:08
题目太简单,测不出来,我给你出一道:

7900XTX
total duration:       2m15.7828113s
load duration:      22.5937ms
prompt eval count:    56 token(s)
prompt eval duration: 93ms
prompt eval rate:   602.15 tokens/s
eval count:         3580 token(s)
eval duration:      2m15.662s
eval rate:            26.39 tokens/s

pdvc 发表于 2025-2-8 10:45

Technik 发表于 2025-2-7 13:18
4090D
total duration:       37.2562216s
load duration:      20.0582ms


输出token有点少,重新测测看,一般2000token左右的输出。

Technik 发表于 2025-2-8 13:17

pdvc 发表于 2025-2-8 10:45
输出token有点少,重新测测看,一般2000token左右的输出。

跑了几遍终于有超过2k的。

guoqingkong 发表于 2025-2-8 13:33

本帖最后由 guoqingkong 于 2025-2-8 13:35 编辑

M4MAX 128G

r1 32b 4bit
total duration:       56.539353667s
load duration:      569.800875ms
prompt eval count:    764 token(s)
prompt eval duration: 4.512s
prompt eval rate:   169.33 tokens/s
eval count:         918 token(s)
eval duration:      51.283s
eval rate:            17.90 tokens/s


R1 70b 4bit
total duration:       1m16.8164695s
load duration:      32.170875ms
prompt eval count:    12 token(s)
prompt eval duration: 7.326s
prompt eval rate:   1.64 tokens/s
eval count:         658 token(s)
eval duration:      1m9.457s
eval rate:            9.47 tokens/s

Technik 发表于 2025-2-8 13:37

lh4357 发表于 2025-2-7 12:13
total duration:       1m23.9839825s
load duration:      13.0599ms
prompt eval count:    56 token ...

你跑的时候cuda占用率多少?4090D是94%,36t/s。

lh4357 发表于 2025-2-8 13:41

本帖最后由 lh4357 于 2025-2-8 13:44 编辑

Technik 发表于 2025-2-8 13:37
你跑的时候cuda占用率多少?4090D是94%,36t/s。



反正跑32b是永远吃不满。

he8898 发表于 2025-2-10 07:39

m1 mx 64g macbookpro,32b deepseek r1 ,每秒15-20tokens,整机功耗70-90w

ben19910518 发表于 2025-2-10 09:30

lh4357 发表于 2025-2-7 12:13
total duration:       1m23.9839825s
load duration:      13.0599ms
prompt eval count:    56 token ...

相同问题
4090
total duration:       1m19.9946994s
load duration:      10.8066ms
prompt eval count:    1977 token(s)
prompt eval duration: 903ms
prompt eval rate:   2189.37 tokens/s
eval count:         2033 token(s)
eval duration:      1m18.913s
eval rate:            25.76 tokens/s

brucelee1126 发表于 2025-2-10 09:38

不懂就问,下载到本地的大模型需要训练吗,在线接入的大模型都是提供商训练好的吗,找了个deepseek r1 70b免费接入的,感觉就是个智障

godspeed66 发表于 2025-2-10 09:49

本帖最后由 godspeed66 于 2025-2-10 09:52 编辑

pdvc 发表于 2025-2-7 12:08
题目太简单,测不出来,我给你出一道:

m4 max

70b q4km

ollama run deepseek-r1:70b-ctx32k --verbose
>>> 如果用标准滤波器来模拟声笼和声障现象 给我一组数据,表示遮挡面积从0%到100%的声音Low pass和High pass对应的频率,每10%遮挡面积给出一个频率值。
<think>
好的,我现在需要帮助用户解决他们的问题:用标准滤波器模拟声笼和声障现象,给出一组从0%到100%遮挡面积对应的低通和高通频率,每10%一个点。

首先,我得理解问题。声笼和声障是指阻碍声音传播的结构,通过遮挡物体来吸收或反射声波。标准滤波器常用来处理声音信号,这里用户想将遮挡面积与滤波器的截止频率关联起来。

接下来,我需要考虑声学中的传播损耗和衍射效应。低频声波通常更容易绕过障碍物,而高频声波则更易被遮挡或吸收。因此,随着遮挡面积增加,可能低通滤波器的截止频率会上升(允许更多低频通过),而高通滤波器的截止频率下降(阻隔高频)。

然后,我得设定一个合理的范围。假设可听音频大约在20Hz到20000Hz之间,取中间值1000Hz作为基准点。遮挡面积为0%时,低通和高通滤波器可能分别设置在较低和较高的位置,比如低通500Hz,高通2000Hz。当遮挡增加到50%,低通可能上升至1000Hz,而高通下降到
1500Hz。到了100%遮挡时,低通可能达到2000Hz,高通降至500Hz。

每10%遮挡面积对应一个频率值,这样需要生成11个数据点。我可以选择线性变化,但考虑实际情况,遮挡的增加在开始阶段影响较大,后面趋于平稳。因此,在低遮挡时变化快,比如0%到50%,然后放缓。

具体计算的话,每10%遮挡面积对应的低通和高通频率分别增加和减少一定值。例如,从0%到100%,低通从500Hz上升至2000Hz,跨度为1500Hz,每步增加约136Hz;而高通从2000Hz降到500Hz,同样每10%下降约136Hz。

这样,我就能生成一个表格,从0%到100%,每隔10%给出对应的低通和高通频率值。同时,在解释中说明这是理想化模型,实际情况可能更复杂,还需考虑声学材料特性等因素。
</think>

以下是一组假设数据,表示遮挡面积从0%到100%时的声音Low pass(低通)和High pass(高通)对应的频率值。这些数据是基于标准滤波器的理想化模型,并不完全符合实际声学环境,但可以作为一个初步参考。

| 遮挡面积 (%) | 低通滤波器截止频率 (Hz) | 高通滤波器截止频率 (Hz) |
|---------------|-------------------------|-------------------------|
| 0             | 500                     | 2000                  |
| 10            | 600                     | 1900                  |
| 20            | 700                     | 1800                  |
| 30            | 800                     | 1700                  |
| 40            | 900                     | 1600                  |
| 50            | 1000                  | 1500                  |
| 60            | 1100                  | 1400                  |
| 70            | 1200                  | 1300                  |
| 80            | 1300                  | 1200                  |
| 90            | 1400                  | 1100                  |
| 100         | 1500                  | 1000                  |

### 解释:
1. **低通滤波器截止频率**:随着遮挡面积的增加,低通滤波器的截止频率逐渐提高。这是因为更高的遮挡面积会阻碍部分低频声音通过,导致需要较高的截止频率来允许更多的声音信号通过。
   
2. **高通滤波器截止频率**:随着遮挡面积的增加,高通滤波器的截止频率逐渐降低。这是因为更高的遮挡面积会阻碍部分高频声音通过,导致需要较低的截止频率来允许更多的声音信号通过。

3. **频率范围**:假设声学系统的可听音频范围大致在20 Hz到20000 Hz之间,这里选择了一个中间值(1000 Hz)作为基准点,并根据遮挡面积的变化对截止频率进行调整。

4. **线性变化**:这些数据是基于线性变化假设的,实际声学环境中可能会出现非线性效应,但这可以作为一个简单的近似模型。

请注意,这只是一个简化的示例数据集。实际应用中,声音的传播和阻挡现象会受到多种因素影响,如材料的吸收特性、声波的衍射效应以及环境的复杂度等。如果需要更精确的模型,建议结合具体声学实验或仿真工具进行分析。

total duration:       2m30.488800833s
load duration:      30.070166ms
prompt eval count:    66 token(s)
prompt eval duration: 16.869s
prompt eval rate:   3.91 tokens/s
eval count:         1221 token(s)
eval duration:      2m13.588s
eval rate:            9.14 tokens/s

pdvc 发表于 2025-2-10 09:54

godspeed66 发表于 2025-2-10 09:49
m4 max

70b q4km


10-20t速度基本是可读速度了

wesleyxy 发表于 2025-2-10 11:55

guoqingkong 发表于 2025-2-8 13:33
M4MAX 128G

r1 32b 4bit


m4max果然强。。。
丐版m4pro才12t/s:

kanshuderen 发表于 2025-2-10 12:09

本帖最后由 kanshuderen 于 2025-2-10 12:17 编辑

M1MAX 64G内存 跑 70B

total duration:       8m43.437042667s
load duration:      41.004875ms
prompt eval count:    65 token(s)
prompt eval duration: 13.201s
prompt eval rate:   4.92 tokens/s
eval count:         3044 token(s)
eval duration:      8m30.192s
eval rate:            5.97 tokens/s

zhgna 发表于 2025-2-10 12:28

Hoshigami 发表于 2025-2-7 16:56
7900xtx
total duration:       49.4484531s
load duration:      37.3087ms


同7900xtx,问同问题,表现还可以,居然输5090不多[怪脸] 。

掌定乾坤 发表于 2025-2-11 11:54

问下2个5090原版能跑deepseek70B么?速度会怎样?

lh4357 发表于 2025-2-11 11:59

掌定乾坤 发表于 2025-2-11 11:54
问下2个5090原版能跑deepseek70B么?速度会怎样?

你要是只为了跑这个,来俩2080ti 22G就行。

wjm47196 发表于 2025-2-11 12:04

manwomans 发表于 2025-2-7 13:21
这么看,4090 4090d 5090d完全拉不开差距

跟7900xtx也拉不开差距。。。

wjm47196 发表于 2025-2-11 12:04

naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...

32bq4要24g,你这个已经爆显存了

8xwob3ko 发表于 2025-2-11 12:38

firebase 发表于 2025-2-7 17:01
7b相比于14b会有速度或者智力的区别吗,只下了个7b的,问硬件问题都说错了,而且问两次结果差距很大 ...

目前llm的原理决定了模型规模越大能力越强,自己本地部署的相比云端都是玩具

hjmfun 发表于 2025-2-11 13:33

4090,给了个比较难的问题

total duration:       1m43.4704055s
load duration:      26.2912ms
prompt eval count:    886 token(s)
prompt eval duration: 493ms
prompt eval rate:   1797.16 tokens/s
eval count:         4165 token(s)
eval duration:      1m42.949s
eval rate:            40.46 tokens/s

bennq 发表于 2025-2-11 14:48

我4080,16gb显存,也用 32b Q4,爆显存后,优化cpu显存,能有10tokens/s,速度个人用已经满意了,就是智商还不满意

bennq 发表于 2025-2-11 14:52

naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...

4k上下文应该能上10t/s,8k上下文9.5t/s左右,32k上下文就8t/s

23srruymfw 发表于 2025-2-11 15:23

naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...

我是Ollama自动部署的32B,没有更改设置。 4070tis,显存占用15.6G,内存占用11G-16G.等于是爆显存了。运行速度大约是6token每秒。7900x CPU占用40%,GPU浮动上上下下,大约三成不到的功率。

秦南瓜 发表于 2025-2-13 13:43

chip_discovery 发表于 2025-2-7 11:45
跑32B的话,2080ti 22g大概20tokens ,对比下来5090D会稍微快一点,但是说实话有个20基本上不影响使用了 ...

2080ti*2我测下来7~8

zcyandrew 发表于 2025-2-16 04:31

ollama run deepseek-r1:32b --verbose (19G模型,滤波器那道问题)

5090:



结合之前的4090/4090D的成绩和5090D差不多,难道真的阉割了?

是不是限制了功耗?我可以跑到480w
页: 1 [2] 3
查看完整版本: 5090D用ollama跑deepseek r1 32b的效果。