momoka
发表于 2025-2-7 19:24
这不是我们想知道的德国骨科啊,AI不可能不知道的,它是在故意插科打诨么
YsHaNg
发表于 2025-2-7 19:58
我輩樹である 发表于 2025-2-7 11:19
但它是docker,我喜欢。
我喜欢open webui生态 能换掉ollama就好了
Jugg
发表于 2025-2-7 20:11
M2MAX
total duration: 36.834713s
load duration: 27.641916ms
prompt eval count: 404 token(s)
prompt eval duration: 3.894s
prompt eval rate: 103.75 tokens/s
eval count: 438 token(s)
eval duration: 32.708s
eval rate: 13.39 tokens/s
naobaijin
发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运行的时候利用率上不去,功耗温度上不去,不知道为什么
lh4357
发表于 2025-2-7 20:30
naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...
32BQ4需要24G吧。。
Hsz
发表于 2025-2-7 20:41
pdvc 发表于 2025-2-7 12:08
题目太简单,测不出来,我给你出一道:
7900XTX
total duration: 2m15.7828113s
load duration: 22.5937ms
prompt eval count: 56 token(s)
prompt eval duration: 93ms
prompt eval rate: 602.15 tokens/s
eval count: 3580 token(s)
eval duration: 2m15.662s
eval rate: 26.39 tokens/s
pdvc
发表于 2025-2-8 10:45
Technik 发表于 2025-2-7 13:18
4090D
total duration: 37.2562216s
load duration: 20.0582ms
输出token有点少,重新测测看,一般2000token左右的输出。
Technik
发表于 2025-2-8 13:17
pdvc 发表于 2025-2-8 10:45
输出token有点少,重新测测看,一般2000token左右的输出。
跑了几遍终于有超过2k的。
guoqingkong
发表于 2025-2-8 13:33
本帖最后由 guoqingkong 于 2025-2-8 13:35 编辑
M4MAX 128G
r1 32b 4bit
total duration: 56.539353667s
load duration: 569.800875ms
prompt eval count: 764 token(s)
prompt eval duration: 4.512s
prompt eval rate: 169.33 tokens/s
eval count: 918 token(s)
eval duration: 51.283s
eval rate: 17.90 tokens/s
R1 70b 4bit
total duration: 1m16.8164695s
load duration: 32.170875ms
prompt eval count: 12 token(s)
prompt eval duration: 7.326s
prompt eval rate: 1.64 tokens/s
eval count: 658 token(s)
eval duration: 1m9.457s
eval rate: 9.47 tokens/s
Technik
发表于 2025-2-8 13:37
lh4357 发表于 2025-2-7 12:13
total duration: 1m23.9839825s
load duration: 13.0599ms
prompt eval count: 56 token ...
你跑的时候cuda占用率多少?4090D是94%,36t/s。
lh4357
发表于 2025-2-8 13:41
本帖最后由 lh4357 于 2025-2-8 13:44 编辑
Technik 发表于 2025-2-8 13:37
你跑的时候cuda占用率多少?4090D是94%,36t/s。
反正跑32b是永远吃不满。
he8898
发表于 2025-2-10 07:39
m1 mx 64g macbookpro,32b deepseek r1 ,每秒15-20tokens,整机功耗70-90w
ben19910518
发表于 2025-2-10 09:30
lh4357 发表于 2025-2-7 12:13
total duration: 1m23.9839825s
load duration: 13.0599ms
prompt eval count: 56 token ...
相同问题
4090
total duration: 1m19.9946994s
load duration: 10.8066ms
prompt eval count: 1977 token(s)
prompt eval duration: 903ms
prompt eval rate: 2189.37 tokens/s
eval count: 2033 token(s)
eval duration: 1m18.913s
eval rate: 25.76 tokens/s
brucelee1126
发表于 2025-2-10 09:38
不懂就问,下载到本地的大模型需要训练吗,在线接入的大模型都是提供商训练好的吗,找了个deepseek r1 70b免费接入的,感觉就是个智障
godspeed66
发表于 2025-2-10 09:49
本帖最后由 godspeed66 于 2025-2-10 09:52 编辑
pdvc 发表于 2025-2-7 12:08
题目太简单,测不出来,我给你出一道:
m4 max
70b q4km
ollama run deepseek-r1:70b-ctx32k --verbose
>>> 如果用标准滤波器来模拟声笼和声障现象 给我一组数据,表示遮挡面积从0%到100%的声音Low pass和High pass对应的频率,每10%遮挡面积给出一个频率值。
<think>
好的,我现在需要帮助用户解决他们的问题:用标准滤波器模拟声笼和声障现象,给出一组从0%到100%遮挡面积对应的低通和高通频率,每10%一个点。
首先,我得理解问题。声笼和声障是指阻碍声音传播的结构,通过遮挡物体来吸收或反射声波。标准滤波器常用来处理声音信号,这里用户想将遮挡面积与滤波器的截止频率关联起来。
接下来,我需要考虑声学中的传播损耗和衍射效应。低频声波通常更容易绕过障碍物,而高频声波则更易被遮挡或吸收。因此,随着遮挡面积增加,可能低通滤波器的截止频率会上升(允许更多低频通过),而高通滤波器的截止频率下降(阻隔高频)。
然后,我得设定一个合理的范围。假设可听音频大约在20Hz到20000Hz之间,取中间值1000Hz作为基准点。遮挡面积为0%时,低通和高通滤波器可能分别设置在较低和较高的位置,比如低通500Hz,高通2000Hz。当遮挡增加到50%,低通可能上升至1000Hz,而高通下降到
1500Hz。到了100%遮挡时,低通可能达到2000Hz,高通降至500Hz。
每10%遮挡面积对应一个频率值,这样需要生成11个数据点。我可以选择线性变化,但考虑实际情况,遮挡的增加在开始阶段影响较大,后面趋于平稳。因此,在低遮挡时变化快,比如0%到50%,然后放缓。
具体计算的话,每10%遮挡面积对应的低通和高通频率分别增加和减少一定值。例如,从0%到100%,低通从500Hz上升至2000Hz,跨度为1500Hz,每步增加约136Hz;而高通从2000Hz降到500Hz,同样每10%下降约136Hz。
这样,我就能生成一个表格,从0%到100%,每隔10%给出对应的低通和高通频率值。同时,在解释中说明这是理想化模型,实际情况可能更复杂,还需考虑声学材料特性等因素。
</think>
以下是一组假设数据,表示遮挡面积从0%到100%时的声音Low pass(低通)和High pass(高通)对应的频率值。这些数据是基于标准滤波器的理想化模型,并不完全符合实际声学环境,但可以作为一个初步参考。
| 遮挡面积 (%) | 低通滤波器截止频率 (Hz) | 高通滤波器截止频率 (Hz) |
|---------------|-------------------------|-------------------------|
| 0 | 500 | 2000 |
| 10 | 600 | 1900 |
| 20 | 700 | 1800 |
| 30 | 800 | 1700 |
| 40 | 900 | 1600 |
| 50 | 1000 | 1500 |
| 60 | 1100 | 1400 |
| 70 | 1200 | 1300 |
| 80 | 1300 | 1200 |
| 90 | 1400 | 1100 |
| 100 | 1500 | 1000 |
### 解释:
1. **低通滤波器截止频率**:随着遮挡面积的增加,低通滤波器的截止频率逐渐提高。这是因为更高的遮挡面积会阻碍部分低频声音通过,导致需要较高的截止频率来允许更多的声音信号通过。
2. **高通滤波器截止频率**:随着遮挡面积的增加,高通滤波器的截止频率逐渐降低。这是因为更高的遮挡面积会阻碍部分高频声音通过,导致需要较低的截止频率来允许更多的声音信号通过。
3. **频率范围**:假设声学系统的可听音频范围大致在20 Hz到20000 Hz之间,这里选择了一个中间值(1000 Hz)作为基准点,并根据遮挡面积的变化对截止频率进行调整。
4. **线性变化**:这些数据是基于线性变化假设的,实际声学环境中可能会出现非线性效应,但这可以作为一个简单的近似模型。
请注意,这只是一个简化的示例数据集。实际应用中,声音的传播和阻挡现象会受到多种因素影响,如材料的吸收特性、声波的衍射效应以及环境的复杂度等。如果需要更精确的模型,建议结合具体声学实验或仿真工具进行分析。
total duration: 2m30.488800833s
load duration: 30.070166ms
prompt eval count: 66 token(s)
prompt eval duration: 16.869s
prompt eval rate: 3.91 tokens/s
eval count: 1221 token(s)
eval duration: 2m13.588s
eval rate: 9.14 tokens/s
pdvc
发表于 2025-2-10 09:54
godspeed66 发表于 2025-2-10 09:49
m4 max
70b q4km
10-20t速度基本是可读速度了
wesleyxy
发表于 2025-2-10 11:55
guoqingkong 发表于 2025-2-8 13:33
M4MAX 128G
r1 32b 4bit
m4max果然强。。。
丐版m4pro才12t/s:
kanshuderen
发表于 2025-2-10 12:09
本帖最后由 kanshuderen 于 2025-2-10 12:17 编辑
M1MAX 64G内存 跑 70B
total duration: 8m43.437042667s
load duration: 41.004875ms
prompt eval count: 65 token(s)
prompt eval duration: 13.201s
prompt eval rate: 4.92 tokens/s
eval count: 3044 token(s)
eval duration: 8m30.192s
eval rate: 5.97 tokens/s
zhgna
发表于 2025-2-10 12:28
Hoshigami 发表于 2025-2-7 16:56
7900xtx
total duration: 49.4484531s
load duration: 37.3087ms
同7900xtx,问同问题,表现还可以,居然输5090不多[怪脸] 。
掌定乾坤
发表于 2025-2-11 11:54
问下2个5090原版能跑deepseek70B么?速度会怎样?
lh4357
发表于 2025-2-11 11:59
掌定乾坤 发表于 2025-2-11 11:54
问下2个5090原版能跑deepseek70B么?速度会怎样?
你要是只为了跑这个,来俩2080ti 22G就行。
wjm47196
发表于 2025-2-11 12:04
manwomans 发表于 2025-2-7 13:21
这么看,4090 4090d 5090d完全拉不开差距
跟7900xtx也拉不开差距。。。
wjm47196
发表于 2025-2-11 12:04
naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...
32bq4要24g,你这个已经爆显存了
8xwob3ko
发表于 2025-2-11 12:38
firebase 发表于 2025-2-7 17:01
7b相比于14b会有速度或者智力的区别吗,只下了个7b的,问硬件问题都说错了,而且问两次结果差距很大 ...
目前llm的原理决定了模型规模越大能力越强,自己本地部署的相比云端都是玩具
hjmfun
发表于 2025-2-11 13:33
4090,给了个比较难的问题
total duration: 1m43.4704055s
load duration: 26.2912ms
prompt eval count: 886 token(s)
prompt eval duration: 493ms
prompt eval rate: 1797.16 tokens/s
eval count: 4165 token(s)
eval duration: 1m42.949s
eval rate: 40.46 tokens/s
bennq
发表于 2025-2-11 14:48
我4080,16gb显存,也用 32b Q4,爆显存后,优化cpu显存,能有10tokens/s,速度个人用已经满意了,就是智商还不满意
bennq
发表于 2025-2-11 14:52
naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...
4k上下文应该能上10t/s,8k上下文9.5t/s左右,32k上下文就8t/s
23srruymfw
发表于 2025-2-11 15:23
naobaijin 发表于 2025-2-7 20:26
关键得同模型同量化才有对比意义吧。我4070tis, 32BQ4,产不忍赌,没有用到共享显存。显存占用14G左右。运 ...
我是Ollama自动部署的32B,没有更改设置。 4070tis,显存占用15.6G,内存占用11G-16G.等于是爆显存了。运行速度大约是6token每秒。7900x CPU占用40%,GPU浮动上上下下,大约三成不到的功率。
秦南瓜
发表于 2025-2-13 13:43
chip_discovery 发表于 2025-2-7 11:45
跑32B的话,2080ti 22g大概20tokens ,对比下来5090D会稍微快一点,但是说实话有个20基本上不影响使用了 ...
2080ti*2我测下来7~8
zcyandrew
发表于 2025-2-16 04:31
ollama run deepseek-r1:32b --verbose (19G模型,滤波器那道问题)
5090:
结合之前的4090/4090D的成绩和5090D差不多,难道真的阉割了?
是不是限制了功耗?我可以跑到480w