listree 发表于 2025-1-30 15:29

lh4357 发表于 2025-1-30 15:30

本帖最后由 lh4357 于 2025-1-30 15:32 编辑

单路EPYC 9004或9005能插3T内存(256x12)。
双路再翻倍。

listree 发表于 2025-1-30 15:33

lh4357 发表于 2025-1-30 15:35

listree 发表于 2025-1-30 15:33
单根256G内存条,是DDR5么?

D4和D5都有单条256。

listree 发表于 2025-1-30 15:38

我輩樹である 发表于 2025-1-30 15:40

Leciel 发表于 2025-1-30 13:56
ELI5:
没内存多少事,如果强调极致效率。
决定作用的是显存,单块48/96Gb,再买上几万块,并联计算。


ptx我读研的时候不知道写了多少,cuda c核函数里面本来就可以写c代码也可以写ptx代码,只是没有使用cuda c的标准汇编实现,是超算里面的常规优化方式。

我輩樹である 发表于 2025-1-30 15:42

listree 发表于 2025-1-30 15:26
插满1536Gb内存了

deep seek官方每个机器是 1536Gb内存么

deepseek是把模型分散在多台计算机的显卡里面,然后通过nvlink/IB连接,不需要每台都把完整模型放到显存/内存里面。

Leciel 发表于 2025-1-30 16:07

我輩樹である 发表于 2025-1-30 15:40
ptx我读研的时候不知道写了多少,cuda c核函数里面本来就可以写c代码也可以写ptx代码,只是没有使用cuda...

<think>
嗯,让我来想想这个贴主的情况。他提到在读研时写过很多PTX代码,说明他在研究生阶段对CUDA编程有一定的研究和实践经验。
PTX是NVIDIA的并行线程执行语言,通常用于编写更底层、更高效的GPU代码。

他还说,在CUDA C核函数中可以直接写C代码或者PTX代码,但没有使用CUDA C的标准汇编实现,这可能意味着他对性能优化有深入的
需求,或者在特定项目中需要更高层次的控制。这种做法在超级计算领域很常见,因为超算任务通常对计算效率和资源利用率要求极
高。

贴主提到这是超算中的常规优化方式,说明他可能参与过高性能计算相关的项目或研究,积累了相关的知识和经验。这表明他在学术
或工业界可能有处理大规模并行计算问题的经验。

综合来看,这位贴主应该是一位在计算机科学领域有一定背景的人士,可能从事与高性能计算、GPU编程相关的工作或研究。他对
CUDA编程有深入理解,并且具备编写低级别PTX代码的能力,显示出较强的动手能力和对优化技术的掌握。
</think>

根据这段回复,可以分析出发帖的贴主具有以下特点:

1. **专业背景**:贴主很可能在计算机科学、电子工程或其他相关领域有一定的学术或实践经验。他提到自己读研期间编写过很多
PTX代码,这表明他在研究生阶段可能专注于高性能计算、并行编程或者图形处理器(GPU)优化等方面的研究。

2. **技术深度**:他对CUDA C和PTX的了解较为深入。PTX是NVIDIA的并行线程执行语言,用于编写低级别的GPU代码,而CUDA C则是
一种高级编程模型,允许在GPU上运行计算密集型任务。贴主提到可以直接在CUDA C核函数中使用C代码或PTX代码,说明他对两种不
同的编程层次都有所掌握,并且了解它们之间的区别和适用场景。

3. **优化经验**:他提到“没有使用cuda c的标准汇编实现”,而是直接编写PTX代码,这表明他在进行性能优化时会采取更底层的
方法。在超级计算领域中,这种做法是比较常见的,因为通过直接操作PTX可以更精确地控制GPU的执行流程和资源分配,从而获得更
好的性能提升。

4. **实践经历**:贴主提到“超算里面的常规优化方式”,说明他可能有参与过高性能计算项目或研究的经历。这可能包括参与超
级计算机集群的优化、科学模拟、数据分析等需要高度并行处理的任务。

5. **沟通风格**:从回复中可以看出,贴主在交流时较为直接和专业,能够准确地表达技术细节,并且具备一定的逻辑性和条理性
。他没有使用过多的技术术语来展示自己的知识,而是通过具体的经验分享来阐述观点。

总结来说,这位贴主是一位具有扎实编程基础、丰富实践经验的专业人士,可能在高性能计算或GPU优化领域有一定的研究和工作经
验。他的回复显示出他对技术的深入理解和对性能优化的实际应用能力。

<think>
嗯,用户问的是:“可以推断贴主是哪一年读研究生么?”根据之前的对话历史,我已经分析过这位贴主的情况,他提到在读研的时
候写了很多PTX代码,并且对CUDA C和GPU优化有深入的了解。现在的问题是想进一步推测他在哪一年读研究生。

首先,我需要明确PTX和CUDA的发展历程。PTX是NVIDIA在2006年左右引入的一种中间语言,用于编写并行程序。而CUDA则是在2007年
发布的。因此,如果贴主提到他在读研时使用了这些技术,那么他应该是在CUDA发布之后的几年里进行的研究生学习。

接着考虑时间跨度。一般来说,研究生阶段大约是三年左右。假设现在是2023年,如果贴主在最近几年完成研究生学业,比如2020到
2023年读研,那么他在那时肯定接触过最新的CUDA版本和PTX技术。然而,PTX已经在较新的CUDA版本中逐渐被废弃,转而推荐使用
LLVM编译器,所以如果他提到的是近年来的研究生经历,可能更符合这一背景。

另一方面,如果贴主是在2015-2018年左右读研,那时PTX和CUDA C都还在广泛使用中,特别是在高性能计算领域。因此,他可能在那
个时候积累了很多PTX代码的经验,并且熟悉当时的优化技术。

另外,考虑到PTX的使用情况,近年来NVIDIA逐渐转向LLVM编译器,PTX的重要性有所下降。如果贴主是在2018年之后读研,可能会更
多接触到新的工具和方法,但仍然有可能在特定项目中继续使用PTX进行底层优化。

综合来看,贴主很可能是在2015到2020年间完成研究生学业的。这个时间段正好是CUDA技术和GPU编程快速发展的时期,PTX作为重要
的低级别语言被广泛应用于高性能计算中,符合他提到的经验和知识背景。
</think>

根据这段回复的内容,无法直接推断出贴主读研究生的具体年份。不过可以通过以下信息进行一些合理的推测:

1. **技术背景**:贴主提到在读研时使用PTX(NVIDIA的并行线程执行语言)和CUDA C进行编程优化。PTX和CUDA技术自2007年以来
逐渐成熟,因此可以推测贴主的研究生阶段可能在CUDA技术较为普及之后,即2010年以后。

2. **经验积累**:贴主提到“不知道写了多少”PTX代码,说明他在研究生期间有较多的机会接触并使用这些技术。结合超算领域的
常规优化方式来看,贴主可能是在高性能计算(HPC)相关领域进行研究。

3. **时间推断**:考虑到PTX的使用逐渐减少(近年来更多转向LLVM编译器),而贴主提到直接编写PTX代码的经验,推测他可能是
2015-2020年间读研究生的。这一时间段正值超算和GPU编程技术的快速发展期。

综上所述,虽然无法确切知道贴主的研究生年份,但根据其提及的技术背景和技术实践,可以推测他在大约2015年至2020年之间完成
了研究生学业。

cameraman 发表于 2025-1-30 16:26

listree 发表于 2025-1-30 15:24
D4服务器什么意思,ddr4?

512需要8个插槽,1t需要16个插槽,选什么主板呢 ...

双路大都是16槽64g是便宜,300一条。128开始就贵了1000多一条
2011支持64g 1T。3647支持128g 2T以上

建议柠檬 发表于 2025-1-30 16:36

https://item.taobao.com/item.htm?abbucket=2&id=688110348993&ns=1&pisk=g_paGKw1sAHZDQKyRLX4U7fA5UXOatuSQK_fmnxcfNbG5njc3eYjXNtmWEJV-ndsXsgT0lpez-wsWfK03t6mP4MSFhIFHt0WhknR7PIPVrDfSZjhBi1tRDaIFhKOklzmVBD7uqsubKNcoEXhtgIRnGfcjymF0g7cnNf0-Wjl-tmG5IsH3i8kDrb659425FQcBNtfAHjXJZsfDG2I0LdX1IQXhyw21LTOXOTAnDScbPjcs-VhxgIcnS20n9XhDie0o5VG-DSA-ZXcnEXnIEKMmJ7Fsm2BvmB3GBfNrhbUUHpFjY_-ewe0npSwYZxGM-2DLG5MHngvNIC6i3CJCpD4pOtyt9jWXAyFEhjy5wToEJWHAHYfwB3YF6Le3_9G1o0AsFRHVIfEjAxFQN5PY_ruTORDWK59_onJxOYpwaCi92IeCL1Vy6znSHtFS_R252ec5Q-H8_9QR86vJIYc0e4N4y4AxkhwHCz0g1jdYaiEYLWS45Tn9ZQ8MSCheM7S20FYM1bhYaiHfSFA67jFPcX1.&priceTId=undefined&skuId=4902807664129&spm=a21n57.1.item.9.3a00453ddTkySt&utparam=%7B%22aplus_abtest%22%3A%221d30806eb6ab18e13fd3781ae726c904%22%7D&xxc=taobaoSearch

主板4000

不能说最便宜了吧,但是起码是很便宜了
16X128G内存就够了吧
https://item.taobao.com/item.htm?abbucket=2&id=624284999977&ns=1&pisk=gZg_GUGhhOX1PvpmxAAUF7EUHBUjoB8PCsNxZjQNMPUTHDGohRRDjPoQhvHQBNRMjoejIPEmb-yahrGmFBJyzUlisr2JUL8yn4W1hzbYM5BVJWFbl5L68HRtsr4vhqxWoLliehXAtKVY9BN4gGBtHlEpJ7eLMGUxHJELw7WTkxKTHnNodS3qmZevhSko_PzxI-njqSFTQrrVYwnrpqVDsIFAG0H5sm0gjxOngJQO6NEYJ6F7wZexHSEL9SNOk1IOXeBLwJeYkrHx9BNqQlf7GhNx1CGzeW8PFHGzdZQxRWp0TfONS73a1leS6V_F8SV_f8hTpLvCopqKiogciZwK60D0wAB9UlcxAvN_leSTyXixFW09zONnbXhzpb1Vufzs7jwtBnRZOqw_2VECGQh7RSHYcDv5z5aZAugsjIXK6Yys2PcVNdlQVDZu9kCfXPoraqq-WF6uLuVjQJkJywaLDgSlz8Ghki1QqZNQUBOCmiDw7nQcp0GfqlF31kRBO9s0XWVQwBOC0RZTtW7wOBszP&priceTId=2150433617382258779431945ee0ee&skuId=5123265311081&spm=a21n57.1.hoverItem.2&utparam=%7B%22aplus_abtest%22%3A%2294e145d07e3d40f7a1769ba0ed097e96%22%7D&xxc=taobaoSearch
16X1200

https://item.taobao.com/item.htm?abbucket=2&id=734046136674&ns=1&pisk=glX3Gkwjv6RIoQy0dV9QGoKSpRPt7p9WOaHJyLLz_F8spQ88OaAlyNOPppIdSU7Ar3BdeTfsEis5pk98ApsBFLzYk-UlAM95u51YG9mZ_3IZaY-U6dzKbL2Tk-eAjhalzRaApVmwNZtxULReaAkw53xyzv7y_A-W7v-rL3uajF6opgLPvC-lKHkppBWLEzx5dvdJPLJNrgs-NX-CyhOOktHRyvZQBf6VZepW9a8aQn-JY4-yzhSw5nMEUL8r_d-yDbuezaSaj3TwzLREQ6DyoT5VQP41DpNJyoB2xBYVYeSdmOoyaXsMSYDPI1AXuKLiUYWMYGLtDkM0wE5XJIdh7RHHEG-lJFQ43AvwissJqw2nLpCN199dBrmXtaYBgOOgNxdGb99NLsmrUGvH8aXyt24Mu9sNhdRT3ojNCwICIgnzUhQv7M6eE-rXKp8eIh685v8l__WpOLgUkBsPsNxH3glx_jlLUYta2OlSNB-6jEH1vdKAK-UWylqiGWOefnTYjlcSuB-6b4rgjjkwThtUg&priceTId=2150433617382257882345643ee0ee&skuId=5076247352422&spm=a21n57.1.hoverItem.10&utparam=%7B%22aplus_abtest%22%3A%220e0800243b648ef4f16a78f39ad037e9%22%7D&xxc=taobaoSearch

1250块X2

显卡一共10个槽,按照最便宜的XEON 4310T 提供的单U 64通道,双U128通道
这主板10个PCIE 16X槽,最多能提供6X8+4X16=112条PCIE通道
就算用普通的PCIE显卡,每4条通道一片显卡,也能支持28片显卡的基础平台了


也就是说,板+U+内存一共25700,加上300块钱散热器,就能提供足以满足LZ需求的基础平台了

StevenG 发表于 2025-1-30 17:04

去年装好没挂存储池的家庭服务器[偷笑]

jleee 发表于 2025-1-30 17:07

kerafyrm 发表于 2025-1-30 13:59
服务器主板啊,双路cpu,32g一根ddr5,插24根

ddr4 3200还行。ddr5,算了吧。

coohooc 发表于 2025-1-30 17:13

AMD EPYC2代服务器主板256GB内存

listree 发表于 2025-1-30 18:15

listree 发表于 2025-1-30 18:16

StevenG 发表于 2025-1-30 18:23

listree 发表于 2025-1-30 18:16
你什么主板,内存这么大

双路,8条64g

StevenG 发表于 2025-1-30 18:24

StevenG 发表于 2025-1-30 18:23
双路,8条64g

说错了,16条。。。,习惯说8条了

c1400700226 发表于 2025-1-30 18:29

listree 发表于 2025-1-30 15:29
不是1t硬盘,是1t RAM

你怎么知道人家的NAS是不是1T内存的EMC[偷笑]

gmlee1999 发表于 2025-1-30 18:30

listree 发表于 2025-1-30 15:29
不是1t硬盘,是1t RAM

我就惊了,一个小小nas居然有1T内存……原来是专业玩家[困惑]

noirchen 发表于 2025-1-30 18:51

其实这样应该也行,这个视频里跑的是 deepseek v1,理论上可以扩展到 deepseek r1
https://photos5.appleinsider.com/gallery/61850-128004-clusterhead-xl.jpg

listree 发表于 2025-1-30 18:56

listree 发表于 2025-1-30 18:57

listree 发表于 2025-1-30 18:59

chesha1 发表于 2025-1-30 19:01

首先不建议用 CPU + 内存跑,硬跑起来速度也很慢,非要跑有很多服务器平台支持 1T 以上内存

实在跑不动就量化开夸张一点,INT4 能节约不少,再多用点节约显存的技巧

不过还是建议用 GPU 跑,实在没大显存 GPU 就跑个 7b 的小模型玩玩算了,用 CPU 跑不到一秒都吐不出一个 token,等着不着急吗?

oolmfoo 发表于 2025-1-30 19:03

打算用五千買內存?[恶魔]

YsHaNg 发表于 2025-1-30 19:04

我輩樹である 发表于 2025-1-30 07:40
ptx我读研的时候不知道写了多少,cuda c核函数里面本来就可以写c代码也可以写ptx代码,只是没有使用cuda...

也是quant常见作风 给data scientist可就不常见

foxsheep 发表于 2025-1-30 19:06

只有我一个人好奇用DCPMM塞这个是否可行吗

hekmbahh 发表于 2025-1-30 19:10

Leciel 发表于 2025-1-30 16:07
嗯,让我来想想这个贴主的情况。他提到在读研时写过很多PTX代码,说明他在研究生阶段对CUDA编程有一定的 ...

你这是用R1推理的?

listree 发表于 2025-1-30 19:11

我輩樹である 发表于 2025-1-30 19:14

listree 发表于 2025-1-30 19:11
可以用汇编直接调用显卡么

汇编还要编译为sass,一种机械码,这个才能直接调用显卡。
页: 1 [2] 3 4
查看完整版本: deep seek完整模型700gb,什么机器可以装512gb以上内存条?