windows下跑r语言内存不足,麻烦大佬们推荐一下装机
本帖最后由 131CC6A 于 2024-12-15 04:22 编辑组里给的课题,简单来说就是要处理一个100w+行数据的数据集,跑出可视化图和回归。
我之前的工作站是14700k+128g 在加入数据并且检查对齐坐标系准备跑图的时候会直接黑屏死机 我打开任务管理器显示已提交内存168g 内存是完全吃满的
考虑过更换语言来跑数据,但r语言的包都是已经写好的,能直接调用,换语言重新搞的时间可能更久,于是想配一台机器只用于跑这个数据集
目前的预算是1w左右,内存尽可能大,不需要显卡和硬盘,cpu和主板的通道最好是pcie4.0以上的,因为产出的数据集还需要放到另外一台机器上验证,数据量比较大,想请问大佬们有没有什么推荐的配置?万分感谢
补充一下关于回复很多人说的代码和语言问题:
1.r语言处理数据的时候是直接把数据全部预载进内存进行处理的,因此极其消耗内存
2.r语言只是一个统计语言,不是编程语言,优势是在可视化和易读性方面,但它对于大数据的优化很差,在课题前期也做过5-6w的小规模数据集,内存能吃到24g左右
3.考虑更换语言来处理这个问题,但r语言相关的包兼容性以及可以自动覆盖冲突等特性无法舍弃,另外我也在回复中反复提及了本人并不是code专业户,没有专业学习过代码,只是半吊子学过通识课开设的c,目前很大一部分都是靠copliot以及4o来帮助进行的,所以对我来说换语言以及学习数据库相关的时间成本会很高 感觉要服务器的8通道16条内存了 降频跑。。。。。黑屏说明你系统不稳定
到底是R太辣鸡还是代码写的太辣鸡?这么点数据就要这么多内存? 不会把所有数据都读在内存里吧,没有数据库会这么干 赫敏 发表于 2024-12-14 15:01
降频跑。。。。。黑屏说明你系统不稳定
到底是R太辣鸡还是代码写的太辣鸡?这么点数据就要这么多内存? ...
没表达清楚,黑屏死机说的是r直接崩溃了,然后电脑大概会冻结个几分钟恢复正常
机器是戴尔的t3680工作站 也没法超频 严格按照intel的pl1 pl2设置的 内存是ddr5 4800 ecc
可能是语言问题也可能是我代码问题 我基本上都是找copliot和**写的 因为组里没人懂代码
100w+的行数据已经是清洗过两遍的了 原始数据集有300w+的行数据 那个组里没人能跑... 要不,考虑租个云主机? 131CC6A 发表于 2024-12-14 15:18
没表达清楚,黑屏死机说的是r直接崩溃了,然后电脑大概会冻结个几分钟恢复正常
机器是戴尔的t3680工作站 ...
03年我都用sas处理过百万级的数据库,那时候的电脑性能估计连现在的电视盒子都比不上。。。
关键是优化程序逻辑啊 eclipse126 发表于 2024-12-14 15:07
不会把所有数据都读在内存里吧,没有数据库会这么干
到检查和对齐坐标系的时候内存已经这样了
之前有去知乎问过,给我的建议是不要用r... zmruc 发表于 2024-12-14 15:28
03年我都用sas处理过百万级的数据库,那时候的电脑性能估计连现在的电视盒子都比不上。。。
关键是优化程 ...
组里没几个人懂代码... 我也是问copliot以及-4写的数据集 自己能力实在有限 课题名称是真实统计数据分析 当时实在没想到会这么困难... 为什么不用数据库呢?导进数据里随便搞啊 不如重新写一下代码? 本帖最后由 声色茶马 于 2024-12-14 17:17 编辑
CHH的风气这是肿么了?[震惊]
二楼不是已经指明了方向么?这时候不正是应该直接EYPC+8x128G内存起步么?大佬们拿出气魄来吧![可爱]
我推荐一个:B站搜索“瓜皮群主”。 本帖最后由 momo77989724 于 2024-12-14 17:18 编辑
这不就是爆内存了嘛。。。ECC有没有单根64G到不知道 既然会问copilot写代码,那就也去问问copilot怎么降低当前算法的空间复杂度啊,你要不然这个搞法就是无底洞 区区百万行数据在数据库都是随便操作的,现在ddr5最大单条也就48G,不上hedt最大就192G 楼上无非两个思路 要不花钱 要不花时间优化算法
如果这个数据以后不会增长了 那个你个路子 收二代或者一代的epyc组ddr4的 1w堆到256g内存是可能的
要不自己花时间学习一下python和sql或 另外 用一个几千行的数据测试下代码 有可能是内存溢出 而不是数据本身太大 区区百万数据要这么大内存?不懂r,但是总感觉有优化空间 本帖最后由 williamqh 于 2024-12-14 21:15 编辑
r默认就是把所有数据读到内存里去,还是换python吧,一行一行搞。回归简单可以用stochastic gradient descent, 可视化你一百多万个数据点都放图上那还是要一起放内存,不过你要是一定要依赖r里的特定包,那只有花钱买内存了。 100w行数据 128g内存还不行吗? kingofgu 发表于 2024-12-14 21:07
另外 用一个几千行的数据测试下代码 有可能是内存溢出 而不是数据本身太大 ...
几千行的没有测试过 但是之前跑的都是这个大数据集的子集 一般在5-6w的行数据 是能正常跑出来图的 williamqh 发表于 2024-12-14 21:12
r默认就是把所有数据读到内存里去,还是换python吧,一行一行搞。回归简单可以用stochastic gradient desce ...
感谢大佬的答疑解惑了 我也在考虑要不要学下python和数据库 如果硬推的话,建议EPYC系列,我朋友跑蛋白质模拟还是啥东西,之前买的7950X+128G说卡,我让他买了epyc一跑一个不吱声。不涉及很机密的话建议闲鱼租个机子跑一下试试,9654系列就行 100w数据128g内存还不够,先看看code吧 100w行不是我说 excel都能跑 liprais 发表于 2024-12-15 01:12
100w数据128g内存还不够,先看看code吧
在贴吧也问了,包括上面有个大佬也回复了,说我的这种情况非常正常,r语言处理数据的时候是直接把数据全部预载进内存进行处理的,r语言只是一个统计语言,对于大数据的优化很差,极其消耗内存 ttt5t5t 发表于 2024-12-15 02:44
100w行不是我说 excel都能跑
不清楚excel能不能跑,r是没法跑的 急用就买epyc,然后下来想办法换语言来改,如果可以就去找专门的程序员来代工,自己慢慢学能看懂和简单的维护就好(比如python)。
后期换语言了买的epyc又不是不能继续用,所以不用担心浪费。
唯一的问题是谁来保证256G就够用了。
按你的说法,5-6万的数据能吃满24G,你得多试几次不同的数据量下内存的增长,如果是线性的,你怕不是要上400G以上的内存,比如512G,不然万一买回来,还是会崩溃就笑了。 虚拟内存的设置有影响吗? R语言好像不会自动管理内存,需要自己写一些内存管理的句子,不然内存占用会很夸张。
页:
[1]
2