严格来讲有核显的CPU也算统一内存架构。但是考虑到核显规模小,可被视为CPU的一部分,也就是CPU/核显可被视为同一个芯片,也就可以不叫统一内存架构了。 mac的统一内存可以理解为显存当内存用,和PS5差不多,与CPU核心直接连接,不走总线,延迟要低的多 主要是带宽不一样。。。集显加DDR5也就几十GB/s,苹果M2是200GB/s起,最高(Ultra)能到800GB/s。当然在独显单卡上TB的带宽面前就啥也不是了。。。 raidenfrank 发表于 2023-7-5 15:32
那些声称8G内存能搞视频编辑的,挺好奇都是咋搞出来的
很多东西都压缩到了硬盘上,并不像win大量占用内存 理论上没有区别,要说区别的话就是Mac把内存集成到了SoC中 个人理解对ssd压力更大 首先这不是个新词, 最早用这个的应该是微软的xbox定制的amd芯片
在M系列芯片之前, 苹果还试水过HBM2
苹果的优势就是他作为整机厂,没有X86平台那么多的利益方, 就算可劲堆料利润也比人家高很多...... 本帖最后由 zhuifeng88 于 2023-7-5 15:54 编辑
这叫啥新词....老黄2013年就release的东西, 并且在这之前也有, 游戏机基本都是这套操作
https://developer.nvidia.com/blog/unified-memory-in-cuda-6/ slymitec 发表于 2023-7-5 15:41
楼上也说了,这么搞出来的延迟,对于CPU来说反而不友好;虽然带宽高,但对于CPU来说……可能也用不到。
...
说内存走总线的需要去更新一下自己信息库了。。。现在Intel和AMD都是内存控制器直接集成在CPU里面了。延迟两种实现方式差不多。因为位宽问题用不上是真的,不过多的那些位宽本来就是给GPU用的。比独显少做一次复制,比集显带宽大,但是增加了成本,损失了扩展性,大概就是这样。 本帖最后由 hsshhssh 于 2023-7-5 16:03 编辑
就是和“集成显卡用系统内存当显存”没有区别。我之前还想过APU的核显配64G内存来试试AI画画跑大图,装上后才发现ROCm不支持2400G,即使是export HSA_OVERRIDE_GFX_VERSION=9.0.0伪装成Vega 64都不行。不过我看webui启动脚本里有句“*"Renoir"*) export HSA_OVERRIDE_GFX_VERSION=9.0.0”,说不定4000系的APU能跑 十万个为什么是吧 https://www.bilibili.com/video/BV1fh4y1M7DX/?spm_id_from=333.999.0.0 有一点 可以共用一个寻址空间 cpu gpu能直接读取对方数据 x86集显不是 本帖最后由 zhuifeng88 于 2023-7-5 17:06 编辑
YsHaNg 发表于 2023-7-5 16:56
有一点 可以共用一个寻址空间 cpu gpu能直接读取对方数据 x86集显不是
取决于写法集显独显都可以是, 仅仅只是带宽的差异 只能和游戏机比。普通集显cpu还是遵守的host device编程模型。
苹果就是做的界面比较宽,容量比较大的游戏机。
这是最新的集显,可以看看。 有一点你们是不是忽略了,Apple Silicon本质上是一颗移动芯片,设计之初就是SOC集成内存的思路,用LPDDR也是为了省电 我輩樹である 发表于 2023-7-5 17:06
这是最新的集显,可以看看。
卧槽,原 看手机情况就知道了。现在mac本质就是手机解决方案定制。不过区别在于能否直接通过系统层面互相转移内存管理权。其他的目前不可以,苹果据说已经能了。cpu延迟也是看场景的,不打游戏生产力情况基本无所谓 raidenfrank 发表于 2023-7-5 15:32
那些声称8G内存能搞视频编辑的,挺好奇都是咋搞出来的
纯剪辑一些手机或者微单拍的h264素材问题不大,况且fcp会自动后台转码做代理,实际上非编时间线里操作的不是原素材,但是操作稍微复杂点8g内存就露馅了,比方说做点非线性变速啦,画些手动蒙版做转场啦,挂个lut再加个简单的卷积降噪啦,一些基础实时编辑的文字和图片包装啦,这些操作在实际工作流程里远比多机位剪辑或者分屏画面使用频繁得多,但是做评测的是不会测的,他们只会告诉你可以同时预览多少条轨道[再见] 本帖最后由 63047838 于 2023-7-5 20:22 编辑
hsshhssh 发表于 2023-7-5 16:00
就是和“集成显卡用系统内存当显存”没有区别。我之前还想过APU的核显配64G内存来试试AI画画跑大图,装上后 ...
集成显卡即使硬件已经实现统一内存结构,但是为了兼容用独显的PC,软件还是不得不将内存和显存分开,导致内存浪费带宽进行数据传输 这个帖子炸出来好多打游戏的,苹果电脑大多拿来做剪辑做修图吧,对延迟要求没那么高,LPDDR5 100ns延迟也还凑合
这要是能跑算力,几百G的带宽简直爽歪歪 本帖最后由 zhuifeng88 于 2023-7-5 20:24 编辑
63047838 发表于 2023-7-5 20:05
集成显卡用系统内存当显存,是要划分出一块专用的显存吧,CPU能访问的内存也相应减少,两者之间数据不能 ...
目前核显就是可以"两个设备都可以访问全部的内存而且数据可以共享"的, 当然兼容考虑编程模型上UMA不是默认行为, 内存组织上intel的默认就是可以访问全部系统内存的状态, amd的核显确实存在"划分一块"的问题
https://www.amd.com/en/support/kb/faq/pa-280
https://learn.microsoft.com/en-us/windows/win32/api/d3d12/ne-d3d12-d3d12_memory_pool
另外独显也可以做到这一点, 只是性能受到很大限制(数据还是需要移动, 大部分通过ATS和PRS由硬件自动完成, 驱动需要少量配合, 但对上层是可以透明的)
https://developer.nvidia.com/blog/unified-memory-cuda-beginners/
页:
[1]
2