Chiphell - 分享与交流用户体验

标题: I226-V不断流了?! [打印本页]

作者: hawie    时间: 2023-7-30 18:53
标题: I226-V不断流了?!
新一代软路由N100,千篇一律配I226,没得选螃蟹。
请教厂家为啥这样,却是声称早就不断流了。
我信了。

直到今天,100%重现断流
环境:
N100 I226, 接TPLINK XDR5480 2.5G口,两台PC接千兆口。
观测:
一边iperf3, 一边ping;
使用:
第一遍测试,iperf3 -c N100_IP
第二遍测试使用:iperf3 -c N100_IP -R
结果:
第二遍时iperf3过程中,出现断流。ping包观测显示断流时间为11s。
很容易重现,按上面过程,百发百中。

于是不得不研究了一下解决办法
关闭I226 TSO功能。

手工输入(linux):
/usr/sbin/ethtool -K 你的网卡名 tso off
立即管用,同样环境重新测试无数遍也不断流了。

写进系统服务,自动启动:
PVE参考代码
创建执行文件/etc/systemd/system/off_tso.service
  1. [Unit]
  2. Description=Turn off TSO for NIC

  3. [Service]
  4. Type=oneshot
  5. ExecStart=/usr/sbin/ethtool -K enp5s0 tso off
  6. ExecStart=/usr/sbin/ethtool -K enp6s0 tso off
  7. ExecStart=/usr/sbin/ethtool -K enp7s0 tso off
  8. ExecStart=/usr/sbin/ethtool -K enp8s0 tso off
  9. RemainAfterExit=yes

  10. [Install]
  11. WantedBy=multi-user.target
复制代码

systemctl enable --now off_tso.service
systemctl daemon-reload

搞定。


作者: iamyangyi    时间: 2023-7-30 18:56
我感觉温度的 问题,我秋冬 225 不掉,天热起来偶尔掉。
作者: QSG    时间: 2023-7-30 19:04
有一说一,2.5G网卡的bug搞了接近3年还没完全解决,有点太离谱了
作者: 星辰柯博文    时间: 2023-7-30 19:06
刷网卡更新固件呢?
作者: hcym    时间: 2023-7-30 19:15
试试看,有个mini居然是这个
作者: summerq    时间: 2023-7-30 19:22
你启发了我。现在我知道为什么过去三年我的i225从来没有断流。因为我用pfsense,在设置里默认就关闭了TSO跟LRO
作者: jjq00812    时间: 2023-7-30 19:50
根本不懂这些代码怎么用我想如果有个厂能出个全瑞昱的2.5g,贵几百块也会有人买吧
作者: etfgert108    时间: 2023-7-30 19:53
tso不是i217的问题吗,226也能用这代码?
作者: 灵乌路空    时间: 2023-7-30 19:55
TSO会让网卡帮助CPU进行分段,关了会降低网卡负载

所以还是负载高了导致断网
作者: 元首的动物园    时间: 2023-7-30 19:55
刚整了个n5105+i266v的软路由,裸机直刷openwrt,出现过和笔记本的螃蟹网卡不兼容,协商千兆一直断流,然后网卡自动协商为100M就不断流了,不管它,i266v和ms510txup的10G口连接,自动xie'pgamgwdg2.5G,到目前为止很稳定,没出现断流现象
作者: Anderson997    时间: 2023-7-30 19:58
这个关tso gso的e1000的老bug到现在新硬件还有?
作者: zszszs0007    时间: 2023-7-30 21:02
i226断流的话e3100断流吗
作者: ren者    时间: 2023-7-30 21:05
win下  怎么处理
作者: crazymr    时间: 2023-7-30 21:28
请问WIN怎么关呢
作者: IceyHeart    时间: 2023-7-30 21:29
本帖最后由 IceyHeart 于 2023-8-1 13:22 编辑

LEDE openwrt
(, 下载次数: 131)

1. 内核升级到 5.4.234, 5.15.98, 6.1.15  ,解决开启 Offload 加速后 SKU 内核报错的问题
2. Intel 全系列 I225/226 网卡内核禁止 EEE ,解决 1G/2.5Gbps 网络中断流的问题
3. 版本更新到 R23.3.3
作者: ExFan    时间: 2023-7-30 21:53
ikuai + 226 从未断流
作者: 土星实验室    时间: 2023-7-30 21:56
螃蟹卡一样断流,负载一大,温度一高,慢,断,等。
作者: tmdodd    时间: 2023-7-30 22:14
刚买的j4125➕226 4口,因为是pt大户,所以最近实际环境测试了下,150MB(大B)下载昨晚一晚上,cpu最高到了68,但是反而没事,而今天晚上就上传做种又断了一次。
刚给加了一个风扇,下周mt出大包再看看。如果再不行,就开始测试不直通,目前是2wan1lan都是直通口。
作者: yehaku    时间: 2023-7-30 22:24
我都是一步到位上10G 。2.5G是瞎折腾。
现在上10G的成本比2.5G还便宜不少。不少二手服务器设备。
作者: yufei888    时间: 2023-7-30 22:37
本帖最后由 yufei888 于 2023-7-30 22:55 编辑
  1. [Unit]
  2. Description=Turn off TSO for NIC

  3. [Service]
  4. Type=simple
  5. ExecStart=/var/opt/network-disable-tso.sh
  6. TimeoutSec=0
  7. RemainAfterExit=yes
  8. GuessMainPID=no

  9. [Install]
  10. WantedBy=multi-user.target
复制代码


这样子就不会报错了。
作者: hcym    时间: 2023-7-30 22:48
I219lm
完美入坑

作者: 无心飞翔    时间: 2023-7-30 23:15
牙膏也三哥化了?
作者: HappyTime    时间: 2023-7-31 00:08
看来我买螃蟹的2.5g软路由是明智的选择
作者: ShireCiel    时间: 2023-7-31 01:12
同第二楼意见。
简介TSO(TCP Segment Offload)技术是一种利用网卡的少量处理能力,降低CPU发送数据包负载的技术,需要网卡硬件及驱动的支持。

要不TSO功能有BUG。要不就是TSO功能导致网卡芯片的负载高,热死了。
楼主加强散热试试?
作者: hawie    时间: 2023-7-31 07:19
yufei888 发表于 2023-7-30 22:37
这样子就不会报错了。

代码只是参考哈。

Type=oneshot可以支持多行ExecStart,simple只支持一行。
同样oneshot在pve7还可以一行ExecStart多句代码,但在pve8中只支持多行ExecStart单句代码了。
示例是在pve8中实际验证并在运行的。
作者: hawie    时间: 2023-7-31 07:34
ShireCiel 发表于 2023-7-31 01:12
同第二楼意见。
简介TSO(TCP Segment Offload)技术是一种利用网卡的少量处理能力,降低CPU发送数据包负载 ...


软路由密罐,已经有一个小风扇对着抽风了,改善散热有限。

目前这个现象,个人倾向于TSO设计有问题。而不是过热导致。
因为,
同样环境,去掉2.5G转千兆,从千兆口改为在2.5G口跑测试,跑满2.35G~2.38G bps,没有发现即时断流。
也就是,这个BUG并不是在负载最满连续2.5Gbps的时侯出现,反而在连续千兆流量时出现。
而且,
整天运行,有时能观察到在某个时间段网络无流量,初以为PVE死,但后来察看PVE运行时间是连续的,也就是PVE没死。也就是在那个时间段,也出现了断流,那时没跑测试,负载不会太高。

作者: ShireCiel    时间: 2023-7-31 09:25
hawie 发表于 2023-7-31 07:34
软路由密罐,已经有一个小风扇对着抽风了,改善散热有限。

目前这个现象,个人倾向于TSO设计有问题。而 ...

不是说对着外壳吹啊。
而是拆开看看226-V得网卡芯片在哪里。 直接加强 芯片得散热。
作者: hawie    时间: 2023-7-31 12:21
ShireCiel 发表于 2023-7-31 09:25
不是说对着外壳吹啊。
而是拆开看看226-V得网卡芯片在哪里。 直接加强 芯片得散热。 ...

有两个风扇,对着外壳吹的是1225大风扇,对着内部吹的是8010小风扇,软路由就一巴掌大,如果还要从网卡做导热什么的,就太夸张了。
这个测试时间不长,在断流那个时刻,应该没有过热,以后也可以拿测温枪验证一下。
作者: sc80t    时间: 2023-7-31 15:03
提供下我情况,我是4口226,pve+ros,直通了3个给ros,2wan+1lan,因为ros可以很方便的看掉过几次。目前都是掉wan。目前也在摸排原因
作者: 雨季不再来    时间: 2023-7-31 15:16
IceyHeart 发表于 2023-7-30 21:29
LEDE的openwrt针对这个问题已经在固件中关闭了TSO

请问,lede的网址是什么?想下最新的LEDE版op
作者: hawie    时间: 2023-7-31 16:14
sc80t 发表于 2023-7-31 15:03
提供下我情况,我是4口226,pve+ros,直通了3个给ros,2wan+1lan,因为ros可以很方便的看掉过几次。目前都 ...

TSO关了之后,暂还没发现问题。

另一个问题,你直通ROS,用iperf3正反向测速能满速吗?
我这个机子,一个方向满速,一个方向从满往小减。ROS版本升到了最新7.10.2
之后,改为不直通,pve驱动I226,再桥接给ROS, 双向测速才满速。
作者: Lentrody    时间: 2023-7-31 17:23
ren者 发表于 2023-7-30 21:05
win下  怎么处理

应该是网卡高级设置里关闭大量传输减负
作者: sc80t    时间: 2023-7-31 17:31
本帖最后由 sc80t 于 2023-7-31 17:34 编辑
hawie 发表于 2023-7-31 16:14
TSO关了之后,暂还没发现问题。

另一个问题,你直通ROS,用iperf3正反向测速能满速吗?

先问一下,pve里把网卡的TSO关了,再把网卡直通给ROS,那ROS里面TSO是关的还是开的?或者你有测试过把TSO关了,网口直通给ROS,还断流吗?



你是lan内host1和host2直接iperf吗?我这现在是2wan 1lan,留了一个管理口没直通,所以,现在没法试。

wan口和lan口的iperf,我不知道怎么测。

我先看看我这到底什么问题,你分享的办法我估计我如果也用virtio应该也能解决,还是想试试直通下能不能解决。
但是直通给ros的口,我也不知道怎么看tso开了还是没开,更没法关。正在排列组合排查。

我买的这个小主机设计的有好有不好,所以现在虽然有风扇,cpu温度不高了,但是我还是想能不能给网口加点好的硅脂散热。
1)背面设计挺好的,开了8cm的风扇开口和固定位,而且还设计了12cm的风扇固定位;我固定了一个pt12025,接usb 5v,风扇转速对付cpu散热感觉是够了。
2)但是侧面的螺丝固定位好像是锁死了,我试了下拧不开,也就没法把整个主板拿起来。吗,没法动cpu和网卡散热那面。
作者: wimming    时间: 2023-7-31 17:35
所以群晖早知道,不上2.5G其实是为大家好
作者: hawie    时间: 2023-7-31 17:42
sc80t 发表于 2023-7-31 17:31
先问一下,pve里把网卡的TSO关了,再把网卡直通给ROS,那ROS里面TSO是关的还是开的?或者你有测试过把TSO ...

pve自身装一个iperf3服务端,可以方便其他接入测试。
wan口先关闭PPPoE,改成DHCP之类,也可以接电脑或其他上级路由的。我有多台路由,两台路由做VRRP热备,折腾的时侯不影响其他人上网。
作者: hawie    时间: 2023-7-31 17:45
wimming 发表于 2023-7-31 17:35
所以群晖早知道,不上2.5G其实是为大家好

推而广之,群晖也没用N5105,也是为大家好。就是不知道N100会不会入群晖的法眼。
作者: vasomax    时间: 2023-7-31 17:51
Z690上是这网卡吗 ,用了2年好像没断过,网游啥的也没掉过线
作者: sc80t    时间: 2023-7-31 17:52
hawie 发表于 2023-7-31 17:42
pve自身装一个iperf3服务端,可以方便其他接入测试。
wan口先关闭PPPoE,改成DHCP之类,也可以接电脑或其 ...

我用的16g盘,空间不充足,我就不折腾容器了,我搜了下方法,知道怎么测了。回头等方便了测下。

今天大雨居家办公,lp在家,折腾网络,她得削我。

你现在是pve关tso,再virtio给ROS是吗?一般而言,virtio和直通的差距在什么场景比较明显啊?刨除掉你说的直通后反而跑不满(我理解应该是目前ros驱动或者别的还不完善,毕竟226现在在ros里连个名字都没有)
作者: 21PENNY    时间: 2023-7-31 18:25
sc80t 发表于 2023-7-31 17:52
我用的16g盘,空间不充足,我就不折腾容器了,我搜了下方法,知道怎么测了。回头等方便了测下。

今天大 ...

参考一些测试数据:https://zhuanlan.zhihu.com/p/110359286
virtio作为半虚拟化是前后端结构,处理路径比较长,latency不行,还有当资源比较紧张时,丢包率也会高一些。
作者: sc80t    时间: 2023-7-31 18:34
21PENNY 发表于 2023-7-31 18:25
参考一些测试数据:https://zhuanlan.zhihu.com/p/110359286
virtio作为半虚拟化是前后端结构,处理路径 ...

谢谢回复,这资料比较有用

看来能直通还是直通,不然心理总有点。
作者: hawie    时间: 2023-7-31 19:38
sc80t 发表于 2023-7-31 17:52
我用的16g盘,空间不充足,我就不折腾容器了,我搜了下方法,知道怎么测了。回头等方便了测下。

今天大 ...

是,刚测平均0.327ms延迟。你试试直通的延迟,看看相差多少?
对我而言,经常与NAS拷大文件,跑满更重要。

ping -c 100 pve_ip
...
100 packets transmitted, 100 packets received, 0.0% packet loss
round-trip min/avg/max/stddev = 0.180/0.327/0.445/0.070 ms


作者: sc80t    时间: 2023-7-31 22:30
hawie 发表于 2023-7-31 19:38
是,刚测平均0.327ms延迟。你试试直通的延迟,看看相差多少?
对我而言,经常与NAS拷大文件,跑满更重要 ...

我和你环境不一样,我测这个没意义。

我看了下你帖子,原来你是n100,4*nvme all in one,咱两相同的是都是pve+ros+i226。

我是j4125的纯路由,我的pc和nas之间跑满和路由无关,我nas有单独的机器,nas和pc之间是一个2.5g的交换机。

不过,我看你帖子,你用功率插座试过吗?n100放开到27w还是20w出头,是功率计的读数吗?我本来也心水n100,但是20多瓦的话,我不如自己组装itx+独立网卡了。

我本来有台g5400+i350-t4的软路由,也是稳定的一b,外网除了移动一周一拨号,电信30天一拨号外,其他没有任何down,因为一条线路换2.5g光猫了,外网有2.5g需求,我看了下网卡单买还不如买台小主机。7月份才刚换的。

作者: rdlrdlrdl321    时间: 2023-7-31 22:50
2.5G? 我体验了1年吃不消他的各种BUG 干脆换10G了  
X520这个网上120左右的二手网卡用起来是真的稳    不知道2.5G咋还不如10多年前出的东西
作者: hawie    时间: 2023-7-31 23:31
本帖最后由 hawie 于 2023-7-31 23:34 编辑
sc80t 发表于 2023-7-31 22:30
我和你环境不一样,我测这个没意义。

我看了下你帖子,原来你是n100,4*nvme all in one,咱两相同的是 ...


是功率计实测的。此刻有21W (4nvme)。重负载时27W,瞬间还不时冲到30W。
我也有一台J4125,差不多的应用,功耗是11W(2sata ssd+1nvme), 也是非常稳定。

N100最大的问题,是不稳。连功耗也是,低的时侯,15W左右。业务差不多,功耗跳跃不小。标称TDP6W,实际比TDP10W的J4125高得多。

今天再次发现直通给NAS的盘挂了,象是PVE的RDM死锁了,pve能ssh访问、nas能ssh访问,但涉及访问硬盘的,一律挂死,sync也不行,又不得不强制关机重启。

这个N100,真是问题一堆,不时给人前所未有的意外,不成熟,不推荐。
作者: hawie    时间: 2023-7-31 23:48
rdlrdlrdl321 发表于 2023-7-31 22:50
2.5G? 我体验了1年吃不消他的各种BUG 干脆换10G了  
X520这个网上120左右的二手网卡用起来是真的稳    不 ...

2.5G,还是有些优势的,功耗跟千兆差不多,不需重新布线,速度快一倍。再往上,硬成本高很多。螃蟹卡2.5G,用了应该有两年了,很稳。

不过,你的选择更好。10G以上,是归宿。
作者: sc80t    时间: 2023-7-31 23:58
hawie 发表于 2023-7-31 23:31
是功率计实测的。此刻有21W (4nvme)。重负载时27W,瞬间还不时冲到30W。
我也有一台J4125,差不多的应用 ...

好的,谢谢你,n100的草这下我是彻底拔了,稳定性可能还能未来修修补补稳定下来,但是功耗占用估计就这样了。n100这个性能我看和8100t没太大区别。而且8-10代平台稳定还便宜,扩展性也好。缺点可能就是一个体积大,但我这不在乎。

j4125这个功耗才是一个纯路由该有的水平。

另外,问下,我看你说你的j4125+8125b,一直稳定,软件环境也是pve+ros呗,因为ros还没小螃蟹驱动,那就是pve下面linux bridge,virtio给ros是吧。
作者: hawie    时间: 2023-8-1 07:15
sc80t 发表于 2023-7-31 23:58
好的,谢谢你,n100的草这下我是彻底拔了,稳定性可能还能未来修修补补稳定下来,但是功耗占用估计就这样 ...


这个正好跟920+的硬件对标。目前物理安装的920+,也是启用linux bridge,VMM里面跑ROS+OP。

之前,用pve,后来发现群晖的VMM效率比想象的强,iperf3测网络性能比pve还强,除了不能物理直通,其他也还行,就换成了裸奔918+(设置跟自己闲置白群918+同SN)。最近才换成920+的系统。
作者: IceyHeart    时间: 2023-8-1 13:16
雨季不再来 发表于 2023-7-31 15:16
请问,lede的网址是什么?想下最新的LEDE版op

https://github.com/coolsnowwolf/lede
作者: 雨季不再来    时间: 2023-8-1 13:25
IceyHeart 发表于 2023-8-1 13:16
https://github.com/coolsnowwolf/lede

非常感谢!!!
作者: hong3048888    时间: 2023-8-1 15:22
Lentrody 发表于 2023-7-31 17:23
应该是网卡高级设置里关闭大量传输减负

没找到,截图有吗
作者: Lentrody    时间: 2023-8-1 15:34
hong3048888 发表于 2023-8-1 15:22
没找到,截图有吗

翻译不一样
(, 下载次数: 116)
作者: zycboss    时间: 2023-9-11 14:43
226是断流,5105是重启,至少N100不重启了,算是有进步
作者: meng83    时间: 2023-9-11 16:13
擦,我win上遇到过,以为是网卡的问题,话说这个是已经确认普遍存在的一个问题吗?
作者: CRazy-牛牛    时间: 2023-9-11 16:18
我软路由还是J4125+210最温度,重来没有断过。接7条光纤高负载跑了2年多了。
作者: sun1a2b3c4d    时间: 2023-12-28 19:18
Lentrody 发表于 2023-8-1 15:34
翻译不一样

实际是一个意思
作者: nghua    时间: 2024-3-14 13:24
我按照你的方法输入命令提示没有这个设备。我的网卡已经直通给ros了。

root@ikoolcore-R2:~# ethtool -K enp1s0 tso off
netlink error: no device matches name (offset 24)
netlink error: No such device
作者: nghua    时间: 2024-3-14 13:27
请教这是怎么回事!我现在的硬件是硬酷R2-n300,网卡也是i226,使用的是pve虚拟ros路由系统网卡直通,大概几个小时或者十几个小时断流,把网线拔掉再插上就好了。这个问题困扰我好久。
作者: 装陈醋的酱油瓶    时间: 2024-3-14 13:28
iamyangyi 发表于 2023-7-30 18:56
我感觉温度的 问题,我秋冬 225 不掉,天热起来偶尔掉。

温度确实有, 网卡耐温普遍不高。
i350-T4装M920x里都会嘎,机器竖起来加了个风扇终于不掉线了
作者: hawie    时间: 2024-3-14 13:33
nghua 发表于 2024-3-14 13:27
请教这是怎么回事!我现在的硬件是硬酷R2-n300,网卡也是i226,使用的是pve虚拟ros路由系统网卡直通,大概 ...

排除散热等因素,你的实例说明,ROS也没有驱动好i226。这样就可以尝试将i226交给pve管,ros使用虚拟网卡。
作者: hawie    时间: 2024-3-14 13:33
nghua 发表于 2024-3-14 13:24
我按照你的方法输入命令提示没有这个设备。我的网卡已经直通给ros了。

root@ikoolcore-R2:~# ethtool -K e ...

直通了,自然不在pve控制了。
作者: nghua    时间: 2024-3-14 13:57
hawie 发表于 2024-3-14 13:33
直通了,自然不在pve控制了。

那我先不直通再pve里面关掉tso然后再直通还能生效不? 我之前也是用半虚拟化,但是直通之后发现cpu的效率更高,所以才想直通的
作者: hawie    时间: 2024-3-14 14:03
nghua 发表于 2024-3-14 13:57
那我先不直通再pve里面关掉tso然后再直通还能生效不? 我之前也是用半虚拟化,但是直通之后发现cpu的效率 ...

交给pve关tso,肯定得由pve驱动,就不能再选直通,只能虚拟网卡给ros。性能会有一点点下降,一般感知不到。
作者: hbmask    时间: 2024-7-15 15:47
PVE 8.2.2  8505 直通226V网卡给ros 也见过断流呀,,啥是断流,是eth会断开?会被ros 记录次数才叫断流吗?
作者: moveable    时间: 2024-7-29 01:31
现在的SB主板不给网卡做散热,又用一体式挡板盖着网卡,8125大流量大连接数久了一样断网。
作者: uc1255085    时间: 2024-7-29 08:07
win11怎么操作
作者: FlyKite    时间: 2024-7-29 08:59
说起来,NUC11里用的是225-LM,用了好几年了,倒是一直没观察到断流
作者: baoling    时间: 2024-9-2 09:42
PVE 6.8的内核,225B3的网卡,固件升级到1.94了,关闭了tso gso gro 依然不管用,主板是660 ITX的,散热应该不成问题。
作者: dcl2009    时间: 2024-9-2 09:51
我的是换了根网线就好了

有一段时间226v经常断,折腾各种硬件还是断,加强了散热好点了,依然断,忍无可忍,换了根网线,好了,怎么折腾都不会断了
作者: pcinife    时间: 2024-9-2 09:55
219lm+225,从未断流,驱动都是win自动更新的最新版
作者: 雨季不再来    时间: 2024-9-13 16:39
我也遇到断流了,n100小主机装的爱快!
作者: zhjook    时间: 2024-9-13 21:52
知道 牙膏厂  为啥 烂了吧,现在  连网卡 都整不明白了
作者: @Mr.z    时间: 2025-1-11 13:23
dcl2009 发表于 2024-9-2 09:51
我的是换了根网线就好了

有一段时间226v经常断,折腾各种硬件还是断,加强了散热好点了,依然断,忍无可忍 ...

你以前的网线是自己做的还是成品啊
作者: 459633561    时间: 2025-1-11 14:11
summerq 发表于 2023-7-30 19:22
你启发了我。现在我知道为什么过去三年我的i225从来没有断流。因为我用pfsense,在设置里默认就关闭了TSO跟 ...

请教一下,TSO LRO 是啥功能吗??感谢!
作者: summerq    时间: 2025-1-11 16:19
459633561 发表于 2025-1-11 14:11
请教一下,TSO LRO 是啥功能吗??感谢!

TCP Segmentation Offload and Large Send Offload
作者: 459633561    时间: 2025-1-11 17:46
summerq 发表于 2025-1-11 16:19
TCP Segmentation Offload and Large Send Offload

感谢!




欢迎光临 Chiphell - 分享与交流用户体验 (https://www.chiphell.com/) Powered by Discuz! X3.5