自从近日说了一句“cdh看来还是稳定,2年没出问题了!”接二连三的事情就来咯!
现象:万兆卡 硬盘IO正常 网络速率也没有占用到1M级别 但是 scp 简单测 KB级??
这么慢的速率并不是一开始就这样,都知道加入到cdh里边的主机都需要获取相关的parcel, 在分发的时候是未发现异常的。
加入节点后,开始做数据的balancer ,一觉起来,spark任务无法启动,hive任务无法启动(其实还有一台老机器挂掉 对故障的排查影响颇深 内存的硬件问题!)解决:
经过一天的排查(包含宕机的机器),故障锁定到了并入机器的网络确实有问题,(从交换机 光模块 光纤线 光纤口 一步步定位) 当时还有很多的无法用言语表达的测试现象(比如拔了插 插了拔 哟~ 又可以了 速率又上来了。)
直到第二天,华为的研发也打飞滴过来解决(最后也只是说 centos对该网卡的驱动版本比较低 先升级试试 当然最后的结论是没错的)
不过因为别人研发都来了我也没事,手贱也进行了系统层的排查发现了如下东东:内核报错?硬盘??后来我查了很多的资料 这篇文章给了我灵感 +手贱 貌似找到了出现问题的 根本现象 和 基于软件的解决方法!
https://unix.stackexchange.com/questions/267216/cpu-13-pid-15452-comm-ssd-blk-0-tainted-g-b-i-e-3-19-0-1貌似和内存有关系,然后喵了一眼。
但是我看了所有的机器,buff/cache 都是和配置的百分比爆满状态,会不会这个会影响到呢?当时我的想法,然后反正清空没什么大的影响,死马当活马医,试试。。 echo 3 > 清空的命令一执行,666 网络速度就上去了。(神奇真神奇) 后来驱动也成功更新了,也用了该现象的测试方法,不再出现该问题。 基本上定性为 驱动 影响了带宽 现象 速率慢也可以使用清空 buff/cache 来解决! 贴下型号: 华为 2288H V5 比较新的设备(2018年10月还是11月出厂的) 网卡信息:Ethernet controller: Broadcom Limited NetXtreme II BCM57800 1/10 Gigabit Ethernet