Master Node always goes down overnight or randomly during the day #11528

sbhadr · 2025-01-07T03:29:33Z

sbhadr
Jan 7, 2025

I have a cluster:

$ kubectl get nodes
NAME                STATUS   ROLES                       AGE   VERSION
k3spi-ai-worker-1   Ready    worker                      17d   v1.31.4+k3s1
k3spi-master-1      Ready    control-plane,etcd,master   22d   v1.31.4+k3s1
k3spi-worker-1      Ready    worker                      20d   v1.31.3+k3s1
k3spi-worker-2      Ready    worker                      20d   v1.31.3+k3s1
k3spi-worker-3      Ready    worker                      20d   v1.31.3+k3s1

All of these are 8GB Raspberry Pi 5s (except k3spi-ai-worker-1: spec'd out PC running ubuntu server) that run Raspbian OS Lite 64-bit.

k3spi-master-1 boots from an external SSD connected via USB. There's no microSD card attached. It's just an external SSD.

root@k3spi-master-1:~# lsblk
NAME   MAJ:MIN RM   SIZE RO TYPE MOUNTPOINTS
sda      8:0    0   1.8T  0 disk 
├─sda1   8:1    0   512M  0 part /boot/firmware
├─sda2   8:2    0 238.2G  0 part /
└─sda3   8:3    0   1.6T  0 part /mnt/ssd1

These are the pods that are running on the cluster as whole:

$ kubectl get pods -A
NAMESPACE             NAME                                                              READY   STATUS      RESTARTS         AGE
cattle-fleet-system   fleet-agent-0                                                     2/2     Running     0                19d
cattle-system         cattle-cluster-agent-869d89d87b-hvwv7                             1/1     Running     157 (12h ago)    3d7h
cattle-system         cattle-cluster-agent-869d89d87b-wrmnt                             1/1     Running     222 (39m ago)    3d7h
cattle-system         rancher-webhook-6754f6dd84-tmrhr                                  1/1     Running     0                19d
cattle-system         system-upgrade-controller-5fb67f585d-sk5dl                        1/1     Running     5 (38m ago)      3d4h
cert-manager          cert-manager-b6fd485d9-8vbvt                                      1/1     Running     10 (40m ago)     20d
cert-manager          cert-manager-cainjector-dcc5966bc-lqfcf                           1/1     Running     2290 (38m ago)   20d
cert-manager          cert-manager-webhook-dfb76c7bd-tlnzc                              1/1     Running     0                20d
gpu-operator          gpu-feature-discovery-5fwjm                                       1/1     Running     0                2d6h
gpu-operator          gpu-operator-1734725745-node-feature-discovery-gc-64b45b99vcgpl   1/1     Running     0                2d6h
gpu-operator          gpu-operator-1734725745-node-feature-discovery-master-5b995ln5m   1/1     Running     0                2d6h
gpu-operator          gpu-operator-1734725745-node-feature-discovery-worker-64zgp       1/1     Running     5 (39m ago)      11h
gpu-operator          gpu-operator-1734725745-node-feature-discovery-worker-dmjdd       1/1     Running     7 (38m ago)      11h
gpu-operator          gpu-operator-1734725745-node-feature-discovery-worker-pzsl8       1/1     Running     5 (38m ago)      11h
gpu-operator          gpu-operator-1734725745-node-feature-discovery-worker-zkxjk       1/1     Running     319 (39m ago)    3d4h
gpu-operator          gpu-operator-845475586c-t2b4c                                     1/1     Running     6 (39m ago)      11h
gpu-operator          nvidia-container-toolkit-daemonset-4wdkg                          1/1     Running     0                2d6h
gpu-operator          nvidia-cuda-validator-x7hwp                                       0/1     Completed   0                2d6h
gpu-operator          nvidia-dcgm-exporter-rdmjv                                        1/1     Running     1                2d6h
gpu-operator          nvidia-device-plugin-daemonset-9tx66                              1/1     Running     1 (2d6h ago)     2d6h
gpu-operator          nvidia-driver-daemonset-qrckt                                     1/1     Running     2 (2d6h ago)     17d
gpu-operator          nvidia-operator-validator-wnckt                                   1/1     Running     0                2d6h
kube-system           coredns-ccb96694c-k8hwc                                           1/1     Running     5 (38m ago)      2d6h
kube-system           local-path-provisioner-5cf85fd84d-sdgtg                           1/1     Running     0                19d
kube-system           metrics-server-5d6f45946-djgps                                    1/1     Running     0                17d
kube-system           svclb-traefik-44d1004c-6fmpq                                      2/2     Running     0                3d3h
kube-system           svclb-traefik-44d1004c-cnwl2                                      2/2     Running     0                3d3h
kube-system           svclb-traefik-44d1004c-jkjmc                                      2/2     Running     4 (2d6h ago)     3d3h
kube-system           svclb-traefik-44d1004c-vhwlk                                      2/2     Running     0                3d3h
kube-system           traefik-cc8d6bbc7-gpmql                                           1/1     Running     5 (38m ago)      2d6h
longhorn-system       csi-attacher-84cc666656-b4hgh                                     1/1     Running     0                3d4h
longhorn-system       csi-attacher-84cc666656-fhxvb                                     1/1     Running     0                2d6h
longhorn-system       csi-attacher-84cc666656-wbfqg                                     1/1     Running     6 (40m ago)      3d4h
longhorn-system       csi-provisioner-6d58668546-2h9pv                                  1/1     Running     4 (170m ago)     3d4h
longhorn-system       csi-provisioner-6d58668546-g8jxl                                  1/1     Running     2 (40m ago)      2d6h
longhorn-system       csi-provisioner-6d58668546-wx4mh                                  1/1     Running     0                3d4h
longhorn-system       csi-resizer-5b7d7b8555-cch6c                                      1/1     Running     3 (40m ago)      3d4h
longhorn-system       csi-resizer-5b7d7b8555-pc68g                                      1/1     Running     0                2d6h
longhorn-system       csi-resizer-5b7d7b8555-w7rfz                                      1/1     Running     3 (32h ago)      3d4h
longhorn-system       csi-snapshotter-6899bb59cf-c8dcd                                  1/1     Running     1 (2d5h ago)     3d4h
longhorn-system       csi-snapshotter-6899bb59cf-jbxg5                                  1/1     Running     4 (40m ago)      2d6h
longhorn-system       csi-snapshotter-6899bb59cf-tw99p                                  1/1     Running     1 (43h ago)      3d4h
longhorn-system       engine-image-ei-acb7590c-2klrn                                    1/1     Running     2 (2d6h ago)     3d4h
longhorn-system       engine-image-ei-acb7590c-pm2l4                                    1/1     Running     0                3d4h
longhorn-system       engine-image-ei-acb7590c-srnt5                                    1/1     Running     0                3d4h
longhorn-system       engine-image-ei-acb7590c-x7td5                                    1/1     Running     0                3d4h
longhorn-system       instance-manager-8002223563018497aacbb78e2656ed39                 1/1     Running     0                2d6h
longhorn-system       instance-manager-8421ecd72b1f8f3c00f0373f1dbf71c4                 1/1     Running     0                16d
longhorn-system       instance-manager-9f69b6581b59b0494ed3abd90375fc28                 1/1     Running     0                16d
longhorn-system       instance-manager-bef14affc7c5231a5f35654cce9edf7b                 1/1     Running     0                16d
longhorn-system       longhorn-csi-plugin-65kwh                                         3/3     Running     0                3d4h
longhorn-system       longhorn-csi-plugin-htrpj                                         3/3     Running     0                3d4h
longhorn-system       longhorn-csi-plugin-pq8xb                                         3/3     Running     0                3d4h
longhorn-system       longhorn-csi-plugin-vlhms                                         3/3     Running     8 (2d6h ago)     3d4h
longhorn-system       longhorn-driver-deployer-659849db84-2wmpz                         1/1     Running     0                2d6h
longhorn-system       longhorn-manager-9zmlg                                            1/1     Running     0                3d4h
longhorn-system       longhorn-manager-crdxm                                            1/1     Running     0                3d4h
longhorn-system       longhorn-manager-m2whf                                            1/1     Running     2 (2d6h ago)     3d4h
longhorn-system       longhorn-manager-q984h                                            1/1     Running     0                3d4h
longhorn-system       longhorn-ui-7b45ff5477-gw2h7                                      1/1     Running     0                3d4h
longhorn-system       longhorn-ui-7b45ff5477-ttz2x                                      1/1     Running     0                3d4h

I added a taint to k3spi-master-1:

$ kubectl describe node k3spi-master-1 | grep Taints
Taints:             node-role.kubernetes.io/master=effect:NoSchedule

I made sure that no pods were running on k3spi-master-1 directly outside of essential stuff:

$ kubectl get pods -A -o wide
NAMESPACE             NAME                                                              READY   STATUS      RESTARTS         AGE    IP           NODE                NOMINATED NODE   READINESS GATES
cattle-fleet-system   fleet-agent-0                                                     2/2     Running     0                19d    10.42.3.6    k3spi-worker-2      <none>           <none>
cattle-system         cattle-cluster-agent-869d89d87b-hvwv7                             1/1     Running     157 (12h ago)    3d7h   10.42.4.27   k3spi-worker-3      <none>           <none>
cattle-system         cattle-cluster-agent-869d89d87b-wrmnt                             1/1     Running     222 (42m ago)    3d7h   10.42.1.52   k3spi-worker-1      <none>           <none>
cattle-system         rancher-webhook-6754f6dd84-tmrhr                                  1/1     Running     0                19d    10.42.4.6    k3spi-worker-3      <none>           <none>
cattle-system         system-upgrade-controller-5fb67f585d-sk5dl                        1/1     Running     5 (41m ago)      3d4h   10.42.0.41   k3spi-master-1      <none>           <none>
cert-manager          cert-manager-b6fd485d9-8vbvt                                      1/1     Running     10 (43m ago)     20d    10.42.4.3    k3spi-worker-3      <none>           <none>
cert-manager          cert-manager-cainjector-dcc5966bc-lqfcf                           1/1     Running     2290 (41m ago)   20d    10.42.3.3    k3spi-worker-2      <none>           <none>
cert-manager          cert-manager-webhook-dfb76c7bd-tlnzc                              1/1     Running     0                20d    10.42.3.4    k3spi-worker-2      <none>           <none>
gpu-operator          gpu-feature-discovery-5fwjm                                       1/1     Running     0                2d6h   10.42.5.91   k3spi-ai-worker-1   <none>           <none>
gpu-operator          gpu-operator-1734725745-node-feature-discovery-gc-64b45b99vcgpl   1/1     Running     0                2d6h   10.42.1.61   k3spi-worker-1      <none>           <none>
gpu-operator          gpu-operator-1734725745-node-feature-discovery-master-5b995ln5m   1/1     Running     0                2d6h   10.42.1.64   k3spi-worker-1      <none>           <none>
gpu-operator          gpu-operator-1734725745-node-feature-discovery-worker-64zgp       1/1     Running     5 (42m ago)      12h    10.42.4.40   k3spi-worker-3      <none>           <none>
gpu-operator          gpu-operator-1734725745-node-feature-discovery-worker-dmjdd       1/1     Running     7 (41m ago)      12h    10.42.1.66   k3spi-worker-1      <none>           <none>
gpu-operator          gpu-operator-1734725745-node-feature-discovery-worker-pzsl8       1/1     Running     5 (41m ago)      12h    10.42.3.34   k3spi-worker-2      <none>           <none>
gpu-operator          gpu-operator-1734725745-node-feature-discovery-worker-zkxjk       1/1     Running     319 (42m ago)    3d4h   10.42.5.89   k3spi-ai-worker-1   <none>           <none>
gpu-operator          gpu-operator-845475586c-t2b4c                                     1/1     Running     6 (42m ago)      12h    10.42.5.98   k3spi-ai-worker-1   <none>           <none>
gpu-operator          nvidia-container-toolkit-daemonset-4wdkg                          1/1     Running     0                2d6h   10.42.5.94   k3spi-ai-worker-1   <none>           <none>
gpu-operator          nvidia-cuda-validator-x7hwp                                       0/1     Completed   0                2d6h   10.42.5.97   k3spi-ai-worker-1   <none>           <none>
gpu-operator          nvidia-dcgm-exporter-rdmjv                                        1/1     Running     1                2d6h   10.42.5.93   k3spi-ai-worker-1   <none>           <none>
gpu-operator          nvidia-device-plugin-daemonset-9tx66                              1/1     Running     1 (2d6h ago)     2d6h   10.42.5.90   k3spi-ai-worker-1   <none>           <none>
gpu-operator          nvidia-driver-daemonset-qrckt                                     1/1     Running     2 (2d6h ago)     17d    10.42.5.87   k3spi-ai-worker-1   <none>           <none>
gpu-operator          nvidia-operator-validator-wnckt                                   1/1     Running     0                2d6h   10.42.5.92   k3spi-ai-worker-1   <none>           <none>
kube-system           coredns-ccb96694c-k8hwc                                           1/1     Running     5 (41m ago)      2d6h   10.42.0.42   k3spi-master-1      <none>           <none>
kube-system           local-path-provisioner-5cf85fd84d-sdgtg                           1/1     Running     0                19d    10.42.1.26   k3spi-worker-1      <none>           <none>
kube-system           metrics-server-5d6f45946-djgps                                    1/1     Running     0                17d    10.42.4.15   k3spi-worker-3      <none>           <none>
kube-system           svclb-traefik-44d1004c-6fmpq                                      2/2     Running     0                3d4h   10.42.3.32   k3spi-worker-2      <none>           <none>
kube-system           svclb-traefik-44d1004c-cnwl2                                      2/2     Running     0                3d4h   10.42.4.36   k3spi-worker-3      <none>           <none>
kube-system           svclb-traefik-44d1004c-jkjmc                                      2/2     Running     4 (2d6h ago)     3d4h   10.42.5.79   k3spi-ai-worker-1   <none>           <none>
kube-system           svclb-traefik-44d1004c-vhwlk                                      2/2     Running     0                3d4h   10.42.1.59   k3spi-worker-1      <none>           <none>
kube-system           traefik-cc8d6bbc7-gpmql                                           1/1     Running     5 (41m ago)      2d6h   10.42.0.40   k3spi-master-1      <none>           <none>
longhorn-system       csi-attacher-84cc666656-b4hgh                                     1/1     Running     0                3d4h   10.42.1.55   k3spi-worker-1      <none>           <none>
longhorn-system       csi-attacher-84cc666656-fhxvb                                     1/1     Running     0                2d6h   10.42.3.33   k3spi-worker-2      <none>           <none>
longhorn-system       csi-attacher-84cc666656-wbfqg                                     1/1     Running     6 (43m ago)      3d4h   10.42.4.28   k3spi-worker-3      <none>           <none>
longhorn-system       csi-provisioner-6d58668546-2h9pv                                  1/1     Running     4 (173m ago)     3d4h   10.42.1.53   k3spi-worker-1      <none>           <none>
longhorn-system       csi-provisioner-6d58668546-g8jxl                                  1/1     Running     2 (43m ago)      2d6h   10.42.4.37   k3spi-worker-3      <none>           <none>
longhorn-system       csi-provisioner-6d58668546-wx4mh                                  1/1     Running     0                3d4h   10.42.3.26   k3spi-worker-2      <none>           <none>
longhorn-system       csi-resizer-5b7d7b8555-cch6c                                      1/1     Running     3 (43m ago)      3d4h   10.42.4.29   k3spi-worker-3      <none>           <none>
longhorn-system       csi-resizer-5b7d7b8555-pc68g                                      1/1     Running     0                2d6h   10.42.1.62   k3spi-worker-1      <none>           <none>
longhorn-system       csi-resizer-5b7d7b8555-w7rfz                                      1/1     Running     3 (32h ago)      3d4h   10.42.3.27   k3spi-worker-2      <none>           <none>
longhorn-system       csi-snapshotter-6899bb59cf-c8dcd                                  1/1     Running     1 (2d5h ago)     3d4h   10.42.3.24   k3spi-worker-2      <none>           <none>
longhorn-system       csi-snapshotter-6899bb59cf-jbxg5                                  1/1     Running     4 (43m ago)      2d6h   10.42.1.65   k3spi-worker-1      <none>           <none>
longhorn-system       csi-snapshotter-6899bb59cf-tw99p                                  1/1     Running     1 (43h ago)      3d4h   10.42.4.30   k3spi-worker-3      <none>           <none>
longhorn-system       engine-image-ei-acb7590c-2klrn                                    1/1     Running     2 (2d6h ago)     3d4h   10.42.5.84   k3spi-ai-worker-1   <none>           <none>
longhorn-system       engine-image-ei-acb7590c-pm2l4                                    1/1     Running     0                3d4h   10.42.3.29   k3spi-worker-2      <none>           <none>
longhorn-system       engine-image-ei-acb7590c-srnt5                                    1/1     Running     0                3d4h   10.42.4.34   k3spi-worker-3      <none>           <none>
longhorn-system       engine-image-ei-acb7590c-x7td5                                    1/1     Running     0                3d4h   10.42.1.57   k3spi-worker-1      <none>           <none>
longhorn-system       instance-manager-8002223563018497aacbb78e2656ed39                 1/1     Running     0                2d6h   10.42.5.95   k3spi-ai-worker-1   <none>           <none>
longhorn-system       instance-manager-8421ecd72b1f8f3c00f0373f1dbf71c4                 1/1     Running     0                16d    10.42.1.46   k3spi-worker-1      <none>           <none>
longhorn-system       instance-manager-9f69b6581b59b0494ed3abd90375fc28                 1/1     Running     0                16d    10.42.3.19   k3spi-worker-2      <none>           <none>
longhorn-system       instance-manager-bef14affc7c5231a5f35654cce9edf7b                 1/1     Running     0                16d    10.42.4.23   k3spi-worker-3      <none>           <none>
longhorn-system       longhorn-csi-plugin-65kwh                                         3/3     Running     0                3d4h   10.42.1.56   k3spi-worker-1      <none>           <none>
longhorn-system       longhorn-csi-plugin-htrpj                                         3/3     Running     0                3d4h   10.42.3.30   k3spi-worker-2      <none>           <none>
longhorn-system       longhorn-csi-plugin-pq8xb                                         3/3     Running     0                3d4h   10.42.4.33   k3spi-worker-3      <none>           <none>
longhorn-system       longhorn-csi-plugin-vlhms                                         3/3     Running     8 (2d6h ago)     3d4h   10.42.5.88   k3spi-ai-worker-1   <none>           <none>
longhorn-system       longhorn-driver-deployer-659849db84-2wmpz                         1/1     Running     0                2d6h   10.42.1.60   k3spi-worker-1      <none>           <none>
longhorn-system       longhorn-manager-9zmlg                                            1/1     Running     0                3d4h   10.42.3.28   k3spi-worker-2      <none>           <none>
longhorn-system       longhorn-manager-crdxm                                            1/1     Running     0                3d4h   10.42.4.31   k3spi-worker-3      <none>           <none>
longhorn-system       longhorn-manager-m2whf                                            1/1     Running     2 (2d6h ago)     3d4h   10.42.5.83   k3spi-ai-worker-1   <none>           <none>
longhorn-system       longhorn-manager-q984h                                            1/1     Running     0                3d4h   10.42.1.54   k3spi-worker-1      <none>           <none>
longhorn-system       longhorn-ui-7b45ff5477-gw2h7                                      1/1     Running     0                3d4h   10.42.4.32   k3spi-worker-3      <none>           <none>
longhorn-system       longhorn-ui-7b45ff5477-ttz2x                                      1/1     Running     0                3d4h   10.42.3.25   k3spi-worker-2      <none>           <none>

For a while, everything was running smoothly. I installed longhorn and I noticed some issues. I figured it was because ETCD and longhorn were fighting for disk contention. I added a taint so that no longhorn pods can be added to the master node. I also, made sure that only k3spi-ai-worker-1 could handle all longhorn related tasks / actions because it's where all the external drives are hosted and is a much beefier machine than the rest.

However, lately, things have been interesting. Every day (overnight or after X hours), the master node will go down. This makes the cluster become unavailable on Rancher (hosted on a separate cluster) and causes kubectl to fail to reach the cluster. In addition, the Raspberry Pi goes into Read-only mode and begins to freeze. All services (ssh, running commands, etc) are no longer possible.

This is the only logs that it shows on the output of the actual master node / pi when I connect it to a monitor:

rootek3spi-master-1:*# [25853.581274] EXT4-fs error (device sda2) in ext_reserve_inode _write:5787: Journal has aborted

[25853.5813031 EXT4-fs

error (device sda2): ext_dirty_inode:5991: inode #127244: comm systend-timesyn: mark_inode dirty error

[25853.581641]

EXT4-fs

error (device sda2): ext4_journal_check_start:84: conn systend-journal: Detected aborted journal

[25853.612034]

EXT4-fs

(sda2): Remounting filesystem read-only

[25853.651890] EXT4-fs

(sda3): shut down requested (2)

I've tried to restore / fix that partition / drive and it usually shows as restoring / fix to be successful and works fine. Up until this error shows up again. When I restart the pi, the previous error has no real effect on the pi's operations until the pi goes into lockout mode.

The master node appears and feels locked out. Rebooting it from the command line is not possible and when I try to log into the pi itself (non-ssh), it accepts my username but hangs indefinitely when I press enter.

The only way to get the cluster / master node back online is to take the USB-C power cable, disconnect and then, reconnect to turn on the master node again.

This fixes the issue for X hours until it happens again.

This is way out of my expertise to fix. Wondering if anyone else has encountered / knows a direction on how to fix this.

brandond · 2025-01-07T03:41:12Z

brandond
Jan 7, 2025
Collaborator

the Raspberry Pi goes into Read-only mode and begins to freeze. All services (ssh, running commands, etc) are no longer possible.
error (device sda2): ext_dirty_inode:5991: inode #127244: comm systend-timesyn: mark_inode dirty error

This is a kernel or hardware failure. Have you tried a different brand of USB SSD controller or drive? I have a pi 4b that has been running in this configuration for several years.

2 replies

sbhadr Jan 7, 2025
Author

It's a SanDisk 2TB Extreme Portable SSD .

Never had issues with it up until this point. Any recommendations?

brandond Jan 7, 2025
Collaborator

Don't consider this an endorsement, but I'm using these and Samsung NVME drives.
https://www.amazon.com/gp/aw/d/B08G14NBCS

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Master Node always goes down overnight or randomly during the day #11528

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 1 comment 2 replies

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

Select a reply

Master Node always goes down overnight or randomly during the day #11528

sbhadr Jan 7, 2025

Replies: 1 comment · 2 replies

brandond Jan 7, 2025 Collaborator

sbhadr Jan 7, 2025 Author

brandond Jan 7, 2025 Collaborator

sbhadr
Jan 7, 2025

Replies: 1 comment 2 replies

brandond
Jan 7, 2025
Collaborator

sbhadr Jan 7, 2025
Author

brandond Jan 7, 2025
Collaborator