본문 바로가기
Network TroubleShooting/트러블 슈팅 썰

It's the network!

by Hell0 IT 2023. 4. 25.

오랜만에 진짜 네트워크가 문제였던 상황

본인 관리범위가 아니지만 윗분들 사정에 의해 끌려들어가서 보고 있는 어른이의 사정.

 

○ 발단 그리고 현상

      VDI 교체 상황에 많은 이슈들이 있다.

      주 현상에 대해 원인 분석을 하다 VDI 내부 네트워크 구간에도 문제가 있음을 인지하게 되었다.

      VM에서 VM관리서버로 간헐적으로 1000ms 넘는 통신 지연이 발생한다.

      이 경로는 서비스 경로는 아니다.

      하지만 다른 이슈가 내부 네트워크 이슈로 인한 문제일 수 도 있으니 확인해야 한다.

      pinginfoview로 서버의 443 포트를 체크해 본 결과 아래와 같은 현상을 확인 할 수 있었다. 

왼쪽 잘 될 경우, 오른쪽 1000ms 넘는경우

        1000ms를 넘는 경우엔 SYN에 대한 SYN,ACK가 없어 약 1초후에 SYN 재전송이 발생하였다.

        재전송된 SYN에는 정상적으로 통신하며 결과적으로 1000ms가 넘는 지연이 보이게 되었던 것이다.

        원인을 유추하자면 아래와 같다.

        1. 네트워크 구간에서 유실

        2. 서버에서 무응답

 

○ Divide and Conquer

     문제가 있을 만한 구간을 나누어 보자.

     패킷 유실은 역시 패킷을 까봐야지

특별할 것 없는 대칭형 구조

     일단 서버에서 패킷을 지속적으로 뜰 수 있는 상황은 아니다.

     그래서 녹색 L3에서 방화벽과 녹색L2의 포트를 미러링하여 확인하였다.

     아니 왠걸 VM에서 1000ms가 넘는 통신 지연을 확인했는데도 SYN 재전송 패킷이 보이지 않는다.

     그럼 구간을 줄여서 봐야한다.

여기를 떠보자

     보고자 하는 구간을 재정의하여 파란색 L3에서 L2로 연결된 포트 그리고 방화벽으로 연결된 포트를 미러링하였다.

     그런데.... 방화벽 연결된 포트가 미러링 설정이 되지 않는다.

     에러 로그를 보니 방화벽은 L3의 FEX HIF에 연결되어 있었는데 HIF 미러링이 되지 않는다는것이다.

 

 

     의지의 한국인은 포기를 모르는 법이지

     L3과 방화벽 연결은 L2로 되어있다 그래서 L3와 방화벽이 연결된 vlan을 미러링하였다.

     그리고 방화벽도 패킷을 받았는지 확인이 필요해서 방화벽에서 미약하지만 있는 기능으로 패킷 캡쳐를 진행하였다.

     확인 결과....

     L3로 잘 들어왔고 L2 VLAN을 통해 방화벽으로 던진건 확인되었는데 정작 방화벽에서는 패킷이 보이지 않았다.

     그럼 뭐 스위치가 범인일 확률이 높아졌다.

       

○ 털어보자

      일단 네트워크 문제인데 정확하게 패킷이 방화벽으로 못 보내준게 L3인지 FEX인지 알 방법이 없다.

빨간색 범인들

      용의자가 둘인데 특정하려면 일단 패킷을 확실하게 미러링 할 방법을 찾아야 한다.

      그러다 문득 든 생각 "방화벽을 왜 FEX HIF에 연결했을까? L3에 그냥 붙이면 될 거 같은데..."

      VM 파트와 협의하여 방화벽을 L3로 직접 붙였다.

그래서 다시 처음 구성도 그림으로 돌아왔습니다~~~

     음... 깔끔한 구성도에서 다시 노란색 포인트를 패킷 미러링하였는데.

     그런데 현상이 발생하지 않는다.

     1초 간격으로 체크하고 있는데 만 하루가 지나도 현상이 발생하지 않는다.

     이전에는 짧게는 5분 길게는 1시간 내외에서 꼭 발생했는데... 이제 더 이상 발생하지 않는다.

○ 결론

      네트워크 문제임.

      FEX는 쓰는거 아님. 암튼 아님.

      원래 FEX에는 스위치 못 붙임.

      근데 방화벽, LB도 못 붙이게 해달라!

      그리고 옛날 FEX는 통신 이슈가 좀 있다. 요즘은 모르겠지만...

 

ExtraHop이 있었으면 금방 찾았을 문제이다.

하지만 없으니 내가 직접2..

댓글