Google Cloud Well-Architected Framework의 안정성 핵심 요소는 Google Cloud에서 안정적인 워크로드를 설계, 배포, 관리하는 데 도움이 되는 원칙과 권장사항을 제공합니다.
이 문서는 클라우드 설계자, 개발자, 플랫폼 엔지니어, 관리자, 사이트 안정성 엔지니어를 대상으로 합니다.
신뢰성은 정의된 조건 내에서 의도한 기능을 일관되게 수행하고 중단 없는 서비스를 유지하는 시스템의 능력입니다. 안정성 권장사항으로는 중복, 내결함성 설계, 모니터링, 자동 복구 프로세스가 있습니다.
안정성의 일부인 복원력은 성능을 유지하면서 장애 또는 예기치 않은 중단을 견딜 수 있는 시스템 기능입니다.Google Cloud 멀티 리전 배포, 자동 백업, 재해 복구 솔루션과 같은 기능은 시스템의 복원력을 개선하는 데 도움이 될 수 있습니다.
안정성은 다음을 비롯한 여러 가지 이유로 클라우드 전략에 중요합니다.
- 최소한의 다운타임: 다운타임이 발생하면 수익 손실, 생산성 저하, 평판 손상으로 이어질 수 있습니다. 복원력이 우수한 아키텍처는 장애 발생 시 시스템이 계속 작동하거나 장애로부터 효율적으로 복구할 수 있도록 보장하는 데 도움이 될 수 있습니다.
- 향상된 사용자 환경: 사용자는 기술과의 원활한 상호작용을 기대합니다. 복원력이 우수한 시스템은 일관된 성능과 가용성을 유지하는 데 도움이 될 수 있으며, 수요가 많거나 예상치 못한 문제가 발생하더라도 안정적인 서비스를 제공합니다.
- 데이터 무결성: 장애가 발생하면 데이터 손실 또는 데이터 손상이 발생할 수 있습니다. 복원력이 우수한 시스템은 백업, 중복성, 복제와 같은 메커니즘을 구현하여 데이터를 보호하고 데이터의 정확성과 액세스 가능성을 유지합니다.
- 비즈니스 연속성: 비즈니스가 중요한 작업을 위해 기술을 사용합니다. 탄력적인 아키텍처는 치명적인 장애 발생 시 연속성을 보장하는 데 도움이 되므로 큰 중단 없이 비즈니스 기능을 지속하고 신속한 복구를 지원합니다.
- 규정 준수: 많은 산업에 시스템 가용성 및 데이터 보호에 대한 규제 요구사항이 있습니다. 복원력이 우수한 아키텍처는 시스템의 운영 및 보안을 보장하여 이러한 표준을 충족할 수 있습니다.
- 장기적 비용 절감: 복원력이 우수한 아키텍처에는 사전 투자가 필요하지만 복원력은 비용이 많이 드는 다운타임을 방지하고 사후 대응적인 수정을 방지하며 보다 효율적인 리소스 사용을 지원하여 시간이 지남에 따라 비용을 절감하는 데 도움이 될 수 있습니다.
조직 차원의 사고방식
시스템을 안정적으로 만들려면 계획과 확립된 전략이 필요합니다. 이 전략에는 다른 이니셔티브와 함께 안정성에 우선순위를 둘 수 있는 교육 및 권한이 포함되어야 합니다.
개발, 제품 관리, 운영, 플랫폼 엔지니어링, 사이트 안정성 엔지니어링 (SRE)을 포함한 전체 조직이 신뢰성을 책임져야 한다는 명확한 기대치를 설정합니다. 마케팅이나 영업과 같은 비즈니스 중심 그룹도 안정성에 영향을 줄 수 있습니다.
모든 팀은 애플리케이션의 안정성 목표와 위험을 이해해야 합니다. 팀은 이러한 요구사항을 책임져야 합니다. 안정성과 일반 제품 기능 개발 간의 충돌은 우선순위를 지정하고 이에 따라 에스컬레이션해야 합니다.
모든 직능과 팀에 걸쳐 안정성을 종합적으로 계획하고 관리하세요. 안정성 기본 요소를 포함하는 Cloud Center of Excellence (CCoE)를 설정하는 것이 좋습니다. 자세한 내용은 Cloud Center of Excellence를 통해 조직의 클라우드 여정 최적화를 참조하세요.
안정성 중점 영역
안정적인 시스템을 설계, 배포, 관리하기 위해 수행하는 활동은 다음과 같은 중점 영역으로 분류할 수 있습니다. 이 원칙에서 다루는 각각의 안정성 원칙과 권장사항은 이러한 중점 영역과 관련이 있습니다.
- 범위 지정: 시스템을 이해하려면 아키텍처에 관한 자세한 분석을 수행합니다. 구성요소, 작동 및 상호작용 방식, 데이터와 작업이 시스템을 통해 흐르는 방식, 잘못될 수 있는 요소를 이해해야 합니다. 잠재적인 장애, 병목 현상, 위험을 식별하여 이러한 문제를 완화하기 위한 조치를 취하는 데 도움을 줍니다.
- 관찰: 시스템 장애를 방지하려면 포괄적이고 지속적인 관찰 및 모니터링을 구현합니다. 이러한 관찰을 통해 트렌드를 이해하고 잠재적 문제를 사전에 식별할 수 있습니다.
- 응답: 장애로 인한 영향을 줄이려면 적절하게 대응하고 효율적으로 복구하세요. 자동 응답은 실패의 영향을 줄이는 데도 도움이 될 수 있습니다 계획을 세우고 제어하더라도 장애는 여전히 발생할 수 있습니다.
- 학습: 실패가 반복되지 않도록 하려면 각 경험을 통해 학습하고 적절한 조치를 취하세요.
핵심 원칙
Well-Architected Framework의 안정성 요소에 포함된 권장사항은 다음과 같은 핵심 원칙에 매핑됩니다.
- 사용자 환경 목표를 기반으로 안정성 정의
- 안정성을 위해 현실적인 목표 설정
- 리소스 중복성을 통한 가용성이 높은 시스템 빌드
- 수평 확장성 활용
- 관측 가능성을 사용하여 잠재적인 장애 감지
- 단계적 성능 저하를 위한 설계
- 장애 복구 테스트 실행
- 데이터 손실 복구 테스트 수행
- 철저한 사후 분석 수행
참여자
저자:
- 로라 하이얏트 | 엔터프라이즈 클라우드 설계자
- 호세 안드라데 | 엔터프라이즈 인프라 고객 엔지니어
- Gino Pelliccia | 수석 설계자
기타 참여자:
- 안드레스 레오나르도 마르티네스 오티즈 | 기술 프로그램 관리자
- 브라이언 쿠지아 | 엔터프라이즈 인프라 고객 엔지니어
- 다니엘 리 | 클라우드 보안 설계자
- 필리페 그라시오, 박사 | 고객 엔지니어
- 게리 하름슨 | 수석 설계자
- 저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자
- 마르완 알 샤위 | 파트너 고객 엔지니어
- 니콜라스 핀토우 | 고객 엔지니어, 애플리케이션 현대화 전문가
- 라디카 카나캄 | Cloud GTM 선임 프로그램 관리자
- 라이언 콕스 | 수석 설계자
- 사만다 헤 | 기술 문서 작성자
- 웨이드 홀름스 | 글로벌 솔루션 이사
- 자크 세일 | 네트워킹 전문가