ハイライト
- ビルド時間が90%短縮:Docker BuildxとQEMUエミュレーションをDocker Build CloudとセルフホストのGitHubランナーに置き換えることで達成され、マルチアーキテクチャのビルド時間が以前の構成と比較して90%短縮されました。
- リードタイムの50%削減:変更のリードタイムと復元時間のDORAメトリックを約50%改善しました。
- MTTD と MTTR の30% の高速化: 平均検出時間 (MTTD) と平均解決時間 (MTTR) が約 30% 短縮され、さらなる最適化により最大 5060% の改善が見込まれます。
「Docker Build Cloud は、ビルド時間を 90% 短縮するのに役立ちました。以前は、QEMU エミュレーションの処理に追われ、すべてが遅くなりましたが、今では昼と夜の違いがあります。」 – ニール・パテル、Siimpl
概要
東海岸を拠点とする大手サイバーセキュリティ企業は、規模が拡大するにつれて深刻なパフォーマンスのボトルネックに直面し、増大するクライアントの需要に対応する能力が脅かされました。クラウドファーストのソリューションプロバイダーであるSiimplは、サイバーセキュリティ企業がDORA(DevOps Research and Assessment)メトリック(変更のリードタイムや復元までの時間など)を改善するためのソリューションを実装するのを支援しました。
デジタル資産の保護で知られるサイバーセキュリティ企業は、いくつかの運用上の非効率性に直面していました。これらの課題の根源は、古いインフラストラクチャと不整合な開発環境にありました。会社が成長するにつれて、そのシステムは増大する需要に対応するのに苦労し、環境がバラバラになり、構築プロセスが遅くなり、拡大する運用の複雑さに合わせて設計されていない信頼性の低いインシデント対応メカニズムが発生しました。
問題の特定からソリューションの実装までの道のりは、戦略的なイノベーションと技術的な専門知識を浮き彫りにします。Siimpl の Neal Patel 氏は、「これらの障害を踏み台に変えることができ、全体的なパフォーマンスと安定性を向上させることができました」と説明しています。
課題
サイバーセキュリティにおける運用上のハードルの克服
効率的な開発とデプロイ
大きな問題の 1 つは、開発者の環境と CI/CD パイプライン間の同期が進んだことです。この断絶により、エンジニアは自信を持って変更をテストすることが難しくなり、デプロイプロセスが遅くて面倒になりました。デプロイ プロセスは時間がかかり、各デプロイが完了するまでに最大 2 時間かかりました。エンジニアは、開発環境間でテストに一貫性がないために遅延に直面することがよくあり、開発から本番環境へのコード取得のボトルネックとなっていました。その結果、開発チーム、QAチーム、運用チーム全員が影響を受け、フラストレーションが溜まり、生産性が低下しました。
このミスアライメントは、主要なDORA指標、特に開発効率の測定に重要な変更のリードタイムと復元までの時間に悪影響を及ぼしました。同社は、ワークフローを合理化し、生産性を向上させるために、開発、テスト、生産の各段階にわたってシームレスで一貫性のある環境を必要としていました。
信頼性の高いインシデント対応
もう 1 つの大きな課題は、デプロイの問題中に安定バージョンに迅速にロールバックできないことでした。同社の既存のコンテナインフラストラクチャは、効率的なロールバックのために最適化されていませんでした。適切に自動化されたコンテナのバージョン管理システムがなければ、安定したビルドに戻すには手動の介入が必要であり、インシデント対応が遅くなり、ダウンタイムが長引いていました。
デプロイメントの問題に続く混沌とした瞬間に、チームは以前の安定バージョンに迅速に戻すのに苦労し、 99を達成するという彼らの目標を脅かしました。99% の稼働時間。迅速かつ効率的なロールバックのための堅牢なインフラストラクチャを確立することは、システムの信頼性を維持し、ダウンタイムを最小限に抑えるために不可欠でした。
包括的なテレメトリー
3つ目の課題は、テレメトリとオブザーバビリティに関するものでした。サイト信頼性エンジニアリング (SRE) チームがテレメトリの収集と公開を実装するための努力にもかかわらず、導入が不十分なため、導入されたツールは最終的に効果的ではありませんでした。このシステムは、断片化された古いツールに依存しており、手動設定が多すぎたため、開発者はそれらをワークフローに完全に統合することを思いとどまらせていました。
その結果、同社は問題の検出と解決が遅れ、ビジネスとクライアントのリスクが増大しました。これに対処するために、テレメトリ設定を標準化し、自動インストルメンテーションライブラリのセットアップを簡素化する必要がありました。これにより、開発者のエクスペリエンスが向上し、実用的なアラートが可能になり、平均検出時間 (MTTD) と平均解決時間 (MTTR) が短縮されます。
解決
運用を最適化するための適切なツール
サイバーセキュリティ企業の課題に対処するために、Siimpl は Docker Build Cloud と GitHub Actions を中心とした戦略的ソリューションを実装しました。これらの的を絞った介入により、開発ワークフローが合理化され、ビルド時間が短縮され、インシデント対応の信頼性が安定し、組織全体のテレメトリと可観測性が向上しました。
セルフホステッド GitHub ランナーと Docker Build Cloud を使用した CI/CD 構成
当初、同社のCI/CDパイプラインは ドッカービルドス そして QEMUの さまざまなアーキテクチャをエミュレートし、ビルド時間を大幅に遅らせます。Docker Build Cloudの採用により、実装はさらに改善されました。ローカルビルドの最適化は、開発者のローカルチップアーキテクチャによってボトルネックになっていますが、Docker Build Cloudを使用すると、Dockerエンジンをリモートビルダーとシームレスに統合できます。これにより、開発者は最小限のオーバーヘッドでネイティブアーキテクチャのビルド速度を活用できます。
「Docker Build Cloud を使えば、ローカルのハードウェアが足かせになる心配はありません。開発者は、さまざまなアーキテクチャ間でネイティブにビルドしてテストでき、そのまま機能します」と Patel 氏は言います。Siimpl の実装に関する具体的な詳細を見つける GitHubリポジトリ.
SemVer タグ付きコンテナを活用して簡単にロールバック
デプロイの予測不可能な性質により、多くの場合、迅速なロールバックが必要でした。Siimplは、 セマンティック バージョニング (SemVer) タグ付け戦略を使用して、コンテナイメージを管理します。このアプローチにより、問題が発生したときに以前の安定バージョンにすばやく戻すことができ、ダウンタイムを最小限に抑えることができました。DevOps チームは、AWS CLI コマンドを使用して自動ジョブを設定し、Amazon Elastic Container Service (Amazon ECS) サービスを目的のイメージタグで更新し、迅速な復旧と運用の中断を最小限に抑えました。
テレメトリデータを集約して公開するための Amazon ECS でのサイドカーコンテナの設定
テレメトリの課題に対処するため、Siimpl は Terraform モジュールを使用して、クライアントのインフラストラクチャに広範な設定を組み込みました。サイドカーコンテナは、アプリケーションコンテナからテレメトリデータを集約して公開する OpenTelemetry (OTel) コレクタを実行するために、Amazon ECS タスク定義で定義されていました。このセットアップにより、テレメトリ コレクターがランタイム コンテナーから分離され、テレメトリの失敗時でもアプリケーションの安定性が確保されました。
かつ マルチステージビルド Dockerfilesで構成されたDockerfilesは、クライアントのNode.jsマイクロサービス全体で自動インストルメンテーションライブラリの初期化を標準化するために使用され、クリーンで効率的なイメージが得られました。「私たちは、テレメトリーシステムに問題が発生した場合でも、メインアプリケーションの安定性を保つためにサイドカーコンテナを構成しました」とPatel氏は言います。
タスク定義の例
多段階のビルドを実装することで、チームはさまざまなビルド プロセスに効率的に取り組むことができました。これらの Dockerfile は、ビルド環境をランタイムから分離し、イメージがクリーンで最適化されていることを保証しました。このプロセスでは、ビルド中にOpenTelemetryライブラリをインストールし、実行時にそれらをコピーすることで、アプリケーション間で一貫性のある信頼性の高いワークフローを提供しました。
主な利点
Siimplが実装したソリューションは、いくつかの主要な機能を導入することで、サイバーセキュリティ企業の課題に対処しました。これらの機能により、当面の問題が解決され、より効率的で堅牢なエンジニアリング運用の基礎が築かれました。
業績
オペレーショナルエクセレンスの達成
Siimplが導入したソリューションは、主要な技術的課題を解決し、ビジネスチームと開発チーム全体で顕著な改善を推進しました。これらの変更により、開発サイクルの短縮、システムの信頼性の向上、運用の円滑化が実現しました。
最も大きな影響の 1 つは、Docker Build Cloud のリモート ビルダーとセルフホストの GitHub ランナーに切り替えることで、ローカル ビルド時間が 90% 短縮されたことです。エンジニアは、マルチアーキテクチャ環境で自信を持ってコードをテストおよびデプロイできるようになり、Docker BuildxとQEMUエミュレーションによる以前の遅延から解放されました。ビルドの高速化により、開発チームは CI/CD パイプラインで直面するボトルネックが減り、イテレーションが高速化され、新機能の顧客への提供が迅速化されました。
コンテナイメージにセマンティックバージョニング(SemVer)を実装することで、ダウンタイムの大きな原因となっていたデプロイの問題中に、安定したバージョンにすばやく戻すことが可能になりました。ビジネスにとって、ダウンタイムを最小限に抑える能力—会社が 99の目標を達成するのに役立ちます。99% uptime — サービスの信頼性が向上し、顧客への悪影響のリスクが軽減されました。「Docker のコンテナを使用すると、ロールバックの自動化が非常に簡単になりました」と Patel 氏は説明します。「今では、問題が発生したときに、チームは多くの手作業なしで迅速に復旧できます。これにより、ダウンタイムが大幅に削減されます。」さらに、AWS CLI の自動化により、復旧プロセスがさらに合理化され、ロールバック戦略が効率的で信頼性の高いものになりました。
Siimpl は、サイドカー コンテナと OpenTelemetry コレクターを使用して、以前は断片化されていたテレメトリとシステムの可観測性の向上に貢献しました。開発者は、システムの健全性に関するリアルタイムの洞察を得ることができ、問題をより迅速に検出して解決できるようになりました。その結果、平均検出時間(MTTD)と平均解決時間(MTTR)が 30%短縮され、アラートのチューニングと自動化により最大 50〜60%のさらなる最適化が可能になりました。オブザーバビリティの向上により、インシデントが減り、復旧時間が短縮されたため、顧客の混乱が減り、よりプロアクティブなシステム監視が可能になりました。「バージョン管理にDockerを使用することで、時間を大幅に節約できました。ほぼ瞬時に安定版にロールバックできるため、 99にとどまることが重要です。99% の稼働時間です」と Patel 氏は言います。
これらの変更の影響は、組織全体で非常に貴重です。お客様は、機能リクエストがリリースされるペースに満足しています。製品チームは、改善されたロールバック戦略とターゲットを絞ったアラートのおかげで、エンジニアリングチームに対する信頼を深めています。エンジニアは、オブザーバビリティのためのインストルメンテーションの容易さとビルド時間の改善に興奮しています。
Siimplについて:Siimplは、先見の明のあるビジネスに効率的で高品質のソフトウェアソリューションを提供します。マイクロサービスアーキテクチャ、API設計、自動化を専門としており、最新のクラウド/オンプレミス環境に関する専門知識を持っています。当社の世界クラスの開発者は、インフラストラクチャの継続的デリバリーと統合に優れており、多数のテクノロジーとプラットフォームに精通しています。マイクロソフトとアマゾンの元エンジニアからなるコアチームにより、スタートアップの俊敏性と大企業の経験を提供し、シームレスな統合と革新的なソリューションを実現しています。
詳細については、 siimpl.io またはお問い合わせください solutions@siimpl.io