LYON, FR, 69003 TOULOUSE, FR, 31000 ROUBAIX, FR, 59100 NANTES, FR, 44000 ROUBAIX, FR, 59100 ROUBAIX, FR, 59100 ROUBAIX, FR, 59100 ROUBAIX, FR, 59100
Senior SRE - Kubernetes managé
Au sein de votre équipe #OneTeam
-
Rejoindre la Product Unit Public Cloud et plus particulièrement l'équipe en charge de la conception, de l'évolution et de l'exploitation de notre offre Kubernetes managé. Vous intégrerez une équipe qui développe et opère une plateforme Kubernetes utilisée par un grand nombre de clients, reposant sur des infrastructures distribuées complexes. La fiabilité, la performance, la disponibilité, la sécurité et l'évolutivité sont les enjeux structurants de cette plateforme.
-
En tant que Site Reliability Engineer expérimenté, vous interviendrez au cœur du fonctionnement de la plateforme Kubernetes (control plane, controllers, reconciliation loops, API server, etcd) afin de garantir la stabilité et l'évolutivité du produit. Au sein d'OVHcloud, nous adoptons une approche de développement augmentée par l'IA, où l'IA générative est intégrée aux pratiques quotidiennes : conception, développement, tests, revue de code et documentation.
Vos principales responsabilités
-
Garantir la disponibilité, la performance et la résilience de la plateforme haute disponibilité.
-
Concevoir, faire évoluer et maintenir des architectures distribuées robustes, scalables et sécurisées.
-
Développer des mécanismes d'automatisation, de supervision et d'auto-remédiation (Infrastructure as Code, scripts, controllers Kubernetes).
-
Contribuer à l'industrialisation, à l'automatisation et à l'amélioration continue des mécanismes de fiabilité.
-
Définir et faire évoluer les pratiques de supervision, d'observabilité et d'AIOps (métriques, logs, alerting, tracing distribué, détection d'anomalies, corrélation d'événements et analyse prédictive).
-
Participer aux analyses d'incidents majeurs, implémenter les actions correctives durables et exploiter les capacités de l'IA pour accélérer l'identification des causes racines.
-
Intégrer la rotation d'astreinte de l'équipe afin d'assurer la continuité de service à nos clients (après une période de formation et de montée en compétence).
Votre futur impact
Dans 6 mois
-
Vous aurez pris vos marques au sein de la Product Unit Public Cloud. Vous comprendrez l'architecture de notre offre Kubernetes managé, ses spécificités techniques et les défis de scalabilité associés.
-
Vous aurez pleinement intégré l'approche de développement augmentée par l'IA, en utilisant quotidiennement l'IA générative pour la conception, le code ou la documentation.
-
Vous aurez commencé à contribuer activement à l'automatisation et à l'industrialisation des mécanismes de fiabilité de la plateforme.
-
Vous serez autonome sur le périmètre pour intégrer sereinement la rotation d'astreinte de l'équipe.
Et dans 1 an
-
Vous aurez joué un rôle clé dans l'évolution du control plane et des composants internes de notre offre Kubernetes pour soutenir la croissance de nos clients.
-
Vous aurez fait progresser nos pratiques d'AIOps et d'observabilité en mettant en place des systèmes avancés de détection d'anomalies et d'analyse prédictive.
-
Vous aurez optimisé nos processus de gestion des incidents majeurs grâce à l'orchestration de workflows autonomes et de chaînes agentiques.
-
Vous serez devenu un référent technique au sein de l'équipe, capable de guider les choix d'architectures distribuées complexes.
Compétences requises :
-
Vous possédez de solides connaissances des technologies IaaS (réseau, load balancing, etc.), des serveurs, du stockage, de la virtualisation et des infrastructures distribuées.
-
Vous maîtrisez l'environnement GNU/Linux (Debian like) et possédez une bonne connaissance du fonctionnement interne de Kubernetes (en tant que client ou administrateur).
-
Vous avez une expérience solide en automatisation d'infrastructure (Infrastructure as Code) et en scripting (Golang/Python, Bash).
-
Vous disposez de connaissances approfondies des principes de supervision, d'observabilité et des outils de tracing system.
-
Vous intégrez nativement les règles de sécurité informatique dans vos déploiements.
-
Vous êtes autonome, capable de vous adapter à un contexte technologique changeant et d'évoluer dans un environnement à forte criticité.
C'est un +
-
Vous avez déjà une expérience en prompt engineering et une bonne compréhension des principes des chaînes agentiques ou des workflows autonomes (orchestration d'agents, gestion d'outils/fonctions, boucles de rétroaction).
Senior SRE - Kubernetes managé
Au sein de votre équipe #OneTeam
-
Rejoindre la Product Unit Public Cloud et plus particulièrement l'équipe en charge de la conception, de l'évolution et de l'exploitation de notre offre Kubernetes managé. Vous intégrerez une équipe qui développe et opère une plateforme Kubernetes utilisée par un grand nombre de clients, reposant sur des infrastructures distribuées complexes. La fiabilité, la performance, la disponibilité, la sécurité et l'évolutivité sont les enjeux structurants de cette plateforme.
-
En tant que Site Reliability Engineer expérimenté, vous interviendrez au cœur du fonctionnement de la plateforme Kubernetes (control plane, controllers, reconciliation loops, API server, etcd) afin de garantir la stabilité et l'évolutivité du produit. Au sein d'OVHcloud, nous adoptons une approche de développement augmentée par l'IA, où l'IA générative est intégrée aux pratiques quotidiennes : conception, développement, tests, revue de code et documentation.
Vos principales responsabilités
-
Garantir la disponibilité, la performance et la résilience de la plateforme haute disponibilité.
-
Concevoir, faire évoluer et maintenir des architectures distribuées robustes, scalables et sécurisées.
-
Développer des mécanismes d'automatisation, de supervision et d'auto-remédiation (Infrastructure as Code, scripts, controllers Kubernetes).
-
Contribuer à l'industrialisation, à l'automatisation et à l'amélioration continue des mécanismes de fiabilité.
-
Définir et faire évoluer les pratiques de supervision, d'observabilité et d'AIOps (métriques, logs, alerting, tracing distribué, détection d'anomalies, corrélation d'événements et analyse prédictive).
-
Participer aux analyses d'incidents majeurs, implémenter les actions correctives durables et exploiter les capacités de l'IA pour accélérer l'identification des causes racines.
-
Intégrer la rotation d'astreinte de l'équipe afin d'assurer la continuité de service à nos clients (après une période de formation et de montée en compétence).
Votre futur impact
Dans 6 mois
-
Vous aurez pris vos marques au sein de la Product Unit Public Cloud. Vous comprendrez l'architecture de notre offre Kubernetes managé, ses spécificités techniques et les défis de scalabilité associés.
-
Vous aurez pleinement intégré l'approche de développement augmentée par l'IA, en utilisant quotidiennement l'IA générative pour la conception, le code ou la documentation.
-
Vous aurez commencé à contribuer activement à l'automatisation et à l'industrialisation des mécanismes de fiabilité de la plateforme.
-
Vous serez autonome sur le périmètre pour intégrer sereinement la rotation d'astreinte de l'équipe.
Et dans 1 an
-
Vous aurez joué un rôle clé dans l'évolution du control plane et des composants internes de notre offre Kubernetes pour soutenir la croissance de nos clients.
-
Vous aurez fait progresser nos pratiques d'AIOps et d'observabilité en mettant en place des systèmes avancés de détection d'anomalies et d'analyse prédictive.
-
Vous aurez optimisé nos processus de gestion des incidents majeurs grâce à l'orchestration de workflows autonomes et de chaînes agentiques.
-
Vous serez devenu un référent technique au sein de l'équipe, capable de guider les choix d'architectures distribuées complexes.
Compétences requises :
-
Vous possédez de solides connaissances des technologies IaaS (réseau, load balancing, etc.), des serveurs, du stockage, de la virtualisation et des infrastructures distribuées.
-
Vous maîtrisez l'environnement GNU/Linux (Debian like) et possédez une bonne connaissance du fonctionnement interne de Kubernetes (en tant que client ou administrateur).
-
Vous avez une expérience solide en automatisation d'infrastructure (Infrastructure as Code) et en scripting (Golang/Python, Bash).
-
Vous disposez de connaissances approfondies des principes de supervision, d'observabilité et des outils de tracing system.
-
Vous intégrez nativement les règles de sécurité informatique dans vos déploiements.
-
Vous êtes autonome, capable de vous adapter à un contexte technologique changeant et d'évoluer dans un environnement à forte criticité.
C'est un +
-
Vous avez déjà une expérience en prompt engineering et une bonne compréhension des principes des chaînes agentiques ou des workflows autonomes (orchestration d'agents, gestion d'outils/fonctions, boucles de rétroaction).