Vous voulez contribuer à des projets uniques pour construire ensemble le cloud libre ? Allons-y !
Chez OVHcloud, nous sommes animés par la même volonté, celle de construire l’avenir ensemble pour défendre la liberté d’innover.

► Découvrez l’acteur majeur du cloud libre et responsable

DÉTAILS

CDI
IT, Technologie & Produit

LYON, FR, 69003 TOULOUSE, FR, 31000 ROUBAIX, FR, 59100 NANTES, FR, 44000 ROUBAIX, FR, 59100 ROUBAIX, FR, 59100 ROUBAIX, FR, 59100 ROUBAIX, FR, 59100

VOTRE MISSION

Senior SRE - Kubernetes managé

 

Au sein de votre équipe #OneTeam

  • Rejoindre la Product Unit Public Cloud et plus particulièrement l'équipe en charge de la conception, de l'évolution et de l'exploitation de notre offre Kubernetes managé. Vous intégrerez une équipe qui développe et opère une plateforme Kubernetes utilisée par un grand nombre de clients, reposant sur des infrastructures distribuées complexes. La fiabilité, la performance, la disponibilité, la sécurité et l'évolutivité sont les enjeux structurants de cette plateforme.

     

  • En tant que Site Reliability Engineer expérimenté, vous interviendrez au cœur du fonctionnement de la plateforme Kubernetes (control plane, controllers, reconciliation loops, API server, etcd) afin de garantir la stabilité et l'évolutivité du produit. Au sein d'OVHcloud, nous adoptons une approche de développement augmentée par l'IA, où l'IA générative est intégrée aux pratiques quotidiennes : conception, développement, tests, revue de code et documentation.

 

Vos principales responsabilités

  • Garantir la disponibilité, la performance et la résilience de la plateforme haute disponibilité.

  • Concevoir, faire évoluer et maintenir des architectures distribuées robustes, scalables et sécurisées.

  • Développer des mécanismes d'automatisation, de supervision et d'auto-remédiation (Infrastructure as Code, scripts, controllers Kubernetes).

  • Contribuer à l'industrialisation, à l'automatisation et à l'amélioration continue des mécanismes de fiabilité.

  • Définir et faire évoluer les pratiques de supervision, d'observabilité et d'AIOps (métriques, logs, alerting, tracing distribué, détection d'anomalies, corrélation d'événements et analyse prédictive).

  • Participer aux analyses d'incidents majeurs, implémenter les actions correctives durables et exploiter les capacités de l'IA pour accélérer l'identification des causes racines.

  • Intégrer la rotation d'astreinte de l'équipe afin d'assurer la continuité de service à nos clients (après une période de formation et de montée en compétence).

 

 

Votre futur impact

 

Dans 6 mois

  • Vous aurez pris vos marques au sein de la Product Unit Public Cloud. Vous comprendrez l'architecture de notre offre Kubernetes managé, ses spécificités techniques et les défis de scalabilité associés.

  • Vous aurez pleinement intégré l'approche de développement augmentée par l'IA, en utilisant quotidiennement l'IA générative pour la conception, le code ou la documentation.

  • Vous aurez commencé à contribuer activement à l'automatisation et à l'industrialisation des mécanismes de fiabilité de la plateforme.

  • Vous serez autonome sur le périmètre pour intégrer sereinement la rotation d'astreinte de l'équipe.

 

Et dans 1 an

  • Vous aurez joué un rôle clé dans l'évolution du control plane et des composants internes de notre offre Kubernetes pour soutenir la croissance de nos clients.

  • Vous aurez fait progresser nos pratiques d'AIOps et d'observabilité en mettant en place des systèmes avancés de détection d'anomalies et d'analyse prédictive.

  • Vous aurez optimisé nos processus de gestion des incidents majeurs grâce à l'orchestration de workflows autonomes et de chaînes agentiques.

  • Vous serez devenu un référent technique au sein de l'équipe, capable de guider les choix d'architectures distribuées complexes.

 

Compétences requises :

  • Vous possédez de solides connaissances des technologies IaaS (réseau, load balancing, etc.), des serveurs, du stockage, de la virtualisation et des infrastructures distribuées.

  • Vous maîtrisez l'environnement GNU/Linux (Debian like) et possédez une bonne connaissance du fonctionnement interne de Kubernetes (en tant que client ou administrateur).

  • Vous avez une expérience solide en automatisation d'infrastructure (Infrastructure as Code) et en scripting (Golang/Python, Bash).

  • Vous disposez de connaissances approfondies des principes de supervision, d'observabilité et des outils de tracing system.

  • Vous intégrez nativement les règles de sécurité informatique dans vos déploiements.

  • Vous êtes autonome, capable de vous adapter à un contexte technologique changeant et d'évoluer dans un environnement à forte criticité.

 

C'est un +

  • Vous avez déjà une expérience en prompt engineering et une bonne compréhension des principes des chaînes agentiques ou des workflows autonomes (orchestration d'agents, gestion d'outils/fonctions, boucles de rétroaction).

NOTRE PARCOURS DE RECRUTEMENT

1. Échange avec notre Talent Acquisition Specialist:  Magali
2. Entretien avec le Manager:  Francois

3. Cas pratique (si pertinent)
4. Rencontre avec un pair, un membre de l'équipe ou de la direction
5. Débriefing ensemble

NOS AVANTAGES ET BÉNÉFICES

✔︎ Une politique de télétravail hybride
✔︎ Un plan d'actionnariat salarié
✔︎ Un programme de reconnaissance de l'ancienneté
✔︎ Des subventions vacances et sport
✔︎ Berceau et crèche d'entreprise (selon site)

Mais aussi :
✔︎ Des équipes multiculturelles
✔︎ Des locaux bien équipés 
✔︎ Une plateforme de formation et de certification en ligne
✔︎ Une offre d'accompagnement médical et social digitalisée pour vous et votre famille

REJOINDRE L’AVENTURE OVHCLOUD

OVHcloud valorise la diversité des personnes qu’elle embauche et accompagne.
La diversité pour nous, c’est favoriser un milieu de travail où les différences individuelles sont reconnues, appréciées et respectées de façon à développer le plein potentiel et les forces de chacune et chacun.
Soyez libre d’être vous-même !

L'IA DANS L'ADN

L'intelligence artificielle réinvente nos métiers au quotidien.
Rejoignez-nous pour explorer ses immenses possibilités et coconstruire l'avenir !

LE DÉVELOPPEMENT DURABLE CHEZ OVHCLOUD, UN ENGAGEMENT PROFOND

► Explorez nos engagements qui font la différence

À CHACUNE SON POTENTIEL, OSEZ POSTULER !

Nous savons que les femmes peuvent parfois s'abstenir de postuler si elles ne répondent pas à 100% des critères d'une offre.
Nous souhaitons clarifier : nos fiches de poste sont des repères, pas des barrières. Nous avons hâte de recevoir votre candidature.

Cette offre ne répond pas tout à fait à vos attentes ? Candidatez malgré tout !
C'est l'occasion de partager votre profil avec nos recruteurs, vous faire remarquer et peut-être recontacter pour une autre opportunité.

Cette offre ne répond pas tout à fait à vos attentes ? Candidatez spontanément sur le portail candidat pour rejoindre l'une de nos équipes !
L'occasion de partager votre profil avec nos recruteurs, vous faire remarquer et peut-être recontacter pour une autre opportunité.

Vous voulez contribuer à des projets uniques pour construire ensemble le cloud libre ? Allons-y ! Chez OVHcloud, nous sommes animés par la même volonté, celle de construire l’avenir ensemble pour défendre la liberté d’innover.

► Découvrez l'acteur majeur du cloud libre et responsable

VOTRE MISSION

Senior SRE - Kubernetes managé

 

Au sein de votre équipe #OneTeam

  • Rejoindre la Product Unit Public Cloud et plus particulièrement l'équipe en charge de la conception, de l'évolution et de l'exploitation de notre offre Kubernetes managé. Vous intégrerez une équipe qui développe et opère une plateforme Kubernetes utilisée par un grand nombre de clients, reposant sur des infrastructures distribuées complexes. La fiabilité, la performance, la disponibilité, la sécurité et l'évolutivité sont les enjeux structurants de cette plateforme.

     

  • En tant que Site Reliability Engineer expérimenté, vous interviendrez au cœur du fonctionnement de la plateforme Kubernetes (control plane, controllers, reconciliation loops, API server, etcd) afin de garantir la stabilité et l'évolutivité du produit. Au sein d'OVHcloud, nous adoptons une approche de développement augmentée par l'IA, où l'IA générative est intégrée aux pratiques quotidiennes : conception, développement, tests, revue de code et documentation.

 

Vos principales responsabilités

  • Garantir la disponibilité, la performance et la résilience de la plateforme haute disponibilité.

  • Concevoir, faire évoluer et maintenir des architectures distribuées robustes, scalables et sécurisées.

  • Développer des mécanismes d'automatisation, de supervision et d'auto-remédiation (Infrastructure as Code, scripts, controllers Kubernetes).

  • Contribuer à l'industrialisation, à l'automatisation et à l'amélioration continue des mécanismes de fiabilité.

  • Définir et faire évoluer les pratiques de supervision, d'observabilité et d'AIOps (métriques, logs, alerting, tracing distribué, détection d'anomalies, corrélation d'événements et analyse prédictive).

  • Participer aux analyses d'incidents majeurs, implémenter les actions correctives durables et exploiter les capacités de l'IA pour accélérer l'identification des causes racines.

  • Intégrer la rotation d'astreinte de l'équipe afin d'assurer la continuité de service à nos clients (après une période de formation et de montée en compétence).

 

 

Votre futur impact

 

Dans 6 mois

  • Vous aurez pris vos marques au sein de la Product Unit Public Cloud. Vous comprendrez l'architecture de notre offre Kubernetes managé, ses spécificités techniques et les défis de scalabilité associés.

  • Vous aurez pleinement intégré l'approche de développement augmentée par l'IA, en utilisant quotidiennement l'IA générative pour la conception, le code ou la documentation.

  • Vous aurez commencé à contribuer activement à l'automatisation et à l'industrialisation des mécanismes de fiabilité de la plateforme.

  • Vous serez autonome sur le périmètre pour intégrer sereinement la rotation d'astreinte de l'équipe.

 

Et dans 1 an

  • Vous aurez joué un rôle clé dans l'évolution du control plane et des composants internes de notre offre Kubernetes pour soutenir la croissance de nos clients.

  • Vous aurez fait progresser nos pratiques d'AIOps et d'observabilité en mettant en place des systèmes avancés de détection d'anomalies et d'analyse prédictive.

  • Vous aurez optimisé nos processus de gestion des incidents majeurs grâce à l'orchestration de workflows autonomes et de chaînes agentiques.

  • Vous serez devenu un référent technique au sein de l'équipe, capable de guider les choix d'architectures distribuées complexes.

 

Compétences requises :

  • Vous possédez de solides connaissances des technologies IaaS (réseau, load balancing, etc.), des serveurs, du stockage, de la virtualisation et des infrastructures distribuées.

  • Vous maîtrisez l'environnement GNU/Linux (Debian like) et possédez une bonne connaissance du fonctionnement interne de Kubernetes (en tant que client ou administrateur).

  • Vous avez une expérience solide en automatisation d'infrastructure (Infrastructure as Code) et en scripting (Golang/Python, Bash).

  • Vous disposez de connaissances approfondies des principes de supervision, d'observabilité et des outils de tracing system.

  • Vous intégrez nativement les règles de sécurité informatique dans vos déploiements.

  • Vous êtes autonome, capable de vous adapter à un contexte technologique changeant et d'évoluer dans un environnement à forte criticité.

 

C'est un +

  • Vous avez déjà une expérience en prompt engineering et une bonne compréhension des principes des chaînes agentiques ou des workflows autonomes (orchestration d'agents, gestion d'outils/fonctions, boucles de rétroaction).

Cette offre ne répond pas tout à fait à vos attentes ? Candidatez malgré tout !
C'est l'occasion de partager votre profil avec nos recruteurs, vous faire remarquer et peut-être recontacter pour une autre opportunité.

Cette offre ne répond pas tout à fait à vos attentes ? Candidatez spontanément sur le portail candidat pour rejoindre l'une de nos équipes !
L'occasion de partager votre profil avec nos recruteurs, vous faire remarquer et peut-être recontacter pour une autre opportunité.