CDI
IT, Technologie & Produit
LYON, FR, 69003 TOULOUSE, FR, 31000 CESSON-SEVIGNE, FR, 35510 ROUBAIX, FR, 59100
Hybride
Hybride
Site Reliability Engineer (SRE) - Private Cloud H/F/N
Au sein de votre équipe #OneTeam
- Intégrer une équipe internationale (principalement basée en France et au Canada), dédiée aux opérations (RUN) de notre produit Hosted Private Cloud (HPC).
- Etre en charge du maintien en conditions opérationnelles de ce produit, afin de garantir les engagements de service qu’OVHcloud prend auprès de ses clients.
Vos principales responsabilités
- Assurer le maintien en conditions opérationnelles du produit HPC, en participant à la gestion des incidents, des changements, et des problèmes dans le cadre des processus établis
- Résoudre les alertes techniques et les incidents remontés par nos sondes de monitoring ou déclarés par nos clients internes et externes
- Alimenter de manière rigoureuse la base de connaissances de notre produit HPC, notamment pour les « erreurs connues »
- Implémenter des correctifs dans le code source du produit HPC afin d’empêcher toute reproduction d’un incident ; en lien avec l’équipe de développement concernée, fonction de la complexité du correctif
- Exprimer votre besoin auprès des équipes de développement lorsque vous identifiez une amélioration du produit HPC ou de notre outillage de monitoring
- Participer à la rédaction et à l’exécution des « post mortems » des incidents majeurs afin d’identifier et de réaliser les plans d’action nécessaires à l’amélioration
de la qualité de nos services - Prendre part à l’amélioration de l’observabilité du produit HPC, en implémentant des sondes et alertes associées
Votre futur impact
Dans 6 mois
- Vous serez autonome sur votre périmètre et vous réaliserez vos premières astreintes.
- Vous serez capable de développer des correctifs du produit HPC afin d'éviter toute reproduction d'alerte/incident.
- Vous commencerez à prendre des projets opérationnels.
Et dans 1 an
- Vous aurez gagné en productivité et vous connaitrez en détails le produit HPC.
- Vous prendrez le lead sur la gestion de cases complexes avec différentes parties prenantes.
Compétences requises :
- Vous avez une parfaite maitrise des environnements Linux, ainsi que de la technologie VMware.
- Vous avez une bonne compréhension des environnements réseau complexes sécurisés.
- Vous avec une bonne maitrise des languages de programmation (Python et/ou Go et/ou Perl)
- Vous êtes capable de travailler dans un environnement international en langue anglaise (oral et écrit).
- Vous êtes efficace, autonome, et avez la capacité d’investiguer en profondeur des problématiques techniques complexes.
C'est un +
- Les technologies VMware, Veeam, et Zerto ne vous sont pas inconnues.
1. Échange dans les 2 à 4 semaines avec notre hiring officer:
Julie
2. Entretien avec le manager:
Thomas
Site Reliability Engineer (SRE) - Private Cloud H/F/N
Au sein de votre équipe #OneTeam
- Intégrer une équipe internationale (principalement basée en France et au Canada), dédiée aux opérations (RUN) de notre produit Hosted Private Cloud (HPC).
- Etre en charge du maintien en conditions opérationnelles de ce produit, afin de garantir les engagements de service qu’OVHcloud prend auprès de ses clients.
Vos principales responsabilités
- Assurer le maintien en conditions opérationnelles du produit HPC, en participant à la gestion des incidents, des changements, et des problèmes dans le cadre des processus établis
- Résoudre les alertes techniques et les incidents remontés par nos sondes de monitoring ou déclarés par nos clients internes et externes
- Alimenter de manière rigoureuse la base de connaissances de notre produit HPC, notamment pour les « erreurs connues »
- Implémenter des correctifs dans le code source du produit HPC afin d’empêcher toute reproduction d’un incident ; en lien avec l’équipe de développement concernée, fonction de la complexité du correctif
- Exprimer votre besoin auprès des équipes de développement lorsque vous identifiez une amélioration du produit HPC ou de notre outillage de monitoring
- Participer à la rédaction et à l’exécution des « post mortems » des incidents majeurs afin d’identifier et de réaliser les plans d’action nécessaires à l’amélioration
de la qualité de nos services - Prendre part à l’amélioration de l’observabilité du produit HPC, en implémentant des sondes et alertes associées
Votre futur impact
Dans 6 mois
- Vous serez autonome sur votre périmètre et vous réaliserez vos premières astreintes.
- Vous serez capable de développer des correctifs du produit HPC afin d'éviter toute reproduction d'alerte/incident.
- Vous commencerez à prendre des projets opérationnels.
Et dans 1 an
- Vous aurez gagné en productivité et vous connaitrez en détails le produit HPC.
- Vous prendrez le lead sur la gestion de cases complexes avec différentes parties prenantes.
Compétences requises :
- Vous avez une parfaite maitrise des environnements Linux, ainsi que de la technologie VMware.
- Vous avez une bonne compréhension des environnements réseau complexes sécurisés.
- Vous avec une bonne maitrise des languages de programmation (Python et/ou Go et/ou Perl)
- Vous êtes capable de travailler dans un environnement international en langue anglaise (oral et écrit).
- Vous êtes efficace, autonome, et avez la capacité d’investiguer en profondeur des problématiques techniques complexes.
C'est un +
- Les technologies VMware, Veeam, et Zerto ne vous sont pas inconnues.