MONTRÉAL (QUÉBEC), CA, H3A 2N4
Ingénieur, fiabilité de site / SRE H/F/N
Au sein de votre équipe #OneTeam
- Vous intégrerez une équipe internationale (principalement basée en France et au Canada), dédiée aux opérations de notre produit "Hosted Private Cloud" (ou HPC).
- Vous serez en charge du maintien en conditions opérationnelles de ce produit, afin de garantir les engagements de service qu'OVHcloud prend auprès de ses clients.
Vos principales responsabilités
- Assurer le maintien en conditions opérationnelles du produit HPC, en participant à la gestion des incidents, des changements, et des problèmes dans le cadre des processus établis;
- Résoudre les alertes techniques et les incidents remontés par nos sondes de surveillance ou déclarés par nos clients internes et externes;
- Alimenter de manière rigoureuse la base de connaissances de notre produit HPC;
- Implémenter des correctifs dans le code source du produit HPC afin d'empêcher toute reproduction d'un incident ; en lien avec l'équipe de développement concernée, fonction de la complexité du correctif;
- Exprimer votre besoin auprès des équipes de développement lorsque vous identifiez une amélioration du produit HPC ou de notre outillage de monitoring;
- Participer à la rédaction et à l'exécution des « post mortems » des incidents majeurs afin d'identifier et de réaliser les plans d'action nécessaires à l'amélioration de la qualité de nos services;
- Veiller à l'amélioration de l'observabilité du produit HPC, en implémentant des sondes et alertes associées;
- Travailler sur un produit en constante évolution basé sur les technologies VMware, Veeam, et Zerto;
- Faire preuve de polyvalence et d'ingéniosité technique pour répondre aux problématiques.
x
Compétences requises :
-
Formation complétée en informatique ou en technologie de l’information
-
Expérience d'au moins 3 ans dans un rôle en administration de système ou de SRE
-
Très bonne maîtrise des environnements Linux, la technologie VMware (lignes de commande) et Veeam
-
Expérience avec des technologies Open Source, plus spécifiquement Ansible
-
Expérience en langage Perl
-
Bonne compréhension des environnements réseau complexes sécurisés
-
Connaissance d’ITIL, un atout
-
Autonomie et sens analytique
-
Esprit autodidacte
-
Capacité de s'adapter dans un environnement en constante évolution
-
Basé.e à Montréal ou prêt.e à déménager
C'est un +
- Connaissance du langage de programmation Go
- Connaissance ou expérience en langage Python
Ingénieur, fiabilité de site / SRE H/F/N
Au sein de votre équipe #OneTeam
- Vous intégrerez une équipe internationale (principalement basée en France et au Canada), dédiée aux opérations de notre produit "Hosted Private Cloud" (ou HPC).
- Vous serez en charge du maintien en conditions opérationnelles de ce produit, afin de garantir les engagements de service qu'OVHcloud prend auprès de ses clients.
Vos principales responsabilités
- Assurer le maintien en conditions opérationnelles du produit HPC, en participant à la gestion des incidents, des changements, et des problèmes dans le cadre des processus établis;
- Résoudre les alertes techniques et les incidents remontés par nos sondes de surveillance ou déclarés par nos clients internes et externes;
- Alimenter de manière rigoureuse la base de connaissances de notre produit HPC;
- Implémenter des correctifs dans le code source du produit HPC afin d'empêcher toute reproduction d'un incident ; en lien avec l'équipe de développement concernée, fonction de la complexité du correctif;
- Exprimer votre besoin auprès des équipes de développement lorsque vous identifiez une amélioration du produit HPC ou de notre outillage de monitoring;
- Participer à la rédaction et à l'exécution des « post mortems » des incidents majeurs afin d'identifier et de réaliser les plans d'action nécessaires à l'amélioration de la qualité de nos services;
- Veiller à l'amélioration de l'observabilité du produit HPC, en implémentant des sondes et alertes associées;
- Travailler sur un produit en constante évolution basé sur les technologies VMware, Veeam, et Zerto;
- Faire preuve de polyvalence et d'ingéniosité technique pour répondre aux problématiques.
x
Compétences requises :
-
Formation complétée en informatique ou en technologie de l’information
-
Expérience d'au moins 3 ans dans un rôle en administration de système ou de SRE
-
Très bonne maîtrise des environnements Linux, la technologie VMware (lignes de commande) et Veeam
-
Expérience avec des technologies Open Source, plus spécifiquement Ansible
-
Expérience en langage Perl
-
Bonne compréhension des environnements réseau complexes sécurisés
-
Connaissance d’ITIL, un atout
-
Autonomie et sens analytique
-
Esprit autodidacte
-
Capacité de s'adapter dans un environnement en constante évolution
-
Basé.e à Montréal ou prêt.e à déménager
C'est un +
- Connaissance du langage de programmation Go
- Connaissance ou expérience en langage Python