Site reliability Engineer Openstack H/F

Ref
SREOS0319
CDI
Bordeaux
Brest
Lyon
Nantes
Paris
Rennes
Roubaix
Toulouse
France

OVH offre une large gamme de services informatiques aux entreprises et aux particuliers passionnés par la technologie.

Qu'il s'agisse de nos services Cloud Privé, Cloud Public ou Cloud Hybride, de plans d'hébergement web, de centres de données virtuels, de serveurs dédiés, de solutions de stockage ou encore de connexions xDSL et VoIP, nos services sont constamment améliorés avec les toutes dernières innovations et sont régulièrement développés avec de nouvelles fonctionnalités.

Au sein de l'équipe d'OVH Public Cloud, nous visons à fournir le meilleur service de sa catégorie pour des clients de grande envergure, depuis les start-ups VM jusqu'aux centaines de clusters hybrides VM cloud, en passant par les terrains de jeux de développement DevOps.

Au sein de l'équipe OpenStack d'OVH Public Cloud, vous serez confrontés à des déploiements à grande échelle et aux enjeux qui s'y rapportent, à la coopération avec les développeurs OpenStack du monde entier ainsi qu'à la fourniture des dernières technologies de pointe comme un service.

Votre rôle ?

L'ingénieur de fiabilité de site (SRE) est responsable de la disponibilité, de la performance, de la surveillance et de l'intervention en cas d'incident mais également des plates-formes et des services que gère et possède la Product Unit Public Cloud Instances. Grâce à vos compétences en ingénierie logicielle et système, vous êtes en mesure de construire et d'exploiter un système à grande échelle, massivement distribué et tolérant aux pannes.

Le SRE s'assure que les systèmes ont une fiabilité et un temps de disponibilité adaptés aux besoins des utilisateurs et un taux d'amélioration rapide tout en gardant un oeil attentif sur la capacité et la performance.

Une grande partie du développement des logiciels utilisés par le SRE se concentre sur l'optimisation des systèmes existants, la construction de l'infrastructure et l'élimination du travail grâce à l'automatisation. Des pratiques telles que la limitation du temps consacré au travail opérationnel, des audits irréprochables et l'identification proactive des pannes potentielles contribuent à l'amélioration itérative qui est la clé de la qualité des produits et du travail quotidien.

Notre organisation rassemble des personnes aux antécédents, aux expériences et aux perspectives très variés. Nous les encourageons à collaborer, à voir grand et à prendre des risques dans un environnement bienveillant. Nous encourageons l'autonomie pour travailler sur des projets significatifs, tout en nous efforçant de créer un environnement qui offre le soutien nécessaire pour apprendre et grandir.

  • Participer à l'amélioration de l'ensemble du cycle de vie des services, de la conception à la mise en oeuvre, en passant par le déploiement, l'exploitation et l'amélioration.
  • Apporter son support en conception logiciel et système, à l'élaboration d'infrastructure, mais également à gérer la capacité de ressources et les tests de lancement.
  • Maintenir la qualité une fois que les systèmes sont mis en service en mesurant et en surveillant la disponibilité, la latence et l'état général de celui-ci.
  • Permettre aux systèmes de se déployer de façon durable grâce à des mécanismes comme l'automatisation, et les faire évoluer en préconisant des changements qui améliorent la fiabilité et la vitesse.
  • En cas d'incident, vous êtes capable de faire des investigations approfondies, ainsi que des post mortem constructifs.

Ce poste peut être basé dans tous nos bureaux en Europe si nécessaire.

Vos compétences ?

  • Anglais courant nécessaire.
  • Expérience dans la gestion d'infrastructures distribuée sous Linux
  • Expérience dans l'utilisation et la gestion de systèmes de monitoring, de metering et d'infrastructures de logs (Icinga/Nagios, Prometheus, Grafana, Graphite, Logstash/Kibana, etc.). Vous avez une grande expérience dans l'analyse et l'optimisation des performances.
  •  A l'aise avec le schell et le scripting dans un contexte SRE/Opérations (Python, Go, Bash, Perl, etc.).
  • Vous avez de l'expérience dans le développement.
  • A l'aise avec des outils de gestion de configuration et d'orchestration Open Source (Puppet, Ansible, Terraform, etc.)


Votre expérience ?

  • Expérience dans le software, le déploiement et le packaging y compris dans des systèmes de conteneurisation.  
  •  Maitrise des systèmes CI/CD
  •  Appétence à se plonger et à comprendre/résoudre des problèmes complexes sur des infrastructures de grandes échelles.
  •  Exécuter les tâches opérationnelles quotidiennes et les tâches de développement, responsables de la qualité du code, de l'examen de celui-ci, du test et de la documentation
  
Your team

Public Cloud

Our Public Cloud team members are experts in matters of infrastructure and scalability. They are responsible for a product that is still… Find out more