Fernando Fernandes dos Santos, informaticien, travaille sur la tolérance aux pannes des ordinateurs
Fernando Fernandes dos Santos, informaticien, a commencé en janvier 2022 son projet « Toward reliable deep neural network hardware for safety-critical applications » (TRELA) à l’Inria.
Equipe BIENVENÜE : Bonjour Fernando, comment avez-vous commencé à vous intéresser à votre domaine de recherche ?
Fernando Fernandes dos Santos : J’ai commencé à m’intéresser à mon sujet de recherche pendant ma maîtrise, au cours de laquelle j’ai travaillé sur la fiabilité des ordinateurs et la tolérance aux pannes. Des erreurs peuvent se produire, et nous devons veiller à ce qu’elles n’affectent pas les utilisateurs et les systèmes. Tous les systèmes informatiques ne sont pas égaux. Par exemple, si une erreur se produit pendant un appel vidéo, il n’y a pas de grandes conséquences, car vous pouvez simplement le redémarrer. Mais supposons que cela se produise dans un système critique pour la sécurité, comme un avion ou une voiture à conduite autonome. Dans ce cas, cela peut générer un accident et blesser, voire tuer des personnes.
Bien sûr, il existe différents types d’ordinateurs, et donc différentes caractéristiques et exigences en matière de tolérance aux pannes. Pendant mon doctorat, je me suis concentré sur les erreurs causées par les rayonnements ionisants. Ces erreurs sont causées par des particules énergétiques qui frappent le matériel, les parties physiques de l’ordinateur, ce qui a un impact sur le logiciel, l’application qui s’exécute sur le matériel pour effectuer des tâches.
Qu’est-ce que le projet TRELA ?
Le projet TRELA portera sur les Réseaux Neuronaux Profonds (RNP), qui sont utilisés pour effectuer des tâches simples que les humains accomplissent quotidiennement, comme la reconnaissance vocale, la détection d’objets et la classification. Je travaillerai sur la tolérance aux pannes des RNP afin de les rendre plus fiables. Par exemple, une erreur dans le RNP responsable de la détection humaine dans une voiture à conduite autonome peut conduire à un accident dramatique que nous voulons éviter.
L’originalité de mon projet réside dans le fait que je vais travailler sur une approche multi-niveaux, incluant le matériel et le logiciel. Comment améliorer la fiabilité du système au niveau logiciel, même s’il y a un problème au niveau matériel ?
La partie la plus cool du projet, à mon avis, ce sont les expériences de radiation que je vais mener. Il s’agit de simuler des scénarios d’erreur avec des radiations. Je vais frapper le matériel avec un faisceau de neutrons et voir comment le logiciel est affecté. Cela se fera dans l’installation ChipIR du Rutherford Appleton Laboratory, au Royaume-Uni, où j’ai déjà effectué un stage d’été pendant mon doctorat. J’ai également effectué un autre stage d’été au Los Alamos National Laboratory, aux États-Unis. Il se peut que j’y fasse aussi quelques expériences cette année si la situation s’améliore. Avec le Covid, les choses ont pris un peu de retard, mais je devrais être en mesure de réaliser les expériences cette année.
Hormis la question de la fiabilité, comment votre projet s’oriente-t-il vers des technologies moins consommatrices d’énergie ?
Toutes les techniques de tolérance aux pannes s’accompagnent d’une surcharge. Il peut s’agir d’une augmentation du matériel ou du temps d’exécution de l’application. Par conséquent, il y aura une augmentation de la consommation d’énergie. Par exemple, dans un système de sécurité critique, une technique de tolérance aux fautes très standard est la duplication avec comparaison. Le logiciel et le matériel du système sont dupliqués. Les deux versions exécutent la même application. À la fin du calcul, nous comparons les résultats des deux systèmes, et s’il y a un décalage, nous savons qu’il y a une faute, et nous pouvons prendre une décision en conséquence. C’est une technique très efficace, mais comme vous l’avez remarqué, elle consomme deux fois plus d’énergie car le système est doublé. Donc, si nous développons une tolérance aux pannes plus efficace en termes de matériel et de logiciel, nous pouvons économiser de l’énergie au bout du compte.
Pourquoi est-il important pour vous de mettre en œuvre le projet à l’Inria ?
J’ai lu plusieurs articles d’Olivier Sentieys et d’Angeliki Kritikakou, désormais mes superviseurs, que j’ai trouvés particulièrement intéressants. Leur groupe possède une solide expérience en matière d’architecture et de matériel informatiques, tandis que j’ai davantage travaillé sur le volet logiciel. J’ai pensé que nous pourrions avoir une bonne collaboration, et j’ai donc pris rendez-vous avec eux. C’était le point de départ du projet TRELA.
Qu’est-ce qui vous motive au quotidien ?
J’aime à penser que mes recherches seront un jour utilisées pour améliorer la fiabilité des systèmes critiques pour la sécurité. Bien sûr, elles ne seront pas utilisées seules, mais avec de nombreuses autres contributions de différents chercheurs.
Avez-vous des recommandations à faire à un lecteur désireux d’en savoir plus sur la tolérance aux pannes informatiques ?
J’ai deux recommandations. Tout d’abord, cette vidéo de Veritasium qui est très compréhensible pour le grand public et constitue une bonne introduction au sujet.
La deuxième vidéo provient du laboratoire où j’ai réalisé les expériences pendant mon doctorat. Vous pouvez même voir mon directeur de thèse, le Pr Paolo Rech, et quelques-uns de mes travaux : J’ai en effet réalisé les simulations des erreurs de détection des piétons que vous pouvez voir dans la vidéo !
Merci Fernando !