L’Intelligence artificielle (IA) et la cybersécurité sont deux domaines d’expertise qui sont sur toutes les lèvres en 2023. Cette année, j’ai été approchée à quelques reprises pour parler de l’IA pour supporter le sujet de la cybersécurité. Deux sujets différents, mais qui ont un point en commun : les données. Conférences, podcasts, support d’entreprises en cybersécurité pour l’ajout de composantes d’IA dans les solutions ne sont que quelques exemples de ce qui nous a occupé chez Videns sur le sujet en 2023, comme vous le constaterez à la fin de cet article. Avant de poursuivre, c’est important pour moi de mentionner que je ne suis pas une spécialiste de la cybersécurité! Toutefois, en tant que spécialiste des données et de l’IA, il me fait plaisir d’apporter ma perspective sur le sujet, d’un angle qui m’est familier.
D’une part, plusieurs entreprises ont pu démontrer dans les dernières années que l’IA peut apporter des bénéfices concrets dans une belle variété de sujets. Mentionnons par exemple les sujets de l’automatisation intelligente des processus, la compréhension des comportements des consommateurs, la prévision de la demande ou la gestion du risque de crédit. D’autre part, les préoccupations en lien avec les cyberattaques et les cyberfraudes ne cessent de s’élever. Il faut dire que les intrusions subies par plusieurs entreprises ou organismes gouvernementaux ont contribué à éduquer les entreprises sur les risques réels existants. Une éducation qui s’est faite à un prix très élevé… Il semble que la question à poser n’est pas « Est-ce que mon entreprise subira une attaque? », mais bien « Quand mon entreprise subira-t-elle une attaque? ». Lorsqu’on se pose une question avec le mot « quand », il y a fort à parier que l’IA peut aider. En effet, les différentes approches d’apprentissage automatique (machine learning) permettent de faire des prédictions et ainsi d’amener plus de proactivité dans différents domaines d’application. Peut-on se servir de l’IA pour anticiper des cyberattaques? Comment l’IA peut-elle contribuer à réduire le risque des entreprises en matière de cybersécurité? Dans cet article, il sera notamment question de ce que l’IA peut apporter à la cybersécurité, des risques au niveau des données dans le cas de cyberattaques et des défis des spécialistes de la donnée et de l’IA dans un contexte de cybersécurité.
La donnée est au cœur de la thématique de la cybersécurité. C’est normal, puisque sur le numérique, tout laisse des traces. Et ces traces sont représentées sous forme de données. L’IA peut contribuer autant au niveau du diagnostic que de la prévention sur le sujet de la cybersécurité.
Pour faire un bon diagnostic, il est nécessaire de comprendre ce qui se passe avant, pendant et après l’incident. Il est donc indiqué d’utiliser les données passées pour mieux comprendre ce qui a conduit à l’incident. Est-ce que certains parcours numériques auraient pu donner des indices d’une attaque à venir? Est-ce qu’ils se démarquent des parcours numériques normaux? Des approches d’apprentissage automatique modernes peuvent apporter un bon éclairage. Mais des approches statistiques comme la segmentation ou la régression pourraient être aussi de très bons outils! L’important, c’est de pouvoir identifier des « patterns », des prédicteurs ou des combinaisons de prédicteurs d’un incident de sécurité informatique. En fait, c’est notamment ce qu’on fait dans le domaine de la détection des fraudes dans le domaine financier.
Une bonne prévention est intimement liée au volet diagnostic. En effet, les mêmes données du passé permettent d'entraîner des modèles prédictifs qui seront utilisés sur les données courantes. Ces modèles prédictifs peuvent livrer une information précieuse sous forme d’alertes, par exemple. La notion de temps réel prend tout son sens ici. En effet, il ne servirait à rien d’être alerté une semaine trop tard, seulement parce que les processus de mise à jour des données sont exécutés une fois par semaine. La pertinence d’une alerte est reliée au fait qu’elle est faite en temps opportun.
L’analyse des parcours d’utilisation des plateformes numériques permet de comprendre ce que la grande majorité des gens ont tendance à faire. Ces parcours peuvent être divisés en différents segments. Lorsqu’un parcours détecté est très différent des parcours habituels, il faut investiguer. Peut-être que c’est un comportement légitime, qui pourrait devenir plus généralisé dans le futur? Mais peut-être aussi qu’il s’agit d’un comportement indicateur d’une anomalie? Dans tous les cas, une analyse par un humain au bon moment constitue une pratique sécuritaire. Même s’il s’agit d’une fausse alerte, on appréciera probablement de mieux comprendre un nouveau segment de client.
On pense souvent à l’externe de l’entreprise pour les attaques, mais il semble que les employés soient le maillon le plus faible d’une entreprise au niveau des vulnérabilités (https://www.lesaffaires.com/dossier/la-cybersecurite-un-imperatif-commercial/cyberattaque--ce-nest-plus-qui-mais-quand/636809). Ainsi, l’analyse des comportements des personnes sur le numérique peut constituer une approche très payante. En effet, en testant régulièrement les personnes au niveau d’attaques fictives, l’analyse des informations récoltées permet ensuite d’orienter les initiatives de formation, de faire une rétroaction appropriée et, bien sûr, de sensibiliser en continu.
En cas de cyberattaque, les impacts négatifs peuvent être nombreux et très importants. De mon point de vue, soit celui d’une dirigeante d’entreprise spécialisée en valorisation des données et en IA, les données sont au coeur des problèmes à considérer!
Une fuite de renseignements personnels sur nos clients, nos employés et nos partenaires peut être très dommageable. En effet, les torts causés par un événement de ce type peuvent être majeurs pour les personnes et les entreprises. Vol d’identité, invasion dans la vie privée et divulgation d’informations compromettantes ne sont que quelques exemples négatifs qui peuvent affecter les personnes. Au niveau des entreprises, des informations privilégiées peuvent être diffusées, des données peuvent être corrompues ou même éliminées, et des informations critiques aux opérations de l’entreprise peuvent disparaître. L’entreprise affectée peut être amenée vers des difficultés importantes et même à la fermeture. Et tout ça, c’est sans compter la perte de confiance des clients et des partenaires qui résulte d’un tel incident, qui peut perdurer très longtemps.
Pour protéger nos données, il faut bien sûr une bonne stratégie de cybersécurité déployée, qui correspond à notre contexte d’affaires et d’opérations. Pour ce faire, plusieurs firmes offrent des services d’accompagnement dans le domaine.
Au niveau des données, quelques bonnes pratiques doivent être considérées.
De mon point de vue, non. J’avais d’ailleurs écrit un article à ce sujet sur CScience (https://www.cscience.ca/chroniques/conservation-des-donnees-en-entreprise-le-prix-a-payer-quand-on-veut-tout-garder/). Plus on conserve de données, plus l’impact négatif peut être important en cas d’attaque. Dans la loi sur la protection des renseignements personnels en vigueur au Québec (loi 25), la gestion du cycle de vie de la donnée est une exigence pertinente dans ce contexte. Je me permets aussi de réitérer l’importance de faire une bonne stratégie de données et de mettre en place de bonnes pratiques en gouvernance des données.
Dans certaines situations, le recours à la génération de données synthétiques, lorsque bien fait, peut permettre des inférences très similaires à celles qui seraient faites avec des données réelles, mais avec moins de risques et d’enjeux reliés à la cybersécurité. Il faut toutefois bien planifier le projet pour que la valeur des données synthétiques soit au rendez-vous.
Aussi, pour une entreprise de services en IA comme Videns, qui travaille avec plusieurs dizaines de clients, c’est critique de ne pas avoir les données des clients dans nos environnements technologiques. En effet, notre approche principale est de travailler dans les environnements technologiques de nos clients afin de ne pas faire de transferts de données. Les mouvements de données augmentent le risque…
Finalement, pour le développement des modèles, algorithmes et « pipelines » de données, il est important d’utiliser des environnements technologiques sécurisés. Les protocoles d'encryption modernes permettent de sécuriser les données au repos ou en transit. Certains protocoles et matériels permettent même d'assurer cette encryption jusque pendant le « compute », permettant ainsi une encryption ininterrompue pour les applications les plus sensibles.
Tous les développements logiciels qui encadrent ces pipelines de données (API, frontends, backends) doivent également être conçus et développés avec le bon niveau de sécurité.
L’utilisation de l’IA dans le domaine de la cybersécurité est un apport indiscutable au domaine. Toutefois, il faut savoir que pour les différents spécialistes de la donnée et de l’IA, les défis sont nombreux!
La performance des solutions va souvent de pair avec une grande variété de données et la combinaison de sources multiples. Et ce n’est pas seulement pour le domaine de la cybersécurité! Ainsi, il faut souvent mettre beaucoup d’efforts pour combiner les sources de données et faire en sorte de trouver les correspondances adéquates. Tout dépendant des sources de données, il peut y avoir beaucoup de données inutiles pour quelques données pertinentes. L’expression « chercher une aiguille dans une botte de foin » peut prendre tout son sens ici! Dans tous les cas, les efforts à mettre en préparation des données seront importants. Il faut savoir que les données pertinentes ne sont pas toutes bien structurées. On n’a qu’à penser aux logs d’applications logicielles, qui sont une très belle source de données, mais pas évidente à utiliser.
Je dis souvent qu’en IA, on gère constamment l’erreur et l’incertitude. Une solution qui donne des recommandations ou des prédictions toujours parfaites n’existe pas. Or, les « patterns » de comportements des cybercriminels s’améliorent sans cesse et sont de plus en plus complexes. Cette évolution rapide des pratiques nécessite une vigilance et un réentraînement fréquent des modèles d’IA.
Et du point de vue d’une scientifique des données, j’ajouterais que les incidents de cyberattaques sont des événements rares, ce qui est quand même bien d’un point de vue affaires, mais qui constitue un défi supplémentaire en science des données! Modéliser quelque chose qu’on ne voit pas souvent est une problématique en soi. C’est pourquoi, à moins d’avoir beaucoup de données dans l’entreprise, il peut être plus intéressant de développer des solutions pour une plateforme qui est utilisée par de nombreux clients, plutôt que de tenter de refaire des solutions indépendantes par entreprise. Fait intéressant, la Chaire de recherche industrielle CRSNG Desjardins Banque Nationale en cybersécurité a notamment été mise en place par deux institutions financières qui se font compétition dans d’autres contextes. Sur ce sujet, on peut dire que l’union fait la force!
Finalement, la prévention des cyberincidents demande une réactivité au bon moment. Les solutions doivent donc être en mesure de donner des alertes en temps réel et de faire des rétroactions au moment opportun. Du point de vue de l’ingénierie des solutions, ça constitue un défi également.
Tous ces défis militent à mon avis en la pertinence de mobiliser des talents expérimentés dans les différentes spécialités de la donnée, ce que Videns offre, notamment pour le domaine de la cybersécurité.
Juste avant de compléter cet article, j’ai passé la semaine à Paris, où j’ai eu l’opportunité de participer à un panel sur les sujets de l’IA et de la cybersécurité, organisé par un groupe de réflexion appelé Les vendredis de la colline. Ce groupe, constitué de jeunes salariés diplômés des grandes écoles parisiennes, se fait un devoir de réfléchir et d’intervenir sur des sujets d’actualité. L’invitée de la soirée était Gaëlle Picard-Abezis (https://www.linkedin.com/in/gapjoa/). Elle avait pris soin d’élaborer les contenus et la thématique et avait suggéré d’être accompagnée de d’autres personnes pour enrichir les échanges. Les discussions y ont été de haut calibre et fort pertinentes! J’ouvrirais donc le sujet sur la remise en question que Madame Picard-Abezis a faite au sujet du terme « cybersécurité ». Le mot «sécurité» référant plus au concept de défense, ne serait-il pas plus approprié de remplacer « cybersécurité » par « cybersureté », qui intègre peut-être mieux les composantes défensives et proactives nécessaires à une bonne stratégie de protection? Du point de vue de la mobilisation de l’IA pour le sujet, c’est tout à fait cohérent!