Afleveringen
-
Vous en avez assez dâentendre parler de LLM, de prompt, de text token, ou de adversarial machine learning ? Ăa tombe bien, le 6 septembre dernier, le Journal Officiel de la RĂ©publique Française a publiĂ©, pour la rentrĂ©e des classes, la liste relative au vocabulaire de lâintelligence artificielle. La commission dâenrichissement de la langue française a retenu quatorze termes ; elle les a traduits, et dĂ©finit.
Ainsi, vous pourrez parler de Grands ModĂšles de Langage, les GML ; dâinstructions gĂ©nĂ©ratives pour les prompts, de jeton textuel pour les text token, et dâapprentissage antagoniste pour lâadversarial machine learning.
Plus aucune excuse pour truffer vos textes et vos vidĂ©os de ces anglicismes qui ne rendent pas hommage Ă notre langue. Ăa fait plus chic ? Câest plus court ? Tout le monde le dit ? Toutes ces excuses sont valables, mais avec un petit effort, vous verrez que vos textes en ressortiront de meilleure facture. Et ne devenez pas ces directeurs marketing que je rencontre rĂ©guliĂšrement et qui commencent leur prĂ©sentation en sâexcusant des mots anglais quâils utiliseront⊠sous prĂ©texte que, vous savez, je vis aux States depuis plusieurs annĂ©es, et je ne sais plus comment on dit en français.
Cinq pages du JO du 6 septembre Ă imprimer donc, et Ă garder bien visible sur votre bureau.
Ah tiens dâailleurs, il y en a un qui manque ! Je nâai pas trouvĂ© la traduction de RAG, Retrieval Augmented Generation. Il va falloir continuer lâenrichissement du dictionnaire. Jâai trouvĂ© sur Internet une traduction sous forme de GĂ©nĂ©ration AugmentĂ©e de RĂ©cupĂ©ration. Pourquoi pas. Quâen pensez-vous ?
A tiens, amis quĂ©bĂ©cois qui nous Ă©coutez, vous qui ĂȘtes si prompts Ă dĂ©fendre la langue française, montrez lâexemple ! Le problĂšme câest que nous ne sommes pas toujours dâaccord sur les traductions⊠Ainsi lâOffice QuĂ©bĂ©cois de la Langue Française recommande dâutiliser le terme de « requĂȘte » pour dĂ©signer les prompts. Alors requĂȘte ou instruction gĂ©nĂ©rative ? Quâen pensez-vous ?
-
Le MIT a recensĂ© 777 risques potentiels liĂ©s Ă lâIA dans une base de donnĂ©es partagĂ©e gratuitement
Cet Ă©tĂ©, le MIT nous a fait un cadeau ! Le prestigieux organisme de recherche amĂ©ricain a publiĂ© un rĂ©fĂ©rentiel complet des risques liĂ©s Ă lâintelligence artificielle. Lâobjectif : vous aider Ă cartographier lâensemble des risques qui pĂšsent sur votre entreprise afin de les mesurer, les quantifier et les mitiger par la suite.
Si vous suivez mes contenus sur le thĂšme de la gouvernance des donnĂ©es et de lâintelligence artificielle, vous avez dĂ©jĂ Ă©tĂ© sensibilisĂ© au fait que la mise en place dâun cadre de gouvernance passe par lâidentification et la cartographie des risques.
Comment en effet attĂ©nuer quelque chose que lâon nâa pas rĂ©fĂ©rencĂ© et mesurĂ© ?
PremiĂšre tĂąche donc, lâidentification et la cartographie des risques en matiĂšre dâintelligence artificielle. Risques liĂ©s aux donnĂ©es, aux modĂšles, aux usages, les risques sont nombreux. Et lâIA Act europĂ©en prĂ©voit dâailleurs lâobligation de les identifier et de les suivre, afin de classifier les modĂšles dâIA en fonction des risques encourus.
Mais partir dâune feuille blanche et se gratter la tĂȘte en faisant le tour des bureaux nâest pas la mĂ©thode la plus efficace. Or il nâexistait pas jusquâĂ prĂ©sent un rĂ©fĂ©rentiel unique, mais plusieurs rĂ©fĂ©rentiels, tous incomplets, et orientĂ©s.
Ces derniers mois, les Ă©quipes du MIT ont rĂ©alisĂ© un travail de compilation et dâorganisation de lâensemble des rĂ©fĂ©rentiels quâils ont pu identifier ; regroupant lâensemble des risques dans une taxonomie commune. The AI Risk Repository est donc un travail de synthĂšse des risques en provenance de 43 taxonomies diffĂ©rentes. Au total, 777 risques ont Ă©tĂ© identifiĂ©s, regroupĂ©s et ordonnĂ©s dans la taxonomie du MIT.
Ce travail de synthĂšse est fourni sous forme dâun fichier Excel ou Google Sheets. Avec 777 risques dĂ©crits, câest Ă©videmment beaucoup trop pour la trĂšs grande majoritĂ© des entreprises, et un important travail de comprĂ©hension et de sĂ©lection reste Ă faire.
Par ailleurs chaque entreprise devra Ă©valuer le degrĂ© de survenance de ce risque dans sa propre organisation ; ainsi que les impacts de cette survenance sur son mĂ©tier. Personne ne peut faire ce travail Ă votre place. Mais bien sĂ»r, remercions le MIT pour cette synthĂšse qui permet de partir de quelque chose, dâenvisager Ă peu prĂšs tous les cas possibles, et ainsi de progresser dans cette cartographie des risques liĂ©s Ă lâIA.
Le framework à déployer est donc le suivant :
- Commencez par prendre connaissance de la base de données des risques du MIT ;
- Sensibilisez la direction gĂ©nĂ©rale Ă lâimportance, et parfois Ă lâobligation, de connaitre le niveau dâexposition de lâentreprise ;
- Programmez des ateliers avec les diffĂ©rentes personnes concernĂ©es, mĂ©tier et informatique, afin de sĂ©lectionner dans la base du MIT les risques applicables Ă lâentreprise ;
- NâhĂ©sitez pas Ă vous faire accompagner dans cette phase afin de dĂ©marrer correctement ; un consultant spĂ©cialisĂ© peut ĂȘtre un booster et un garde-fou ;
- Pour chacun de ces risques, évaluez leur probabilité de survenance, et les impacts, financiers et autres, de cette survenance éventuelle ;
- Reportez tout cela dans un outil spécialisé de gestion de risques ou à défaut dans une feuille Excel ;
- Mettez en place les stratégies de modération de ces risques ;
- Ne pas oublier de répéter ce processus, lorsque les risques changent ou au minimum une fois par an, afin de maintenir à jour cette cartographie.
Alors je vous entends dĂ©jĂ critiquer ! Jamais je nâaurai le temps de faire cela, la DG ne nous donnera pas de budget, encore un truc qui va rester sur les Ă©tagĂšres, bla bla blaâŠ
Vous avez raison de vous inquiĂ©ter ! Mais en mĂȘme temps soyons direct, ce nâest pas un choix. Bien sĂ»r, une PME peut choisir de prendre des risques, sans les mesurer, et en assumer par la suite les consĂ©quences. Mais assurez-vous que cette dĂ©cision de ne pas cartographier les risques liĂ©s Ă lâIA soit bien prise au plus haut niveau. Et un conseil, protĂ©gez vos arriĂšres, et conservez bien la trace de cette dĂ©cision.
Et si votre DG est plus raisonnable, et comprend lâimportance de connaitre et mesurer ces risques, allez-y progressivement. Posez les premiers jalons, et commencez les ateliers. Tiens, par exemple, commencez par les nouveaux projets ! Un nouveau POC dâIA ? DĂšs la phase de POC, rapprochez-vous des Ă©quipes, abordez le sujet, et cartographiez les risques Ă la volĂ©e. En incluant la gouvernance de lâIA dans la phase de design des projets, le fameux « Governance by design », vous rendrez le sujet beaucoup plus fluide. Câest ce que jâappelle le DevSecGovOps, penser Ă la gouvernance dĂšs la phase de conception, et en faire un Ă©lĂ©ment essentiel de la mise en production.
-
Zijn er afleveringen die ontbreken?
-
Vous avez 23 ans, vous mesurez 1 mĂštre 77, et vous pesez 72 kilos ? Vous avez, contrairement Ă moi, le profil idĂ©al pour remporter le 100 mĂštres, Ă©preuve reine de lâathlĂ©tisme aux jeux olympiques.
Si en revanche vous avez plus de 27 ans⊠dĂ©solĂ©, vous ĂȘtes dĂ©jĂ disqualifiĂ© par lâanalyse statistique. Cependant, si vous ĂȘtes un peu en surpoids, jusquâĂ 108 kilos, vous pouvez tenter le lancer de poids. Les grands triompheront au lancer de disque, quant aux plus petits quâun mĂštre soixante⊠ils nâont que peu de chance dâobtenir une mĂ©daille en athlĂ©tisme.
Non, mesdames, je ne vous oublie pas. Et les statistiques semblent se rejoindre. Si vous avez 22 ans, que vous mesurez 1 mÚtre 66, et que vous pesez 57 kilos, la médaille du 100 mÚtres est à votre portée, mathématiquement. Là encore, quelques kilos supplémentaires vous permettront de tenter le lancer de poids. Les plus grandes lanceront le disque tandis que les plus petites triompheront au 10 000 mÚtres et au marathon.
CommanditĂ© par JeffBet, un site de paris en ligne, lâĂ©tude porte sur les donnĂ©es de 222 500 athlĂštes olympiques, collectĂ©es depuis 120 ans. Pour JeffBet, remporter une Ă©preuve dĂ©pend certes du courage, de la volontĂ©, de lâentrainement, mais Ă©galement de caractĂ©ristiques purement physiques. Et câest lâidĂ©e de la sociĂ©tĂ© de paris en ligne, qui tente de convaincre que lâon peut amĂ©liorer ses probabilitĂ©s de miser sur le gagnant, sans le connaitre, mais en Ă©tudiant uniquement ses donnĂ©es.
Le livre Money Ball de Michael Lewis, publiĂ© en 2003, nous contait dĂ©jĂ lâhistoire controversĂ© dâun sĂ©lectionneur de baseball qui utilisait les donnĂ©es pour compenser le manque de moyens de son Ă©quipe, et identifier statistiquement les meilleurs joueurs.
Alors que vous soyez pro-statistiques, persuadés que le monde est régi par la mathématique et les probabilités ; ou que vous soyez convaincu que les statistiques ne sont en aucun cas déterministes, oubliez un peu les data pendant quelques semaines, passez de bonnes vacances, et retrouvez de nouvelles émissions de votre podcast Decideo dÚs la rentrée de septembre pour une nouvelle saison, la cinquiÚme !
-
Gouvernance des données : quelques prérequis organisationnels
Ayant lâopportunitĂ© dâaccompagner de nombreuses entreprises dans la mise en place dâune gouvernance des donnĂ©es orientĂ©e mĂ©tier, je voudrais partager avec vous aujourdâhui quelques prĂ©requis organisationnels. EloignĂ©s des habituels conseils sur les outils Ă dĂ©ployer, je constate que les premiers pas Ă rĂ©aliser, et pas les plus faciles, sont liĂ©s aux personnes et Ă lâorganisation. Trois questions !
Quiâ?
Cela peut paraitre Ă©vident, mais dans la rĂ©alitĂ©, la nomination claire et affirmĂ©e de la personne chargĂ©e de coordonner la gouvernance des donnĂ©es dans lâentreprise nâest pas toujours une prioritĂ©. Or, sans bĂ©nĂ©ficier de lâonction de la direction gĂ©nĂ©rale sur le sujet, la personne en charge rencontra sur sa route toutes les embuches posĂ©es ça et lĂ par les personnes qui ne voient pas dans leur intĂ©rĂȘt quâune gouvernance vienne fixer des bonnes pratiques lĂ oĂč ils prĂ©fĂšreraient que personne ne vienne mettre son nez.
Donc, la premiĂšre des choses Ă faire est de dĂ©signer une personne, de lui donner un titre de poste qui reflĂšte cette fonction de mise en place des actions liĂ©es Ă la gouvernance, et de communiquer en interne sur le sujet. RĂ©cemment, un client mâexpliquait que sa direction gĂ©nĂ©rale ne souhaitait pas envoyer un email pour indiquer Ă tous les employĂ©s que cette personne Ă©tait maintenant en charge de mettre en place une gouvernance des donnĂ©es. Je lui souhaite bonne chance dans sa mission quand mĂȘme la direction gĂ©nĂ©rale ne lui donne pas ses lettres de crĂ©ditâ!
OĂčâ?
La position de cette personne dans lâorganisation est beaucoup plus importante que son titre. Je peux ĂȘtre nommĂ© Data Governance Manager, mais si je suis au troisiĂšme sous-sol de lâorganigramme dans une sous-direction, dĂ©pendant de la direction informatique⊠je nâaurai jamais lâoreille du comitĂ© de direction pour arbitrer les litiges qui apparaitrontâ; ni la crĂ©dibilitĂ© pour imposer aux mĂ©tiers un code de conduite et des bonnes pratiques qui modifieront leurs habitudes.
Les AmĂ©ricains ont choisi de placer la gouvernance des donnĂ©es, et de lâintelligence artificielle, directement au sein du comitĂ© de direction, en crĂ©ant le poste de CIGO â Chief Information Governance Officer. Pas toujours facile dans les pays francophones de rĂ©unir le budget, la personne compĂ©tente, et la volontĂ© de la direction gĂ©nĂ©rale pour crĂ©er ce niveau de poste. Du fait de mon expĂ©rience, je dĂ©conseille toute organisation dans laquelle le responsable de la gouvernance des donnĂ©es serait Ă plus dâun Ă©chelon du comitĂ© de direction. Je dĂ©conseille Ă©galement â Ă quelques rares exceptions prĂšs â que la gouvernance des donnĂ©es orientĂ©e mĂ©tier soit rattachĂ©e Ă lâinformatique. Si elle ne peut pas ĂȘtre autonome, elle devrait ĂȘtre rattachĂ©e Ă lâaudit, Ă une direction data ou digital. Le plus important est que le supĂ©rieur hiĂ©rarchique du responsable de la gouvernance puisse directement porter les messages au comitĂ© de direction, et obtenir sa validation ou son arbitrage. LĂ encore, il faut organiser et communiquer clairement en interne sur lâorganisation, afin quâil nây ait aucune ambiguĂŻtĂ©.
Commentâ?
Quâil sâagisse de la charte de gouvernance des donnĂ©es, du code de conduite de lâIA, de la classification des donnĂ©es sensibles, du catalogue des data products, de lâontologie dâentreprise⊠la gouvernance des donnĂ©es passe par la formalisation dâun certain nombre de livrables. Outre ses qualitĂ©s relationnelles, le responsable de la gouvernance doit faire preuve dâun excellent formalisme. RĂ©diger, expliquer, illustrer, prĂ©senter⊠est son quotidien. Outre lâindispensable traitement de texte quâil utilisera quotidiennement, il a besoin dâun outil de diffusion du contenu quâil produit. Tout sauf des classeurs qui resteront dans une Ă©tagĂšreâ! Un simple Wiki fera lâaffaire, mais il lui permettra de diffuser ses livrables, de recueillir des commentaires, des suggestions, dâĂ©changer avec sa communautĂ© en interne. Câest le premier outil Ă mettre en Ćuvre, avant de passer Ă tout logiciel complexe. Ce portail accueillera son message de nomination, la composition du comitĂ© de gouvernance, puis viendront la charte de gouvernance des donnĂ©es, et lâontologie ou le glossaire mĂ©tier, en fonction du niveau de profondeur souhaitĂ©.
Bon courage pour ces premiĂšres Ă©tapes. Comme elles touchent lâhumain et lâorganisation, elles sont Ă la fois indispensables et parfois les plus compliquĂ©es Ă accomplir.
-
Avec Philippe Charpentier, le CTO de NetApp France, nous abordons le "contenant" des données. Contenant et contenu sont mutuellement indispensables, et ils répondent tous deux à des contraintes différentes :
- Les data sont enfin reconnues comme des actifs informationnelles de l'entreprise, il faut donc les protéger. Quels sont les enjeux actuels liés à la sécurité et à la confidentialité de ces données collectées par toutes les entreprises ? - Peut-on et doit-on tout conserver ? L'IA semble nous dire que oui, les lois sont un peu moins d'accord. Comment arbitrer ? - Un des éléments clef d'une stratégie data est aujourd'hui la gouvernance, comment s'assurer du cycle de vie et d'utilisation des données. Quid de la traçabilité de ces actifs tant immatériels. - En 2024, sur quoi les entreprises doivent-elles porter leur attention ? Quels conseils leur donner en matiÚre de data ? -
IBM se lance Ă son tour dans le data mesh et les data products. Lâentreprise lâa annoncĂ© cette semaine, Ă lâoccasion dâun sĂ©minaire de prĂ©sentation de son offre appelĂ©e IBM Data Product Hub.
Cette tendance, le « shift left », consiste Ă transfĂ©rer peu Ă peu la responsabilitĂ© des data aux utilisateurs mĂ©tiers, et lâautonomie qui va avec.
Que vous appliquiez Ă la lettre les principes du data mesh ou si vous crĂ©ez simplement des data products pour remplacer vos entrepĂŽts de donnĂ©es centralisĂ©s, vous allez passer par la recherche et lâinstallation dâune plateforme de jeux de donnĂ©es. Amazon, SAP, Microsoft mais Ă©galement des Ă©diteurs spĂ©cialisĂ©s comme Zeena, Meta-Analysis ou Orkestra Data se sont lancĂ©s dans la course. Nous en avons dĂ©jĂ parlĂ© ici.
Signe que le sujet du data mesh devient incontournable, IBM se lance Ă son tour.
Difficile de remettre en question ses habitudes de centralisation ! IBM annonce Data Product Hub, une plateforme, centralisée, pour stocker les data products.
Les sources de donnĂ©es sont des entrepĂŽts de donnĂ©es ou des lakehouses â 57 connecteurs sont annoncĂ©s. Les jeux de donnĂ©es peuvent ensuite ĂȘtre analysĂ©s avec Tableau, Watsonx de IBM ou encore en Python via la librairie Pandas. Le plan de dĂ©veloppement prĂ©voit lâincorporation dâIA gĂ©nĂ©rative dans les prochaines versions, fin 2024 et dĂ©but 2025.
Les consommateurs de donnĂ©es peuvent envoyer des requĂȘtes, demandant Ă accĂ©der aux donnĂ©es qui les intĂ©ressent. Les producteurs de donnĂ©es peuvent personnaliser les formats de gĂ©nĂ©ration des jeux de donnĂ©es, pour sâadapter aux besoins de leurs consommateurs.
La gouvernance de lâensemble est bien sur facilitĂ©e. Si vous utilisez le catalogue de donnĂ©es IBM Knowledge Catalog, le Data Product Hub pourra sây connecter. Une intĂ©gration avec Informatica est prĂ©vue fin 2024. Les jeux de donnĂ©es peuvent ĂȘtre gĂ©nĂ©rĂ©s et stockĂ©s, ou pourront ĂȘtre virtualisĂ©s Ă partir de fin 2024. La gĂ©nĂ©ration et la mise Ă jour des data products sera automatisĂ©e dans la version de dĂ©but 2025.
Point trĂšs important, des data contracts et des niveaux de service peuvent ĂȘtre implĂ©mentĂ©s afin de gouverner les Ă©changes de donnĂ©es. Un tableau de bord de suivi est mĂȘme prĂ©vu. Ces contrats « lisibles par la machine » permettront dans la version de dĂ©but 2025, de mettre en place un suivi automatisĂ© de la gouvernance.
Le Data Product Hub de IBM sera disponible en version on-premise, Ă lâachat ou Ă la location, ainsi quâen version SaaS hĂ©bergĂ©e dans le cloud IBM, ou dans dâautres grands clouds. Une version dâessai de 60 jours sera proposĂ©e par lâĂ©diteur. La version perpĂ©tuelle sera proposĂ©e Ă partir de 250 000 $, ou en location Ă partir de 100 000 $ par an. Le Data Product Hub est un nouveau composant ajoutĂ© Ă la Data Fabric de IBM.
PrĂ©parant le futur, et la monĂ©tisation des donnĂ©es, IBM inclut une fonction de place de marchĂ© â on appelle Ă©galement cela un Data Space. Mais dĂšs maintenant, les consommateurs de donnĂ©es peuvent lâutiliser pour rechercher un jeu de donnĂ©es rĂ©pondant Ă leurs besoins. Avec toutes les difficultĂ©s que lâon constate lors des tentatives de crĂ©ation de catalogues de donnĂ©es mĂ©tier, on peut espĂ©rer que les catalogues de jeux de donnĂ©es seront adoptĂ©s, par les producteurs et les consommateurs, et seront alors correctement cataloguĂ©s !
-
5 ans de prison, si vous tentez de prĂ©voir la dĂ©cision dâun juge
⊠mais comme toujours, les lignes jaunes sont contournables, pour peu que lâon prenne le temps de comprendre la loi.
Je vous parle ici dâune disposition liĂ©e Ă lâutilisation de lâintelligence artificielle dans le cadre de procĂ©dures judiciaires, tentant de prĂ©dire quel sera le comportement de tel ou tel juge dans une affaire, et pour les parties prenantes dâadapter leur stratĂ©gie.
Aux Etats-Unis, vous lâavez certainement vu dans de nombreuses sĂ©ries criminelles, la technologie est utilisĂ©e pour analyser le profil de jurĂ©s, et tenter de prĂ©voir leur positionnement, mais Ă©galement pour analyser les dĂ©cisions prises par chaque juge.
Rien de bien nouveau, car les prĂ©toires ont toujours Ă©tĂ© le berceau de rumeurs et de bruits de couloir : untel donne plutĂŽt raison aux femmes, untel nâaime pas les hispaniques, untel est contre lâautodĂ©fense, etc.
Depuis toujours, les avocats ont imaginĂ© amĂ©liorer leur stratĂ©gie, persuadĂ©s que les juges sont biaisĂ©s⊠tout simplement parce quâils sont humains. Un peu comme on commentait au lycĂ©e les professeurs qui nous Ă©taient affectĂ©s en dĂ©but dâannĂ©e, les avocats commentent les juges qui leur sont affectĂ©s en dĂ©but de procĂšs.
Mais au fait, les juges qui portent des lunettes sont-ils plus sévÚres que ceux qui ont une bonne vue ? Et les juges aux cheveux blancs sont-ils plus tolérants avec les jeunes majeurs ? Quand aux juges qui conduisent une peugeot, sont-ils plus sévÚres que ceux qui conduisent une Audi, dans les cas de violence conjugale ?
Questions absurdes ? Peut-ĂȘtre. Mais si lâapprentissage machine nous apprenait le contraire. Que lâĂąge, la vue, la couleur des cheveux, la voiture quâils conduisent prĂ©sentaient une corrĂ©lation avec leurs dĂ©cisions. Si cela Ă©tait mathĂ©matiquement prouvĂ©, quâest-ce que cela prouverait justement ? Que la justice est humaine, et donc biaisĂ©e. Dans ce cas, pourquoi ne pas lâanalyser, et en utiliser les rĂ©sultats ?
Peut-ĂȘtre mais avec des limites trĂšs claires. Une loi publiĂ©e en 2019 prĂ©cise en effet que les donnĂ©es nominatives des juges ne peuvent pas ĂȘtre utilisĂ©es. Il est donc interdit de prĂ©voir la dĂ©cision dâun juge en particulier dans une affaire. Mais elle ne peut empĂȘcher la prĂ©diction basĂ©e sur des caractĂ©ristiques, tant que celles-ci ne permettent pas de remonter Ă la personne, au juge.
Alors, les juges qui se savent analysĂ©s gardent-ils le mĂȘme comportement ? OĂč cela va-t-il les inciter modifier leurs dĂ©cisions ? Les Ă©tudes menĂ©es depuis 2019 semblent montrer que globalement ces caractĂ©ristiques interviennent trĂšs peu dans les dĂ©cisions. En revanche, les tribunaux, par le profil des affaires quâils jugent et leur volume, prennent clairement des sanctions diffĂ©rentes. Entre Bobigny et Versailles, les peines appliquĂ©es sont clairement diffĂ©rentes dans certains types dâaffaires ?
En viendra-t-on Ă prĂ©fĂ©rer une justice artificielle, un algorithme qui appliquerait la loi, rien que la loi, sans aucune humanitĂ© ? Un film espagnol, Justicia Artificial, devrait dâailleurs sortir en septembre prochain sur le sujet.
-
Plongeons dans les nuances de la gestion de la data pour le reporting financier et ESG, avec une attention particuliÚre sur l'impact récent de l'adoption de la directive CSRD. Cette réglementation, un moment charniÚre pour le reporting financier et de durabilité intégré, nécessite une assurance par une tierce partie et marque une évolution significative dans la maniÚre dont les entreprises abordent la transparence et la fiabilité de leurs données.
Aujourd'hui, alors que les entreprises du monde entier se préparent à publier leurs premiers rapports CSRD obligatoires en 2025, l'impact du CSRD se révÚle avoir une étendue bien au-delà de ceux qui sont soumis à la réglementation. Le CSRD a amorcé un virage mondial vers l'intégration assurée des rapports, les chefs d'entreprise reconnaissant la demande du marché pour des données contextuelles, transparentes et crédibles qui répondent aux attentes des parties prenantes.
En se concentrant sur les aspects pratiques et techniques, Workiva vise à clarifier comment les entreprises peuvent utiliser la data pour non seulement respecter les normes réglementaires, mais aussi pour piloter des décisions stratégiques qui favorisent un développement durable et éthique.
-
Alors que lâĂ©volution de lâintelligence artificielle (IA) gĂ©nĂ©rative se dĂ©veloppe Ă une vitesse exponentielle, bouleversant tous les pans de notre sociĂ©tĂ©, les lĂ©gislateurs, en Europe comme outre-Atlantique, doivent construire Ă marche forcĂ©e un cadre propice Ă un dĂ©veloppement Ă©thique et responsable de la technologie.
Ainsi, courant mars, le Parlement EuropĂ©en a approuvĂ© la lĂ©gislation sur lâIA gĂ©nĂ©rative qui garantit la sĂ©curitĂ© et le respect des droits fondamentaux tout en encourageant lâinnovation[1]. Celle-ci prĂ©cise notamment que l'IA gĂ©nĂ©rative doit ĂȘtre aussi transparente que possible, en dĂ©crĂ©tant que les dĂ©veloppeurs doivent dĂ©montrer prĂ©cisĂ©ment le fonctionnement du modĂšle et les donnĂ©es sur lesquelles il est entraĂźnĂ©. Par ailleurs, il y a quelques semaines, la CNIL publiait des recommandations quant au cadre juridique et aux bonnes pratiques pour le dĂ©veloppement d'un systĂšme d'IA vertueux[2].
Dans un tel contexte, et Ă mesure que lâIA gĂ©nĂ©rative et les grands modĂšles de langage se gĂ©nĂ©ralisent, l'intĂ©gration de ces technologies dans les opĂ©rations des entreprises s'accompagne de deux dilemmes Ă©thiques importants : une utilisation transparente et responsable ainsi que des rĂ©sultats fiables. Les graphes de connaissances pourraient constituer un moyen d'amĂ©liorer la transparence et la confiance exigĂ©es par la loi europĂ©enne sur l'IA.
« L'IA gĂ©nĂ©rative progresse aujourd'hui Ă une vitesse jamais vue. Si l'on ne peut espĂ©rer que les dĂ©cideurs politiques parviennent Ă suivre le rythme de cette innovation, l'absence dâun cadre et de normes garants dâun dĂ©veloppement responsable de lâIA gĂ©nĂ©rative pourrait empĂȘcher la sociĂ©tĂ© de prendre la pleine mesure du potentiel infini de cette technologie et de la mettre au service de lâintĂ©rĂȘt gĂ©nĂ©ral.
Pour que ces systÚmes profitent à la société dans son ensemble, inspirent confiance et répondent aux normes réglementaires clés, il est essentiel de prendre en compte l'infrastructure technologique au sens large et, surtout, les systÚmes de gestion de données. Les graphes de connaissances se distinguent comme la structuration de données essentielle qui améliore les solutions d'IA générative en apportant plus de précision, de transparence et d'explicabilité.
En effet, les graphes de connaissances permettent des interrogations, des dĂ©ductions et des raisonnements sĂ©mantiques basĂ©s sur les relations. Ils jouent donc un rĂŽle essentiel en agissant en complĂ©ment de l'IA gĂ©nĂ©rative, en lui permettant de modĂ©liser le raisonnement humain Ă plus grande Ă©chelle. Les graphes donnent un contexte plus profond aux donnĂ©es qui alimentent un modĂšle dâIA gĂ©nĂ©rative, ce qui permet lâexplicabilitĂ© et la pertinence, pour Ă©viter les hallucinations. De plus, grĂące Ă la gestion fine des rĂŽles et des droits sur les donnĂ©es de graphes, les organisations peuvent gĂ©rer au plus prĂšs la sĂ©curitĂ© et la confidentialitĂ©. », analyse Nicolas Rouyer, Consultant Avant-ventes Senior chez Neo4j.
-
La semaine derniĂšre Ă Paris, câĂ©tait la grand-messe de Publicis, Vivatech. NâĂ©tant pas fan de ces grands rassemblements oĂč lâon sâautocongratule entre soi, jâai pris lâavion pour le Sud. AprĂšs avoir traversĂ© la mĂ©diterranĂ©e, puis le dĂ©sert du Sahara, jâai atterri Ă LomĂ©, au Togo, oĂč se rĂ©unissaient les directeurs financiers et de contrĂŽle de gestion de lâAfrique de lâOuest.
Accueillis dans les locaux de la BOAD, les participants ont bien entendu parlĂ© dâintelligence artificielle, de donnĂ©es, et de comment la fonction finance en entreprise allait ĂȘtre impactĂ©e par ces Ă©volutions technologiques.
Avaient fait le dĂ©placement les prĂ©sidents français de la DFCG, lâassociation des directeurs financiers, et de lâAFDCC, celle des crĂ©dit managers. Les ponts entre les financiers français et leurs pairs dâAfrique de lâOuest sont actifs, et devraient lâĂȘtre encore plus dans les annĂ©es Ă venir.
Alors bien sĂ»r, on a parlĂ© de magie, de ces outils miraculeux que lâon nous promet, et de la rĂ©volution sur lâemploi quâils vont provoquer. Mais avec rĂ©alisme on a surtout Ă©voquĂ© ce qui manque Ă beaucoup dâentreprises africaines pour exploiter cette intelligence artificielle : des donnĂ©es.
Dans des pays oĂč la part de lâĂ©conomie informelle est importante, collecter et conserver des donnĂ©es semble parfois vain.
Jâai eu un Ă©change passionnant avec le directeur financier dâun groupe de distribution. Certes, il adorerait pouvoir analyser qui achĂšte quoi, quand, avec quoi⊠mais ce ne sont pas les modĂšles dâapprentissage qui lui font dĂ©faut, ce sont les donnĂ©es. Pas de remontĂ©e des lignes de tickets de caisse ; pas de carte de fidĂ©litĂ© permettant dâidentifier les clients. Il manque le basique. Difficile dâaller parler dâintelligence artificielle gĂ©nĂ©rative quand manquent la culture nĂ©cessaire Ă la collecte, Ă la valorisation et Ă la gouvernance de ces donnĂ©es.
Il serait facile de pointer du doigt le retard technologique de ces pays africains. Mais câest Ă©galement la rĂ©alitĂ© de beaucoup dâentreprises françaises. En ce moment mĂȘme, je travaille avec un industriel dans le domaine de la papeterie : il envisage prochainement la mise en place, enfin, dâune gestion des donnĂ©es de rĂ©fĂ©rence ; un service social tente de mettre en place une gouvernance, et se heurte Ă lâabsence dâarchitecture dâentreprise et dâontologie des termes utilisĂ©s en interne ; et une grosse PME dans lâagro-alimentaire change enfin dâERP et envisage son premier reporting dans un outil autre que Excel.
Alors que retenir de tout cela ? Il faut bien sur des visionnaires, des rĂȘveurs, des innovateurs et il faut un Vivatech. Mais concrĂštement beaucoup dâentreprises nâen sont pas lĂ ! Elles en sont mĂȘme loin. Leur faire croire quâelles pourront bĂ©nĂ©ficier en un claquement de doigt de ces technologies magiques, ce nâest pas leur rendre service.
Oui, câest moins drĂŽle, moins « chevere » comme dit ma fille de 17 ans, mais mettre en place une culture de la donnĂ©e, des bonnes pratiques de gouvernance, et une architecture adaptĂ©e pour collecter, conserver et par la suite analyser cette donnĂ©e, est la prioritĂ© ! Ne me parlez pas de ChatGPT tant que vous nâavez pas ces fondations. Sinon, câest comme si vous commandiez une Ferrari, alors que vous nâavez mĂȘme pas passĂ© le permis. -
Vous avez entendu parler du data mesh ? Non ? Câest normal, le concept est encore jeune, il date de 2019. Mais je suis certain que vous en appliquez dĂ©jĂ certains des principes, sans mĂȘme le savoir.
Dans votre entreprise, comme dans la plupart, la tendance est clairement Ă la reprise du contrĂŽle des donnĂ©es par les utilisateurs mĂ©tier. Finalement, ce sont leurs donnĂ©es, ils les produisent, les saisissent, les amĂ©liorent, les rendent disponibles. Nâest-il pas normal quâils soient responsables, et crĂ©ditĂ©s, de leur qualitĂ©, de leur disponibilitĂ©, de leur conformitĂ©. Pourquoi leur retirer leurs donnĂ©es, pour les centraliser, hors de leur contrĂŽle dans un data warehouse, data lake, lakehouse ou que sais-je encore ? Rendre la donnĂ©e aux mĂ©tiers, permettre Ă chacun de partager ses donnĂ©es avec dâautres, dans une plateforme commune, et encadrĂ© par de bonnes pratiques de gouvernance.
Voici quelques-uns des mots clefs quâil faut connaitre, pour comprendre cette tendance.
1. Le Data Product Owner
Le âpropriĂ©taireâ des donnĂ©es est celui qui connait la donnĂ©e, il est donc du cĂŽtĂ© des mĂ©tiers. A la demande du consommateur de donnĂ©es, il propose un jeu de donnĂ©es (le data product) et sâengage sur sa disponibilitĂ©, sa qualitĂ©, sa conformitĂ©, etc.
2. Le Data Product
Câest un jeu de donnĂ©es. Un ensemble de donnĂ©es qui rĂ©pond aux besoins dâun ou de plusieurs consommateurs de donnĂ©es. Il est dĂ©fini, crĂ©Ă©, puis produit et mis Ă jour, en fonction des besoins du consommateur et des contraintes du data product owner. Il est encadrĂ© par le data contract et mis Ă disposition sur la data product platform.
3. Le Data Contract
Le data contract est la clef de voute de lâensemble. Il formalise, contractualise, les conditions de fourniture du data product nĂ©gociĂ©es entre le mĂ©tier producteur et le mĂ©tier consommateur. Il dĂ©finit les dĂ©tails techniques, mais aussi la qualitĂ©, la disponibilitĂ©, la conformitĂ©, du data product. Souvent produit en YAML ou JSON, il est lisible par un Ătre humain, et par le logiciel. Des modĂšles standardisĂ©s sont en cours de dĂ©veloppement.
4. La Data Product Platform
Autant la relation entre consommateur et producteur de donnĂ©es est dĂ©centralisĂ©e ; autant son hĂ©bergement et sa gestion informatique, doivent ĂȘtre centralisĂ©es ! Elle catalogue, rĂ©fĂ©rence, hĂ©berge, et met Ă disposition les data products, en sâassurant du respect des rĂšgles du data contract.
5. Et enfin, le Data Product Manager
La donnĂ©e est un produit ? Elle doit donc ĂȘtre construite comme telle. Et la fonction de Data Product Manager commence Ă apparaitre. Il comprend les donnĂ©es et leurs usages, aide Ă la prĂ©paration du data contract, et sâassure que le data product rĂ©pond aux besoins exprimĂ©s. -
Voici quelques-uns des sujets que nous abordons avec Jean-Paul Otte, Responsable des services stratégiques chez Precisely :
- Posons nous la question de l'impact des nouveaux usages mobiles (IOT, mobiles) sur les données. Quelles nouvelles données collectons-nous ? Et quelles sont leurs particularités ?
- Plus l'IA se développe, plus on a besoin de l'alimenter avec des données de qualité. Comment s'assurer que les données collectées sont exactes, homogÚnes et contextualisées ?
- Quels outils permettent de détecter cette non-qualité de données ? Peut-on la corriger ? Comment ? -
Voici quelques-uns des sujets que nous abordons avec Stéphane Juillard, fondateur et CEO de Orkestra Data :
- Qu'est qu'une data platform ? Comment peut-on dĂ©finir ce terme ? DiffĂ©rences avec un Hub, une Fabric... - Orkestra est lui-mĂȘme Ă©diteur d'une data platform. Comment vous positionnez-vous par rapport Ă vos concurrents ? - Vous mettez en avant une plateforme orientĂ©e mĂ©tier : comment selon vous doivent se rĂ©partir les rĂŽles entre l'informatique et les mĂ©tiers en 2024 ? - Le data mesh, on en parle ? Ou c'est dĂ©jĂ du passĂ© ? - Vous avez publiĂ© un guide comparatif des data plateformes donc vous vous comparez vous-mĂȘme Ă vos concurrents. C'est un peu SAP qui publierait un comparatif des ERP... comment convaincre les lecteurs que ce travail a Ă©tĂ© fait de maniĂšre objective ?Si vous voulez vous aussi participer Ă une Ă©mission du podcast Decideo, envoyez un email Ă [email protected].
Pour ne manquer aucun Ă©pisode du podcast Decideo, abonnez-vous, c'est gratuit !
-
Quel appareil pour embarquer demain lâintelligence artificielle au plus prĂšs de notre corps
Le succĂšs dâApple est dĂ» au travail de milliers de personnes, mais deux dâentre elles ont fait de Apple ce quâil est devenu, on aime ou on dĂ©teste. Steve Jobs bien sĂ»r, son fondateur, mais Ă©galement Jonathan Ive, qui a supervisĂ© le design des produits pendant 27 ans. Ce qui fait la diffĂ©rence chez Apple, câest justement cette combinaison du design de produits physiques, et dâune offre logicielle parfaitement intĂ©grĂ©e.
Aujourdâhui, lâintelligence artificielle, ce sont des outils logiciels fantastiques, et qui continueront Ă se dĂ©velopper dans les prochaines annĂ©es, mais utilisĂ©s Ă partir dâappareils physiques et dâinterfaces utilisateurs datĂ©es, pour ne pas dire prĂ©historiques.
Ouvrir votre navigateur pour poser une question Ă ChatGPT au travers dâun clavier et dâun Ă©cran⊠quelle tristesse ! On peut bien sĂ»r imaginer lâadaptation des montres connectĂ©es, des casques de rĂ©alitĂ© virtuelle, ou des assistants vocaux afin quâils servent dâinterface Ă ces outils. Une IA dont on dit que son impact sera plus important sur notre sociĂ©tĂ© que la rĂ©volution industrielle.
Quel outil ? Quel objet ? Quelle interface ?
Le BlackBerry, puis lâiPhone, en leurs temps, ont inventĂ© pour nous de nouveaux usages. Le dĂ©roulement continue des pages sans fin sur les rĂ©seaux sociaux a fondamentalement changĂ© notre maniĂšre de naviguer.
LâIA va devoir nous apporter un support au moins aussi rĂ©volutionnaire. On parle beaucoup dâun assistant personnel, dâun dispositif nous permettant dâaccĂ©der en toutes situations, Ă cette IA Ă notre service. Un nouvel appareil qui ne serait ni un tĂ©lĂ©phone, ni un ordinateur, avec lequel nous communiquerions sans doute avec la voix, et qui serait portable, connectĂ©, lĂ©ger ; en rĂ©sumĂ©, quelque chose qui nâexiste pas encore, mais qui deviendrait notre compagnon intelligent, notre deuxiĂšme cerveau dit-on parfois.
Mais alors, qui et quand ? Bien sĂ»r je nâai pas la rĂ©ponse dĂ©finitive Ă ces questions.
Mais, et câest lâobjet de cette chronique, une association annoncĂ©e il y a quelques jours mĂ©rite notre attention.
Jony Ive, et câest lĂ quâil intervient, vient dâannoncer sâassocier avec Sam Altman, le patron dâOpenAI, afin de lever des fonds pour dĂ©velopper ce fameux assistant intelligent.
Pour Sam Altman, câest la bonne dĂ©cision. Sâil ne dĂ©veloppe pas son propre appareil, OpenAI risque dâĂȘtre cantonnĂ© Ă son rĂŽle dâOEM, de fournir des intelligences artificielles Ă ceux qui voudront bien les intĂ©grer. Mais il a certainement compris que le succĂšs dâApple vient de cette intĂ©gration. Dâailleurs mĂȘme Microsoft a cherchĂ© plusieurs fois, sans grand succĂšs, Ă dĂ©velopper ses propres matĂ©riels.
Donc une IA sans appareil pour lâhĂ©berger, restera toujours un logiciel, Ă la merci des choix des fournisseurs de matĂ©riels.
En sâassociant Ă Jony Ive, il montre aussi quâil a compris que le matĂ©riel doit ĂȘtre beau, attirant, pour que lâon ait envie de dĂ©penser beaucoup dâargent pour se lâoffrir, et pour le montrer. Le rĂ©cent lancement du casque Apple Vision Pro en est encore un exemple.
Les travaux dâApple inquiĂštent trĂšs certainement Sam Altman ; lâabandon du projet de voiture Apple est une mauvaise nouvelle pour lui. Car ce sont des milliards qui auraient Ă©tĂ© dĂ©pensĂ©s sur ce projet et qui pourraient ĂȘtre rĂ©affectĂ©s Ă dâautres projets, justement dans lâIA.
Car si Apple est en retard en matiĂšre dâoffre dâIA Ă grande Ă©chelle, lâentreprise dispose justement du savoir-faire et dâappareils existants, iPhone, Apple Watch, HomePod, etc.
Le combat des chefs pourrait ĂȘtre demain Apple contre OpenAI. Le premier dispose du savoir-faire matĂ©riel, mais doit sâamĂ©liorer sur la partie logicielle. Le second est en avance sur le logiciel, mais totalement absent de la partie matĂ©rielle.
Donc cette nouvelle sociĂ©tĂ© qui serait en cours de crĂ©ation, pourrait lever pas moins dâun milliard de dollars. De quoi lui permettre de dĂ©velopper tranquillement son assistant personnel. Une somme que Jony Ive et Sam Altman ne devraient pas avoir trop de mal Ă rĂ©unir. Des rumeurs courent dâailleurs que la veuve de Steve Jobs, Laurene Powell Jobs, figurerait parmi les investisseurs. Avec ce nouveau de financement, les enjeux sont importants. Jony Ive et Laurene Powell Jobs se retrouveraient en concurrence directe avec Apple. Les conseils dâadministration vont ĂȘtre tendus !
Il manque dâailleurs une partie importante Ă lâassociation Altman â Ive : la fabrication du matĂ©riel. Maitriser comme Apple le fait, la totalitĂ© de la production est un atout Ă©norme. ARM, le fabricant de micro-processeurs serait dâailleurs en discussion avec les fondateurs.
Si vous voulez avoir une idĂ©e de ce que pourrait ĂȘtre demain un dispositif de ce type, jetez un Ćil au AI Pin dĂ©veloppĂ© par la sociĂ©tĂ© Humane. Une broche que lâon porte sur sa poitrine et avec laquelle on interagit par la voix et par le geste.
Et puis pour terminer, rĂȘvons un peu⊠Et si Apple, Jonathan Ive et Sam Altman, dĂ©cidaient finalement de travailler ensemble. Les modĂšles de OpenAI, le design de Jony Ive, et la puissance de Apple. Câest un trio gagnant !
-
Cécile Petitgand est l'auteur du livre : Données personnelles, reprenons le pouvoir - réflexions sur la gouvernance citoyenne à l'Úre du numérique, publié aux Editions Hermann.
Avec elle, nous nous interrogeons sur la relation parfois ambigĂŒe que nous entretenons avec nos donnĂ©es personnelles.
Est-on en train de perdre ou au contraire pouvons-nous reprendre le contrÎle de nos données personnelles ? Le grand public commence-t-il à avoir conscience de la valeur de ses données personnelles ? Ces derniÚres années, a-t-on progressé ou regressé dans ce domaine ? Et les nouvelles générations, quelle est leur attitude vis à vis des données personnelles ? Les gouvernements montrent-ils l'exemple en protégeant et en exploitant correctement les données qu'ils collectent sur leurs citoyens ? -
Lâadministration amĂ©ricaine va nommer ses premiers CAIO (Chief Artificial Intelligence Officer) et former ses comitĂ©s de gouvernance
Suite Ă lâExecutive Order signĂ© par Joe Biden le 30 octobre 2023, lâadministration amĂ©ricaine a publiĂ© un MĂ©morandum destinĂ© Ă lâensemble des agences et dĂ©partements de lâadministration amĂ©ricaine.
Dans ce document, Shalanda D. Young, prĂ©cise que les administrations concernĂ©es devront nommer dâici le 28 mai 2024, un Chief Artificial Intelligence Officer (CAIO), dont le document dĂ©finit le profil, ainsi que former un comitĂ© de gouvernance de lâIA.
Les principales responsabilités du CAIO seront les suivantes
- coordonner l'utilisation de l'IA dans lâagence gouvernementale ;
- promouvoir l'innovation liée à l'IA ;
- gérer les risques liés à l'utilisation de l'IA.
Le mĂ©morandum prĂ©cise que la personne choisie pour occuper cette fonction peut ĂȘtre le directeur des systĂšmes dâinformation, ou le directeur du data office ; mais il peut Ă©galement sâagir dâun recrutement extĂ©rieur. La description de poste (en pages 6 et 7 du document) permet de dĂ©tailler les trois points indiquĂ©s ci-dessus et lâensemble des tĂąches qui leur sont connectĂ©es, dont :
Un travail de coordination avec lâensemble des dĂ©partements et agences de lâadministration y compris dans le domaine des ressources humaines afin de prendre en compte lâimpact sur les mĂ©tiers actuels et le besoin de formation ; Promotion de lâĂ©galitĂ© et de lâinclusion dans les processus de dĂ©cision ; Identification et cartographie des risques, en particulier en matiĂšre de sĂ©curitĂ© et de respect des droits ; Ătablissement de procĂ©dures de contrĂŽle afin de vĂ©rifier la conformitĂ© des systĂšmes dâIA utilisĂ©s avec les lois et rĂšglements amĂ©ricains ;- Le document prĂ©voit que pour rĂ©aliser ces tĂąches, le CAIO doit avoir une position hiĂ©rarchique suffisamment Ă©levĂ©e pour dâune part Ă©changer avec les directions des autres agences, et dâautre part vĂ©rifier la conformitĂ© des systĂšmes dâIA implĂ©mentĂ©s dans les directions de sa propre agence.
En parallĂšle, le document demande Ă chaque agence de mettre en place un comitĂ© de gouvernance de lâintelligence artificielle. Il peut sâagir dâun comitĂ© existant (par exemple de gouvernance des donnĂ©es) dont les compĂ©tences seront Ă©largies Ă lâIA.
Devront participer Ă ce comitĂ© au moins les dĂ©partements suivants : « informatique, cybersĂ©curitĂ©, donnĂ©es, vie privĂ©e, droits civils et libertĂ©s civiles, Ă©quitĂ©, statistiques, capital humain, achats, budget, affaires juridiques, gestion de l'agence, expĂ©rience client, Ă©valuation des programmes, et responsables de la mise en Ćuvre de l'IA au sein du ou des bureaux de programme de l'agence. Les agences devraient Ă©galement envisager d'inclure des reprĂ©sentants de leur bureau de l'inspecteur gĂ©nĂ©ral respectif »
AprĂšs cette avancĂ©e en matiĂšre dâorganisation et de ressources, comment les autres pays vont-ils sâorganiser ? Quand verra-t-on dans lâadministration française, canadienne, suisse ou belge la nomination de CAIOs et de comitĂ©s de gouvernance de lâIA ?
-
Les prompts sont des données : va-t-il falloir les cataloguer ?
Selon une enquĂȘte de lâAssociated Press, dĂ©jĂ 70 % des rĂ©dacteurs utilisent lâIA gĂ©nĂ©rative pour produire du contenu. Les donnĂ©es sont omniprĂ©sentes dans la dĂ©marche : dans lâalimentation des modĂšles, dans les prompts et dans les contenus produits.
Si jâĂ©cris demain un article Ă lâaide dâun traitement de texte, câest moi qui en serai lâauteur et non Word. Mais si jâĂ©cris les prompts qui me permettent de demander Ă ChatGPT de produire cet article, ou le code dâun logiciel, ce serait donc ChatGPT qui deviendrait lâauteur ? Non, et heureusement, il a dĂ©jĂ Ă©tĂ© Ă©tabli par jurisprudence dans plusieurs pays, quâune IA ne pouvait pas obtenir de droits de propriĂ©tĂ© sur ses propres crĂ©ations. LâIA nâa pas de personnalitĂ© juridique. Câest lâHumain qui a pilotĂ© lâIA qui est reconnu comme auteur de ses crĂ©ations.
Mais demain, le journaliste, le scĂ©nariste, mais Ă©galement le programmeur, le rĂ©dacteur de documentation, ne manipuleront plus directement les mots, mais les prompts qui serviront Ă les produire. Pourrait-on aller jusquâĂ dĂ©poser et protĂ©ger un prompt, tout comme on protĂšge un livre, un logiciel ou un scĂ©nario ? Peut-ĂȘtre est-ce une idĂ©e Ă creuser. Juristes spĂ©cialistes de la propriĂ©tĂ© intellectuelle, je vous lance la perche !
En tous cas, ces prompts, ce sont Ă©galement des donnĂ©es. Et il faut les collecter, les stocker, et donc peut-ĂȘtre les protĂ©ger, afin de faire le lien entre le prompt et le contenu quâil a produit.
En entreprise, la rĂ©plicabilitĂ© et lâexplicabilitĂ© sont des sujets importants. Si je lance deux fois la mĂȘme requĂȘte sur une mĂȘme base de donnĂ©es, je dois obtenir le mĂȘme rĂ©sultat. Sinon, jâai un problĂšme. Ătes-vous certain que le mĂȘme prompt lancĂ© dans le mĂȘme outil dâIA gĂ©nĂ©rative, produira le mĂȘme contenu ?
Je ne crois pas, et câest un vrai problĂšme.
Si jâutilise lâIA gĂ©nĂ©rative pour transformer une question en langage naturel en requĂȘte SQL, la mĂȘme question donnera-t-elle toujours la mĂȘme rĂ©ponse ? Si non, ça sent le crĂ©page de chignon en rĂ©union du lundi matin. Ăa peut faire sourire, mais imaginez que votre tableau Excel donne des rĂ©sultats diffĂ©rents en fonction de lâheure de la journĂ©e, de la mĂ©tĂ©o ou de lâĂąge du capitaine.Je vous parle beaucoup en ce moment de gouvernance de lâintelligence artificielle. Une des facettes de cette gouvernance, sera la gestion des prompts. Leur historisation, la traçabilitĂ© de leur cycle de vie, le lien entre le prompt et son rĂ©sultat, etc. Des tas de mĂ©tadonnĂ©es quâil va falloir organiser.
Je ne sais pas encore comment nous lâappellerons, mais câest un outil quâil va falloir inventer. On y retrouvera :
- Lâhistorisation des prompts utilisĂ©s, et de leurs mĂ©tadonnĂ©es ;
- La traçabilitĂ©, le lineage, qui a menĂ© du prompt au rĂ©sultat. Quel modĂšle a Ă©tĂ© utilisĂ©, quelle version, quelles donnĂ©es dâentrainement, etc..Cet outil permettra Ă©galement de vĂ©rifier les droits dâaccĂšs, la conformitĂ© des donnĂ©es utilisĂ©es, et produites. Et il assurera la piste dâaudit nĂ©cessaire pour quâen cas de besoin, le service conformitĂ© ou audit interne, voir une autoritĂ© extĂ©rieure, puissent remonter lâhistorique.
Vous voyez que le sujet de la gouvernance de lâIA, et des donnĂ©es qui vont avec, nâest pas une mince affaire. On est loin de votre ado tout fier dâavoir utilisĂ© ChatGPT pour rĂ©diger 10 lignes sur la rĂ©volution russe !
Si vous envisagez une utilisation sĂ©rieuse, et en production, de lâintelligence artificielle, vous devrez passer par les Ă©tapes que je viens de dĂ©crire. Et si vous cherchez une idĂ©e de business Ă crĂ©er dans le domaine du logiciel, regardez du cĂŽtĂ© dâune plate-forme de traçabilitĂ© des usages de lâIA en entreprise⊠il y a tout un marchĂ© !
-
Cette semaine, Decideo a rencontrĂ© Jean-Guillaume Pelletier, associĂ© de Mindmatcher, pour parler de la cartographie des mĂ©tiers du numĂ©rique, Ă laquelle il a collaborĂ©, pour le compte de GEN - Grande Ecole du NumĂ©rique. - Vous avez aidĂ© la Grande Ecole du NumĂ©rique, crĂ©Ă©e en 2015 par le gouvernement, Ă cartographier les mĂ©tiers du numĂ©rique. Quel a Ă©tĂ© votre apport et votre rĂŽle dans l'Ă©tablissement de cette cartographie ? - Quelles ont Ă©tĂ© les technologies utilisĂ©es ? Et les donnĂ©es sur lesquelles vous vous ĂȘtes appuyĂ© ? - Comment avez-vous Ă©vitĂ© les biais ? - On parle de signaux faibles lorsqu'il s'agit d'anticiper des tendances... depuis au moins 20 ans. Qu'y a-t-il de nouveau dans ce domaine ? - La limite de l'IA, comme elle s'appuie sur des donnĂ©es du passĂ©, c'est qu'elle est incapable de prĂ©voir l'imprĂ©visible. Comment avez-vous procĂ©dĂ© ? - Est-ce que ce travail peut ĂȘtre reproduit dans les entreprises ? Si vous voulez vous aussi participer Ă une Ă©mission du podcast Decideo, envoyez un email Ă [email protected].
-
SAP et le data mesh
Depuis que le concept de data mesh a Ă©mergĂ© en 2019, la rĂ©ponse des grands Ă©diteurs de solutions centralisĂ©es Ă©tait attendue. SAP nâĂ©tant clairement pas un ardent dĂ©fenseur de la dĂ©centralisation, il Ă©tait lĂ©gitime pour ses clients de se demander comment lâediteur allait aborder le sujet.
LancĂ© en 2019, formalisĂ© en 2022 dans le livre Ă©ponyme, le concept de data mesh a convaincu un certain nombre dâentreprises comme Suez, Le bon coin, Paypal, Eurotunnel, etc. Certains ne le nomment pas, et en choisissent les principes quâils souhaitent appliquer. Mais tous font un pas vers la dĂ©centralisation de la responsabilitĂ© des donnĂ©es vers les domaines mĂ©tiers, et la migration de data warehouses centralisĂ©s vers des data products, dĂ©centralisĂ©s fonctionnellement et centralisĂ©s techniquement.
Centraliser les données ou les jeux de données ?
La rĂ©ponse de SAP est apparue rĂ©cemment, elle sâappelle SAP Datasphere. Soit pour ne pas avoir Ă payer de royalties, soit pour ne pas avouer quâil nâest pas lâinventeur du concept, SAP nâutilise quasiment pas lâexpression data mesh dans sa communication. Mais lâobjectif est clairement de rĂ©pondre Ă cette Ă©volution. Voyons ensemble comment.
Il y a quelques annĂ©es, SAP migrant vers le cloud, proposait comme solution centrale Ă un systĂšme dĂ©cisionnel son offre SAP Data Warehouse Cloud. Evoluant sur les plans technologiques et marketing, SAP Data Warehouse Cloud est devenu SAP Datasphere. Et il y a tout juste un an, SAP a prĂ©sentĂ© SAP business data fabric, basĂ©e sur SAP Datasphere comme coeur de la conception des systĂšmes dĂ©cisionnels pour ses clients. âi[Data Fabric est une architecture technique, qui permet de rassembler des donnĂ©es hĂ©tĂ©rogĂšnes en provenance de plusieurs sources]iâ, explique Wolfgang Epting, expert produit chez SAP. On est donc bien dans une architecture de centralisation des donnĂ©es. Mais en rĂ©alitĂ©, SAP dĂ©fend que SAP Datasphere peut ĂȘtre utilisĂ© pour centraliser, de maniĂšre technique uniquement, des donnĂ©es ou des jeux de donnĂ©es (data products) qui peuvent provenir de sources externes.
Ainsi, en définissant et construisant les data products dans les domaines métier, comme le préconise le data mesh, mais en les stockant dans la SAP business data fabric, cette derniÚre devient une plateforme selfservice de jeux de données. Les quatre principes du data mesh sont bien respectés : les domaines, les jeux de données, la plateforme en libre-service, et la gouvernance fédéralisée.
Il faudra cependant resister Ă la tentation de stocker les donnĂ©es unitaires dans SAP business data fabric et dây fabriquer les jeux de donnĂ©es, auquel cas il nây aurait plus de dĂ©centralisation et lâon retrouverait le trio data warehouse - data lake - data mart. Le data mesh est avant tout un changement de paradigme, une organisation diffĂ©rente, dĂ©centralisant la responsabilitĂ© des donnĂ©es dans les mĂ©tiers, et modifiant la rĂ©partition des rĂŽles entre lâinformatique et les mĂ©tiers. Les luttes de pouvoir pourraient se rĂ©veiller Ă lâoccasion de cette mise en placeâŠ
Cataloguer, la premiĂšre pierre de lâĂ©difice
Quâil sâagisse de gouvernance ou de data mesh, le catalogue des donnĂ©es est au centre du dispositif. SAP ou pas, sans catalogue de donnĂ©es, toute la gouvernance et la dĂ©centralisation des responsabilitĂ©s vers les mĂ©tiers, seront incomplĂštes et surtout bien compliquĂ©es Ă appliquer.
SAP sâest beaucoup appuyĂ© sur ses partenaires pour la crĂ©ation du catalogue des donnĂ©es. Collibra semble le partenaire Ă©diteur privilĂ©giĂ©. Dâailleurs, en terme de couverture fonctionnelle, comme de coĂ»t et de dĂ©lai de mise en place, il nâest pas rare dâentender Collibra qualifiĂ© de âSAP des catalogues de donnĂ©esâ.
JusquâĂ ce que SAP annonce sa propre solution, SAP Datasphere Catalog. Il permet â i[de dĂ©couvrir, gĂ©rer et controler, toutes les donnĂ©es afin de garantir une gouvernance transverse de lâensemble de leur cycle de vie]iâ, explique Wolfgang Epting. Il sâappuie sur un graphe de connaissance, qui met en relation les donnĂ©es, les mĂ©tadonnĂ©es, et les processus mĂ©tier. DĂšs la version 1.0 de SAP Datasphere, publiĂ©e en janvier 2024, il est possible de rechercher en une fois des donnĂ©es et des jeux de donnĂ©es dans le catalogue.
Dans la feuille de route publiĂ©e par SAP, la connexion entre les data products et le catalogue de donnĂ©es, est prĂ©vue pour le dernier trimestre 2024. Les data products pourront alors sâenrichir des mĂ©tadonnĂ©es du catalogue. Le catalogue de donnĂ©es pourrait alors devenir un catalogue de data products. Lâextraction automatique des mĂ©tadonnĂ©es pour alimenter Datasphere est prĂ©vue pour le premier trimestre 2025. Une question intĂ©ressante se pose alors en ce qui concerne lâavenir de la coopĂ©tition avec Collibra, et de lâimpact de SAP Datasphere Catalog sur les clients actuellement Ă©quipĂ©s de SAP et de Collibra⊠Devront ils cumuler les deux solutions ou SAP leur conseillera-t-il amicalement de se concentrer sur sa propre solution ?
Vers le partage et la monétisation des données
Autre Ă©volution intĂ©ressante, la place de marchĂ© de jeux de donnĂ©es que pourrait devenir SAP Datasphere. Les diffĂ©rentes fonctionnalitĂ©s liĂ©es Ă la publication de donnĂ©es et de jeux de donnĂ©es sont prĂ©vues dans le courant de 2024. Seule lâouverture vers une place de marchĂ© publique est inscrite dans la vision mais non encore planifiĂ©e.
Franchement, si le ramage de SAP business data fabric, et ses composants Datasphere et Catalog, se rapportent Ă leur plumage, cette Ă©volution de lâoffre de SAP est en ligne avec celle des bonnes pratiques, et câest une bonne nouvelle. Reste Ă voir le prix, les ressources de mise en Ćuvre, et la complexitĂ©.
-
DBOS, la base de donnĂ©es au coeur dâun futur systĂšme dâexploitation
Quand vous entendez le nom de Michael Stonebraker, et que vous avez quelques souvenirs de vos cours dâhistoire du logiciel, vos neurones se rĂ©activent.
Michael Stonebraker est en effet le concepteur de Ingres, au début des années 70, qui donnera naissance à Sybase, à Postgres. Spécialiste des bases de données, il donnera naissance à de nombreuses entreprises dont Vertica, VoltDB, etc. et sera pendant plusieurs années le directeur technique de Informix.
Et si vous avez perdu la mĂ©moire de cette histoire des bases de donnĂ©es, oĂč si vous ne vous y ĂȘtes jamais intĂ©ressĂ©, je vous conseille la lecture du petit livre rouge du sujet : RedBook.io. Disponible gratuitement, la 5Ăšme Ă©dition, qui date de 2015, vous permettra de comprendre comment et pourquoi ont Ă©tĂ© crĂ©Ă©s ces composants indispensables de notre systĂšme dâinformation, les bases de donnĂ©es.
Mais ce nâest pas le sujet du jour. En effet, Ă 80 ans, Michael Stonebraker nâa pas lâintention de partir Ă la pĂȘche au coeur de lâAmĂ©rique profonde, mais plutĂŽt de se lancer dans un nouveau projet : DBOS !
La rĂ©flexion de Michael Stonebraker part du rĂŽle croissant de la donnĂ©e dans le systĂšme dâinformation. Notre Ă©conomie âdata drivenâ, nos entreprises âdata drivenâ, notre architecture informatique bientĂŽt âdata drivenâ. Mais nos systĂšmes dâexploitation ne le sont pas encore; Linux par exemple.
Pour Michael Stonebraker, il est temps de sĂ©parer les donnĂ©es du code du systĂšme dâexploitation, et rĂ©duire celui-ci Ă un petit noyau logiciel, exĂ©cutant quelques fonctions basiques de bas niveau. Tout le reste sâexĂ©cute dans la base de donnĂ©es. Cela fait maintenant trois ans quâil travaille au MIT et Ă Stanford sur le sujet. Depuis une quinzaine dâannĂ©es les bases de donnĂ©es relationnelles OLTP ont Ă©tĂ© grandement optimisĂ©es; elles pourraient donc aujourdâhui supporter lâexĂ©cution des tĂąches dâun systĂšme dâexploitation, explique-t-il. LâidĂ©e est donc de faire tourner lâOS dans la base de donnĂ©es.
Une des fonctionnalitĂ©s intĂ©ressantes est le âtime travel debuggerâ. Il permet de remonter dans lâhistorique du systĂšme dâexploitation, par exemple en cas de cyber-attaque, et de revenir Ă la situation antĂ©rieure, instantanĂ©ment.
DBOS, qui compte pour lâinstant une Ă©quipe de dix personnes, a levĂ© 8,5 millions de dollars pour lancer ses activitĂ©s. Michael Stonebraker en est un des cofondateurs, et le directeur technique. Un autre des cofondateurs est lâancien directeur technique de Databricks. DBOS serait dĂ©jĂ en test dans une grande banque et une sociĂ©tĂ© du secteur agro-alimentaire.
Pour en savoir plus, https://www.dbos.dev/
- Laat meer zien