Afleveringen

  • Vous en avez assez d’entendre parler de LLM, de prompt, de text token, ou de adversarial machine learning ? Ça tombe bien, le 6 septembre dernier, le Journal Officiel de la RĂ©publique Française a publiĂ©, pour la rentrĂ©e des classes, la liste relative au vocabulaire de l’intelligence artificielle. La commission d’enrichissement de la langue française a retenu quatorze termes ; elle les a traduits, et dĂ©finit.

    Ainsi, vous pourrez parler de Grands ModĂšles de Langage, les GML ; d’instructions gĂ©nĂ©ratives pour les prompts, de jeton textuel pour les text token, et d’apprentissage antagoniste pour l’adversarial machine learning.

    Plus aucune excuse pour truffer vos textes et vos vidĂ©os de ces anglicismes qui ne rendent pas hommage Ă  notre langue. Ça fait plus chic ? C’est plus court ? Tout le monde le dit ? Toutes ces excuses sont valables, mais avec un petit effort, vous verrez que vos textes en ressortiront de meilleure facture. Et ne devenez pas ces directeurs marketing que je rencontre rĂ©guliĂšrement et qui commencent leur prĂ©sentation en s’excusant des mots anglais qu’ils utiliseront
 sous prĂ©texte que, vous savez, je vis aux States depuis plusieurs annĂ©es, et je ne sais plus comment on dit en français.

    Cinq pages du JO du 6 septembre Ă  imprimer donc, et Ă  garder bien visible sur votre bureau.

    Ah tiens d’ailleurs, il y en a un qui manque ! Je n’ai pas trouvĂ© la traduction de RAG, Retrieval Augmented Generation. Il va falloir continuer l’enrichissement du dictionnaire. J’ai trouvĂ© sur Internet une traduction sous forme de GĂ©nĂ©ration AugmentĂ©e de RĂ©cupĂ©ration. Pourquoi pas. Qu’en pensez-vous ?

    A tiens, amis quĂ©bĂ©cois qui nous Ă©coutez, vous qui ĂȘtes si prompts Ă  dĂ©fendre la langue française, montrez l’exemple ! Le problĂšme c’est que nous ne sommes pas toujours d’accord sur les traductions
 Ainsi l’Office QuĂ©bĂ©cois de la Langue Française recommande d’utiliser le terme de « requĂȘte » pour dĂ©signer les prompts. Alors requĂȘte ou instruction gĂ©nĂ©rative ? Qu’en pensez-vous ?

  • Le MIT a recensĂ© 777 risques potentiels liĂ©s Ă  l’IA dans une base de donnĂ©es partagĂ©e gratuitement

    Cet Ă©tĂ©, le MIT nous a fait un cadeau ! Le prestigieux organisme de recherche amĂ©ricain a publiĂ© un rĂ©fĂ©rentiel complet des risques liĂ©s Ă  l’intelligence artificielle. L’objectif : vous aider Ă  cartographier l’ensemble des risques qui pĂšsent sur votre entreprise afin de les mesurer, les quantifier et les mitiger par la suite.

    Si vous suivez mes contenus sur le thĂšme de la gouvernance des donnĂ©es et de l’intelligence artificielle, vous avez dĂ©jĂ  Ă©tĂ© sensibilisĂ© au fait que la mise en place d’un cadre de gouvernance passe par l’identification et la cartographie des risques.

    Comment en effet attĂ©nuer quelque chose que l’on n’a pas rĂ©fĂ©rencĂ© et mesurĂ© ?

    PremiĂšre tĂąche donc, l’identification et la cartographie des risques en matiĂšre d’intelligence artificielle. Risques liĂ©s aux donnĂ©es, aux modĂšles, aux usages, les risques sont nombreux. Et l’IA Act europĂ©en prĂ©voit d’ailleurs l’obligation de les identifier et de les suivre, afin de classifier les modĂšles d’IA en fonction des risques encourus.

    Mais partir d’une feuille blanche et se gratter la tĂȘte en faisant le tour des bureaux n’est pas la mĂ©thode la plus efficace. Or il n’existait pas jusqu’à prĂ©sent un rĂ©fĂ©rentiel unique, mais plusieurs rĂ©fĂ©rentiels, tous incomplets, et orientĂ©s.

    Ces derniers mois, les Ă©quipes du MIT ont rĂ©alisĂ© un travail de compilation et d’organisation de l’ensemble des rĂ©fĂ©rentiels qu’ils ont pu identifier ; regroupant l’ensemble des risques dans une taxonomie commune. The AI Risk Repository est donc un travail de synthĂšse des risques en provenance de 43 taxonomies diffĂ©rentes. Au total, 777 risques ont Ă©tĂ© identifiĂ©s, regroupĂ©s et ordonnĂ©s dans la taxonomie du MIT.

    Ce travail de synthĂšse est fourni sous forme d’un fichier Excel ou Google Sheets. Avec 777 risques dĂ©crits, c’est Ă©videmment beaucoup trop pour la trĂšs grande majoritĂ© des entreprises, et un important travail de comprĂ©hension et de sĂ©lection reste Ă  faire.

    Par ailleurs chaque entreprise devra Ă©valuer le degrĂ© de survenance de ce risque dans sa propre organisation ; ainsi que les impacts de cette survenance sur son mĂ©tier. Personne ne peut faire ce travail Ă  votre place. Mais bien sĂ»r, remercions le MIT pour cette synthĂšse qui permet de partir de quelque chose, d’envisager Ă  peu prĂšs tous les cas possibles, et ainsi de progresser dans cette cartographie des risques liĂ©s Ă  l’IA.

    Le framework à déployer est donc le suivant :

    - Commencez par prendre connaissance de la base de données des risques du MIT ;

    - Sensibilisez la direction gĂ©nĂ©rale Ă  l’importance, et parfois Ă  l’obligation, de connaitre le niveau d’exposition de l’entreprise ;

    - Programmez des ateliers avec les diffĂ©rentes personnes concernĂ©es, mĂ©tier et informatique, afin de sĂ©lectionner dans la base du MIT les risques applicables Ă  l’entreprise ;

    - N’hĂ©sitez pas Ă  vous faire accompagner dans cette phase afin de dĂ©marrer correctement ; un consultant spĂ©cialisĂ© peut ĂȘtre un booster et un garde-fou ;

    - Pour chacun de ces risques, évaluez leur probabilité de survenance, et les impacts, financiers et autres, de cette survenance éventuelle ;

    - Reportez tout cela dans un outil spécialisé de gestion de risques ou à défaut dans une feuille Excel ;

    - Mettez en place les stratégies de modération de ces risques ;

    - Ne pas oublier de répéter ce processus, lorsque les risques changent ou au minimum une fois par an, afin de maintenir à jour cette cartographie.

    Alors je vous entends dĂ©jĂ  critiquer ! Jamais je n’aurai le temps de faire cela, la DG ne nous donnera pas de budget, encore un truc qui va rester sur les Ă©tagĂšres, bla bla bla


    Vous avez raison de vous inquiĂ©ter ! Mais en mĂȘme temps soyons direct, ce n’est pas un choix. Bien sĂ»r, une PME peut choisir de prendre des risques, sans les mesurer, et en assumer par la suite les consĂ©quences. Mais assurez-vous que cette dĂ©cision de ne pas cartographier les risques liĂ©s Ă  l’IA soit bien prise au plus haut niveau. Et un conseil, protĂ©gez vos arriĂšres, et conservez bien la trace de cette dĂ©cision.

    Et si votre DG est plus raisonnable, et comprend l’importance de connaitre et mesurer ces risques, allez-y progressivement. Posez les premiers jalons, et commencez les ateliers. Tiens, par exemple, commencez par les nouveaux projets ! Un nouveau POC d’IA ? DĂšs la phase de POC, rapprochez-vous des Ă©quipes, abordez le sujet, et cartographiez les risques Ă  la volĂ©e. En incluant la gouvernance de l’IA dans la phase de design des projets, le fameux « Governance by design », vous rendrez le sujet beaucoup plus fluide. C’est ce que j’appelle le DevSecGovOps, penser Ă  la gouvernance dĂšs la phase de conception, et en faire un Ă©lĂ©ment essentiel de la mise en production.

  • Zijn er afleveringen die ontbreken?

    Klik hier om de feed te vernieuwen.

  • Vous avez 23 ans, vous mesurez 1 mĂštre 77, et vous pesez 72 kilos ? Vous avez, contrairement Ă  moi, le profil idĂ©al pour remporter le 100 mĂštres, Ă©preuve reine de l’athlĂ©tisme aux jeux olympiques.

    Si en revanche vous avez plus de 27 ans
 dĂ©solĂ©, vous ĂȘtes dĂ©jĂ  disqualifiĂ© par l’analyse statistique. Cependant, si vous ĂȘtes un peu en surpoids, jusqu’à 108 kilos, vous pouvez tenter le lancer de poids. Les grands triompheront au lancer de disque, quant aux plus petits qu’un mĂštre soixante
 ils n’ont que peu de chance d’obtenir une mĂ©daille en athlĂ©tisme.

    Non, mesdames, je ne vous oublie pas. Et les statistiques semblent se rejoindre. Si vous avez 22 ans, que vous mesurez 1 mÚtre 66, et que vous pesez 57 kilos, la médaille du 100 mÚtres est à votre portée, mathématiquement. Là encore, quelques kilos supplémentaires vous permettront de tenter le lancer de poids. Les plus grandes lanceront le disque tandis que les plus petites triompheront au 10 000 mÚtres et au marathon.

    CommanditĂ© par JeffBet, un site de paris en ligne, l’étude porte sur les donnĂ©es de 222 500 athlĂštes olympiques, collectĂ©es depuis 120 ans. Pour JeffBet, remporter une Ă©preuve dĂ©pend certes du courage, de la volontĂ©, de l’entrainement, mais Ă©galement de caractĂ©ristiques purement physiques. Et c’est l’idĂ©e de la sociĂ©tĂ© de paris en ligne, qui tente de convaincre que l’on peut amĂ©liorer ses probabilitĂ©s de miser sur le gagnant, sans le connaitre, mais en Ă©tudiant uniquement ses donnĂ©es.

    Le livre Money Ball de Michael Lewis, publiĂ© en 2003, nous contait dĂ©jĂ  l’histoire controversĂ© d’un sĂ©lectionneur de baseball qui utilisait les donnĂ©es pour compenser le manque de moyens de son Ă©quipe, et identifier statistiquement les meilleurs joueurs.

    Alors que vous soyez pro-statistiques, persuadés que le monde est régi par la mathématique et les probabilités ; ou que vous soyez convaincu que les statistiques ne sont en aucun cas déterministes, oubliez un peu les data pendant quelques semaines, passez de bonnes vacances, et retrouvez de nouvelles émissions de votre podcast Decideo dÚs la rentrée de septembre pour une nouvelle saison, la cinquiÚme !

  • Gouvernance des donnĂ©es : quelques prĂ©requis organisationnels

    Ayant l’opportunitĂ© d’accompagner de nombreuses entreprises dans la mise en place d’une gouvernance des donnĂ©es orientĂ©e mĂ©tier, je voudrais partager avec vous aujourd’hui quelques prĂ©requis organisationnels. EloignĂ©s des habituels conseils sur les outils Ă  dĂ©ployer, je constate que les premiers pas Ă  rĂ©aliser, et pas les plus faciles, sont liĂ©s aux personnes et Ă  l’organisation. Trois questions !

    Qui ?

    Cela peut paraitre Ă©vident, mais dans la rĂ©alitĂ©, la nomination claire et affirmĂ©e de la personne chargĂ©e de coordonner la gouvernance des donnĂ©es dans l’entreprise n’est pas toujours une prioritĂ©. Or, sans bĂ©nĂ©ficier de l’onction de la direction gĂ©nĂ©rale sur le sujet, la personne en charge rencontra sur sa route toutes les embuches posĂ©es ça et lĂ  par les personnes qui ne voient pas dans leur intĂ©rĂȘt qu’une gouvernance vienne fixer des bonnes pratiques lĂ  oĂč ils prĂ©fĂšreraient que personne ne vienne mettre son nez.

    Donc, la premiĂšre des choses Ă  faire est de dĂ©signer une personne, de lui donner un titre de poste qui reflĂšte cette fonction de mise en place des actions liĂ©es Ă  la gouvernance, et de communiquer en interne sur le sujet. RĂ©cemment, un client m’expliquait que sa direction gĂ©nĂ©rale ne souhaitait pas envoyer un email pour indiquer Ă  tous les employĂ©s que cette personne Ă©tait maintenant en charge de mettre en place une gouvernance des donnĂ©es. Je lui souhaite bonne chance dans sa mission quand mĂȘme la direction gĂ©nĂ©rale ne lui donne pas ses lettres de crĂ©dit !

    OĂč ?

    La position de cette personne dans l’organisation est beaucoup plus importante que son titre. Je peux ĂȘtre nommĂ© Data Governance Manager, mais si je suis au troisiĂšme sous-sol de l’organigramme dans une sous-direction, dĂ©pendant de la direction informatique
 je n’aurai jamais l’oreille du comitĂ© de direction pour arbitrer les litiges qui apparaitront ; ni la crĂ©dibilitĂ© pour imposer aux mĂ©tiers un code de conduite et des bonnes pratiques qui modifieront leurs habitudes.

    Les AmĂ©ricains ont choisi de placer la gouvernance des donnĂ©es, et de l’intelligence artificielle, directement au sein du comitĂ© de direction, en crĂ©ant le poste de CIGO — Chief Information Governance Officer. Pas toujours facile dans les pays francophones de rĂ©unir le budget, la personne compĂ©tente, et la volontĂ© de la direction gĂ©nĂ©rale pour crĂ©er ce niveau de poste. Du fait de mon expĂ©rience, je dĂ©conseille toute organisation dans laquelle le responsable de la gouvernance des donnĂ©es serait Ă  plus d’un Ă©chelon du comitĂ© de direction. Je dĂ©conseille Ă©galement — Ă  quelques rares exceptions prĂšs — que la gouvernance des donnĂ©es orientĂ©e mĂ©tier soit rattachĂ©e Ă  l’informatique. Si elle ne peut pas ĂȘtre autonome, elle devrait ĂȘtre rattachĂ©e Ă  l’audit, Ă  une direction data ou digital. Le plus important est que le supĂ©rieur hiĂ©rarchique du responsable de la gouvernance puisse directement porter les messages au comitĂ© de direction, et obtenir sa validation ou son arbitrage. LĂ  encore, il faut organiser et communiquer clairement en interne sur l’organisation, afin qu’il n’y ait aucune ambiguĂŻtĂ©.

    Comment ?

    Qu’il s’agisse de la charte de gouvernance des donnĂ©es, du code de conduite de l’IA, de la classification des donnĂ©es sensibles, du catalogue des data products, de l’ontologie d’entreprise
 la gouvernance des donnĂ©es passe par la formalisation d’un certain nombre de livrables. Outre ses qualitĂ©s relationnelles, le responsable de la gouvernance doit faire preuve d’un excellent formalisme. RĂ©diger, expliquer, illustrer, prĂ©senter
 est son quotidien. Outre l’indispensable traitement de texte qu’il utilisera quotidiennement, il a besoin d’un outil de diffusion du contenu qu’il produit. Tout sauf des classeurs qui resteront dans une Ă©tagĂšre ! Un simple Wiki fera l’affaire, mais il lui permettra de diffuser ses livrables, de recueillir des commentaires, des suggestions, d’échanger avec sa communautĂ© en interne. C’est le premier outil Ă  mettre en Ɠuvre, avant de passer Ă  tout logiciel complexe. Ce portail accueillera son message de nomination, la composition du comitĂ© de gouvernance, puis viendront la charte de gouvernance des donnĂ©es, et l’ontologie ou le glossaire mĂ©tier, en fonction du niveau de profondeur souhaitĂ©.

    Bon courage pour ces premiĂšres Ă©tapes. Comme elles touchent l’humain et l’organisation, elles sont Ă  la fois indispensables et parfois les plus compliquĂ©es Ă  accomplir.

  • Avec Philippe Charpentier, le CTO de NetApp France, nous abordons le "contenant" des donnĂ©es. Contenant et contenu sont mutuellement indispensables, et ils rĂ©pondent tous deux Ă  des contraintes diffĂ©rentes :

    - Les data sont enfin reconnues comme des actifs informationnelles de l'entreprise, il faut donc les protéger. Quels sont les enjeux actuels liés à la sécurité et à la confidentialité de ces données collectées par toutes les entreprises ? - Peut-on et doit-on tout conserver ? L'IA semble nous dire que oui, les lois sont un peu moins d'accord. Comment arbitrer ? - Un des éléments clef d'une stratégie data est aujourd'hui la gouvernance, comment s'assurer du cycle de vie et d'utilisation des données. Quid de la traçabilité de ces actifs tant immatériels. - En 2024, sur quoi les entreprises doivent-elles porter leur attention ? Quels conseils leur donner en matiÚre de data ?
  • IBM se lance Ă  son tour dans le data mesh et les data products. L’entreprise l’a annoncĂ© cette semaine, Ă  l’occasion d’un sĂ©minaire de prĂ©sentation de son offre appelĂ©e IBM Data Product Hub.

    Cette tendance, le « shift left », consiste Ă  transfĂ©rer peu Ă  peu la responsabilitĂ© des data aux utilisateurs mĂ©tiers, et l’autonomie qui va avec.

    Que vous appliquiez Ă  la lettre les principes du data mesh ou si vous crĂ©ez simplement des data products pour remplacer vos entrepĂŽts de donnĂ©es centralisĂ©s, vous allez passer par la recherche et l’installation d’une plateforme de jeux de donnĂ©es. Amazon, SAP, Microsoft mais Ă©galement des Ă©diteurs spĂ©cialisĂ©s comme Zeena, Meta-Analysis ou Orkestra Data se sont lancĂ©s dans la course. Nous en avons dĂ©jĂ  parlĂ© ici.

    Signe que le sujet du data mesh devient incontournable, IBM se lance Ă  son tour.

    Difficile de remettre en question ses habitudes de centralisation ! IBM annonce Data Product Hub, une plateforme, centralisée, pour stocker les data products.

    Les sources de donnĂ©es sont des entrepĂŽts de donnĂ©es ou des lakehouses – 57 connecteurs sont annoncĂ©s. Les jeux de donnĂ©es peuvent ensuite ĂȘtre analysĂ©s avec Tableau, Watsonx de IBM ou encore en Python via la librairie Pandas. Le plan de dĂ©veloppement prĂ©voit l’incorporation d’IA gĂ©nĂ©rative dans les prochaines versions, fin 2024 et dĂ©but 2025.

    Les consommateurs de donnĂ©es peuvent envoyer des requĂȘtes, demandant Ă  accĂ©der aux donnĂ©es qui les intĂ©ressent. Les producteurs de donnĂ©es peuvent personnaliser les formats de gĂ©nĂ©ration des jeux de donnĂ©es, pour s’adapter aux besoins de leurs consommateurs.

    La gouvernance de l’ensemble est bien sur facilitĂ©e. Si vous utilisez le catalogue de donnĂ©es IBM Knowledge Catalog, le Data Product Hub pourra s’y connecter. Une intĂ©gration avec Informatica est prĂ©vue fin 2024. Les jeux de donnĂ©es peuvent ĂȘtre gĂ©nĂ©rĂ©s et stockĂ©s, ou pourront ĂȘtre virtualisĂ©s Ă  partir de fin 2024. La gĂ©nĂ©ration et la mise Ă  jour des data products sera automatisĂ©e dans la version de dĂ©but 2025.

    Point trĂšs important, des data contracts et des niveaux de service peuvent ĂȘtre implĂ©mentĂ©s afin de gouverner les Ă©changes de donnĂ©es. Un tableau de bord de suivi est mĂȘme prĂ©vu. Ces contrats « lisibles par la machine » permettront dans la version de dĂ©but 2025, de mettre en place un suivi automatisĂ© de la gouvernance.

    Le Data Product Hub de IBM sera disponible en version on-premise, Ă  l’achat ou Ă  la location, ainsi qu’en version SaaS hĂ©bergĂ©e dans le cloud IBM, ou dans d’autres grands clouds. Une version d’essai de 60 jours sera proposĂ©e par l’éditeur. La version perpĂ©tuelle sera proposĂ©e Ă  partir de 250 000 $, ou en location Ă  partir de 100 000 $ par an. Le Data Product Hub est un nouveau composant ajoutĂ© Ă  la Data Fabric de IBM.

    PrĂ©parant le futur, et la monĂ©tisation des donnĂ©es, IBM inclut une fonction de place de marchĂ© – on appelle Ă©galement cela un Data Space. Mais dĂšs maintenant, les consommateurs de donnĂ©es peuvent l’utiliser pour rechercher un jeu de donnĂ©es rĂ©pondant Ă  leurs besoins. Avec toutes les difficultĂ©s que l’on constate lors des tentatives de crĂ©ation de catalogues de donnĂ©es mĂ©tier, on peut espĂ©rer que les catalogues de jeux de donnĂ©es seront adoptĂ©s, par les producteurs et les consommateurs, et seront alors correctement cataloguĂ©s !

  • 5 ans de prison, si vous tentez de prĂ©voir la dĂ©cision d’un juge

    
 mais comme toujours, les lignes jaunes sont contournables, pour peu que l’on prenne le temps de comprendre la loi.

    Je vous parle ici d’une disposition liĂ©e Ă  l’utilisation de l’intelligence artificielle dans le cadre de procĂ©dures judiciaires, tentant de prĂ©dire quel sera le comportement de tel ou tel juge dans une affaire, et pour les parties prenantes d’adapter leur stratĂ©gie.

    Aux Etats-Unis, vous l’avez certainement vu dans de nombreuses sĂ©ries criminelles, la technologie est utilisĂ©e pour analyser le profil de jurĂ©s, et tenter de prĂ©voir leur positionnement, mais Ă©galement pour analyser les dĂ©cisions prises par chaque juge.

    Rien de bien nouveau, car les prĂ©toires ont toujours Ă©tĂ© le berceau de rumeurs et de bruits de couloir : untel donne plutĂŽt raison aux femmes, untel n’aime pas les hispaniques, untel est contre l’autodĂ©fense, etc.

    Depuis toujours, les avocats ont imaginĂ© amĂ©liorer leur stratĂ©gie, persuadĂ©s que les juges sont biaisĂ©s
 tout simplement parce qu’ils sont humains. Un peu comme on commentait au lycĂ©e les professeurs qui nous Ă©taient affectĂ©s en dĂ©but d’annĂ©e, les avocats commentent les juges qui leur sont affectĂ©s en dĂ©but de procĂšs.

    Mais au fait, les juges qui portent des lunettes sont-ils plus sévÚres que ceux qui ont une bonne vue ? Et les juges aux cheveux blancs sont-ils plus tolérants avec les jeunes majeurs ? Quand aux juges qui conduisent une peugeot, sont-ils plus sévÚres que ceux qui conduisent une Audi, dans les cas de violence conjugale ?

    Questions absurdes ? Peut-ĂȘtre. Mais si l’apprentissage machine nous apprenait le contraire. Que l’ñge, la vue, la couleur des cheveux, la voiture qu’ils conduisent prĂ©sentaient une corrĂ©lation avec leurs dĂ©cisions. Si cela Ă©tait mathĂ©matiquement prouvĂ©, qu’est-ce que cela prouverait justement ? Que la justice est humaine, et donc biaisĂ©e. Dans ce cas, pourquoi ne pas l’analyser, et en utiliser les rĂ©sultats ?

    Peut-ĂȘtre mais avec des limites trĂšs claires. Une loi publiĂ©e en 2019 prĂ©cise en effet que les donnĂ©es nominatives des juges ne peuvent pas ĂȘtre utilisĂ©es. Il est donc interdit de prĂ©voir la dĂ©cision d’un juge en particulier dans une affaire. Mais elle ne peut empĂȘcher la prĂ©diction basĂ©e sur des caractĂ©ristiques, tant que celles-ci ne permettent pas de remonter Ă  la personne, au juge.

    Alors, les juges qui se savent analysĂ©s gardent-ils le mĂȘme comportement ? OĂč cela va-t-il les inciter modifier leurs dĂ©cisions ? Les Ă©tudes menĂ©es depuis 2019 semblent montrer que globalement ces caractĂ©ristiques interviennent trĂšs peu dans les dĂ©cisions. En revanche, les tribunaux, par le profil des affaires qu’ils jugent et leur volume, prennent clairement des sanctions diffĂ©rentes. Entre Bobigny et Versailles, les peines appliquĂ©es sont clairement diffĂ©rentes dans certains types d’affaires ?

    En viendra-t-on Ă  prĂ©fĂ©rer une justice artificielle, un algorithme qui appliquerait la loi, rien que la loi, sans aucune humanitĂ© ? Un film espagnol, Justicia Artificial, devrait d’ailleurs sortir en septembre prochain sur le sujet.

  • Plongeons dans les nuances de la gestion de la data pour le reporting financier et ESG, avec une attention particuliĂšre sur l'impact rĂ©cent de l'adoption de la directive CSRD. Cette rĂ©glementation, un moment charniĂšre pour le reporting financier et de durabilitĂ© intĂ©grĂ©, nĂ©cessite une assurance par une tierce partie et marque une Ă©volution significative dans la maniĂšre dont les entreprises abordent la transparence et la fiabilitĂ© de leurs donnĂ©es.

    Aujourd'hui, alors que les entreprises du monde entier se préparent à publier leurs premiers rapports CSRD obligatoires en 2025, l'impact du CSRD se révÚle avoir une étendue bien au-delà de ceux qui sont soumis à la réglementation. Le CSRD a amorcé un virage mondial vers l'intégration assurée des rapports, les chefs d'entreprise reconnaissant la demande du marché pour des données contextuelles, transparentes et crédibles qui répondent aux attentes des parties prenantes.

    En se concentrant sur les aspects pratiques et techniques, Workiva vise à clarifier comment les entreprises peuvent utiliser la data pour non seulement respecter les normes réglementaires, mais aussi pour piloter des décisions stratégiques qui favorisent un développement durable et éthique.

  • Alors que l’évolution de l’intelligence artificielle (IA) gĂ©nĂ©rative se dĂ©veloppe Ă  une vitesse exponentielle, bouleversant tous les pans de notre sociĂ©tĂ©, les lĂ©gislateurs, en Europe comme outre-Atlantique, doivent construire Ă  marche forcĂ©e un cadre propice Ă  un dĂ©veloppement Ă©thique et responsable de la technologie.

    Ainsi, courant mars, le Parlement EuropĂ©en a approuvĂ© la lĂ©gislation sur l’IA gĂ©nĂ©rative qui garantit la sĂ©curitĂ© et le respect des droits fondamentaux tout en encourageant l’innovation[1]. Celle-ci prĂ©cise notamment que l'IA gĂ©nĂ©rative doit ĂȘtre aussi transparente que possible, en dĂ©crĂ©tant que les dĂ©veloppeurs doivent dĂ©montrer prĂ©cisĂ©ment le fonctionnement du modĂšle et les donnĂ©es sur lesquelles il est entraĂźnĂ©. Par ailleurs, il y a quelques semaines, la CNIL publiait des recommandations quant au cadre juridique et aux bonnes pratiques pour le dĂ©veloppement d'un systĂšme d'IA vertueux[2].

    Dans un tel contexte, et Ă  mesure que l’IA gĂ©nĂ©rative et les grands modĂšles de langage se gĂ©nĂ©ralisent, l'intĂ©gration de ces technologies dans les opĂ©rations des entreprises s'accompagne de deux dilemmes Ă©thiques importants : une utilisation transparente et responsable ainsi que des rĂ©sultats fiables. Les graphes de connaissances pourraient constituer un moyen d'amĂ©liorer la transparence et la confiance exigĂ©es par la loi europĂ©enne sur l'IA.

    « L'IA gĂ©nĂ©rative progresse aujourd'hui Ă  une vitesse jamais vue. Si l'on ne peut espĂ©rer que les dĂ©cideurs politiques parviennent Ă  suivre le rythme de cette innovation, l'absence d’un cadre et de normes garants d’un dĂ©veloppement responsable de l’IA gĂ©nĂ©rative pourrait empĂȘcher la sociĂ©tĂ© de prendre la pleine mesure du potentiel infini de cette technologie et de la mettre au service de l’intĂ©rĂȘt gĂ©nĂ©ral.

    Pour que ces systÚmes profitent à la société dans son ensemble, inspirent confiance et répondent aux normes réglementaires clés, il est essentiel de prendre en compte l'infrastructure technologique au sens large et, surtout, les systÚmes de gestion de données. Les graphes de connaissances se distinguent comme la structuration de données essentielle qui améliore les solutions d'IA générative en apportant plus de précision, de transparence et d'explicabilité.

    En effet, les graphes de connaissances permettent des interrogations, des dĂ©ductions et des raisonnements sĂ©mantiques basĂ©s sur les relations. Ils jouent donc un rĂŽle essentiel en agissant en complĂ©ment de l'IA gĂ©nĂ©rative, en lui permettant de modĂ©liser le raisonnement humain Ă  plus grande Ă©chelle. Les graphes donnent un contexte plus profond aux donnĂ©es qui alimentent un modĂšle d’IA gĂ©nĂ©rative, ce qui permet l’explicabilitĂ© et la pertinence, pour Ă©viter les hallucinations. De plus, grĂące Ă  la gestion fine des rĂŽles et des droits sur les donnĂ©es de graphes, les organisations peuvent gĂ©rer au plus prĂšs la sĂ©curitĂ© et la confidentialitĂ©. », analyse Nicolas Rouyer, Consultant Avant-ventes Senior chez Neo4j.

  • La semaine derniĂšre Ă  Paris, c’était la grand-messe de Publicis, Vivatech. N’étant pas fan de ces grands rassemblements oĂč l’on s’autocongratule entre soi, j’ai pris l’avion pour le Sud. AprĂšs avoir traversĂ© la mĂ©diterranĂ©e, puis le dĂ©sert du Sahara, j’ai atterri Ă  LomĂ©, au Togo, oĂč se rĂ©unissaient les directeurs financiers et de contrĂŽle de gestion de l’Afrique de l’Ouest.
    Accueillis dans les locaux de la BOAD, les participants ont bien entendu parlĂ© d’intelligence artificielle, de donnĂ©es, et de comment la fonction finance en entreprise allait ĂȘtre impactĂ©e par ces Ă©volutions technologiques.
    Avaient fait le dĂ©placement les prĂ©sidents français de la DFCG, l’association des directeurs financiers, et de l’AFDCC, celle des crĂ©dit managers. Les ponts entre les financiers français et leurs pairs d’Afrique de l’Ouest sont actifs, et devraient l’ĂȘtre encore plus dans les annĂ©es Ă  venir.
    Alors bien sĂ»r, on a parlĂ© de magie, de ces outils miraculeux que l’on nous promet, et de la rĂ©volution sur l’emploi qu’ils vont provoquer. Mais avec rĂ©alisme on a surtout Ă©voquĂ© ce qui manque Ă  beaucoup d’entreprises africaines pour exploiter cette intelligence artificielle : des donnĂ©es.
    Dans des pays oĂč la part de l’économie informelle est importante, collecter et conserver des donnĂ©es semble parfois vain.
    J’ai eu un Ă©change passionnant avec le directeur financier d’un groupe de distribution. Certes, il adorerait pouvoir analyser qui achĂšte quoi, quand, avec quoi
 mais ce ne sont pas les modĂšles d’apprentissage qui lui font dĂ©faut, ce sont les donnĂ©es. Pas de remontĂ©e des lignes de tickets de caisse ; pas de carte de fidĂ©litĂ© permettant d’identifier les clients. Il manque le basique. Difficile d’aller parler d’intelligence artificielle gĂ©nĂ©rative quand manquent la culture nĂ©cessaire Ă  la collecte, Ă  la valorisation et Ă  la gouvernance de ces donnĂ©es.
    Il serait facile de pointer du doigt le retard technologique de ces pays africains. Mais c’est Ă©galement la rĂ©alitĂ© de beaucoup d’entreprises françaises. En ce moment mĂȘme, je travaille avec un industriel dans le domaine de la papeterie : il envisage prochainement la mise en place, enfin, d’une gestion des donnĂ©es de rĂ©fĂ©rence ; un service social tente de mettre en place une gouvernance, et se heurte Ă  l’absence d’architecture d’entreprise et d’ontologie des termes utilisĂ©s en interne ; et une grosse PME dans l’agro-alimentaire change enfin d’ERP et envisage son premier reporting dans un outil autre que Excel.
    Alors que retenir de tout cela ? Il faut bien sur des visionnaires, des rĂȘveurs, des innovateurs et il faut un Vivatech. Mais concrĂštement beaucoup d’entreprises n’en sont pas lĂ  ! Elles en sont mĂȘme loin. Leur faire croire qu’elles pourront bĂ©nĂ©ficier en un claquement de doigt de ces technologies magiques, ce n’est pas leur rendre service.
    Oui, c’est moins drĂŽle, moins « chevere » comme dit ma fille de 17 ans, mais mettre en place une culture de la donnĂ©e, des bonnes pratiques de gouvernance, et une architecture adaptĂ©e pour collecter, conserver et par la suite analyser cette donnĂ©e, est la prioritĂ© ! Ne me parlez pas de ChatGPT tant que vous n’avez pas ces fondations. Sinon, c’est comme si vous commandiez une Ferrari, alors que vous n’avez mĂȘme pas passĂ© le permis.

  • Vous avez entendu parler du data mesh ? Non ? C’est normal, le concept est encore jeune, il date de 2019. Mais je suis certain que vous en appliquez dĂ©jĂ  certains des principes, sans mĂȘme le savoir.
    Dans votre entreprise, comme dans la plupart, la tendance est clairement Ă  la reprise du contrĂŽle des donnĂ©es par les utilisateurs mĂ©tier. Finalement, ce sont leurs donnĂ©es, ils les produisent, les saisissent, les amĂ©liorent, les rendent disponibles. N’est-il pas normal qu’ils soient responsables, et crĂ©ditĂ©s, de leur qualitĂ©, de leur disponibilitĂ©, de leur conformitĂ©. Pourquoi leur retirer leurs donnĂ©es, pour les centraliser, hors de leur contrĂŽle dans un data warehouse, data lake, lakehouse ou que sais-je encore ? Rendre la donnĂ©e aux mĂ©tiers, permettre Ă  chacun de partager ses donnĂ©es avec d’autres, dans une plateforme commune, et encadrĂ© par de bonnes pratiques de gouvernance.
    Voici quelques-uns des mots clefs qu’il faut connaitre, pour comprendre cette tendance.
    1. Le Data Product Owner
    Le “propriĂ©taire” des donnĂ©es est celui qui connait la donnĂ©e, il est donc du cĂŽtĂ© des mĂ©tiers. A la demande du consommateur de donnĂ©es, il propose un jeu de donnĂ©es (le data product) et s’engage sur sa disponibilitĂ©, sa qualitĂ©, sa conformitĂ©, etc.
    2. Le Data Product
    C’est un jeu de donnĂ©es. Un ensemble de donnĂ©es qui rĂ©pond aux besoins d’un ou de plusieurs consommateurs de donnĂ©es. Il est dĂ©fini, crĂ©Ă©, puis produit et mis Ă  jour, en fonction des besoins du consommateur et des contraintes du data product owner. Il est encadrĂ© par le data contract et mis Ă  disposition sur la data product platform.
    3. Le Data Contract
    Le data contract est la clef de voute de l’ensemble. Il formalise, contractualise, les conditions de fourniture du data product nĂ©gociĂ©es entre le mĂ©tier producteur et le mĂ©tier consommateur. Il dĂ©finit les dĂ©tails techniques, mais aussi la qualitĂ©, la disponibilitĂ©, la conformitĂ©, du data product. Souvent produit en YAML ou JSON, il est lisible par un Être humain, et par le logiciel. Des modĂšles standardisĂ©s sont en cours de dĂ©veloppement.
    4. La Data Product Platform
    Autant la relation entre consommateur et producteur de donnĂ©es est dĂ©centralisĂ©e ; autant son hĂ©bergement et sa gestion informatique, doivent ĂȘtre centralisĂ©es ! Elle catalogue, rĂ©fĂ©rence, hĂ©berge, et met Ă  disposition les data products, en s’assurant du respect des rĂšgles du data contract.
    5. Et enfin, le Data Product Manager
    La donnĂ©e est un produit ? Elle doit donc ĂȘtre construite comme telle. Et la fonction de Data Product Manager commence Ă  apparaitre. Il comprend les donnĂ©es et leurs usages, aide Ă  la prĂ©paration du data contract, et s’assure que le data product rĂ©pond aux besoins exprimĂ©s.

  • Voici quelques-uns des sujets que nous abordons avec Jean-Paul Otte, Responsable des services stratĂ©giques chez Precisely :

    - Posons nous la question de l'impact des nouveaux usages mobiles (IOT, mobiles) sur les données. Quelles nouvelles données collectons-nous ? Et quelles sont leurs particularités ?
    - Plus l'IA se développe, plus on a besoin de l'alimenter avec des données de qualité. Comment s'assurer que les données collectées sont exactes, homogÚnes et contextualisées ?
    - Quels outils permettent de détecter cette non-qualité de données ? Peut-on la corriger ? Comment ?

  • Voici quelques-uns des sujets que nous abordons avec StĂ©phane Juillard, fondateur et CEO de Orkestra Data :

    - Qu'est qu'une data platform ? Comment peut-on dĂ©finir ce terme ? DiffĂ©rences avec un Hub, une Fabric... - Orkestra est lui-mĂȘme Ă©diteur d'une data platform. Comment vous positionnez-vous par rapport Ă  vos concurrents ? - Vous mettez en avant une plateforme orientĂ©e mĂ©tier : comment selon vous doivent se rĂ©partir les rĂŽles entre l'informatique et les mĂ©tiers en 2024 ? - Le data mesh, on en parle ? Ou c'est dĂ©jĂ  du passĂ© ? - Vous avez publiĂ© un guide comparatif des data plateformes donc vous vous comparez vous-mĂȘme Ă  vos concurrents. C'est un peu SAP qui publierait un comparatif des ERP... comment convaincre les lecteurs que ce travail a Ă©tĂ© fait de maniĂšre objective ?

    Si vous voulez vous aussi participer Ă  une Ă©mission du podcast Decideo, envoyez un email Ă  [email protected].

    Pour ne manquer aucun Ă©pisode du podcast Decideo, abonnez-vous, c'est gratuit !

  • Quel appareil pour embarquer demain l’intelligence artificielle au plus prĂšs de notre corps

    Le succĂšs d’Apple est dĂ» au travail de milliers de personnes, mais deux d’entre elles ont fait de Apple ce qu’il est devenu, on aime ou on dĂ©teste. Steve Jobs bien sĂ»r, son fondateur, mais Ă©galement Jonathan Ive, qui a supervisĂ© le design des produits pendant 27 ans. Ce qui fait la diffĂ©rence chez Apple, c’est justement cette combinaison du design de produits physiques, et d’une offre logicielle parfaitement intĂ©grĂ©e.

    Aujourd’hui, l’intelligence artificielle, ce sont des outils logiciels fantastiques, et qui continueront Ă  se dĂ©velopper dans les prochaines annĂ©es, mais utilisĂ©s Ă  partir d’appareils physiques et d’interfaces utilisateurs datĂ©es, pour ne pas dire prĂ©historiques.

    Ouvrir votre navigateur pour poser une question Ă  ChatGPT au travers d’un clavier et d’un Ă©cran
 quelle tristesse ! On peut bien sĂ»r imaginer l’adaptation des montres connectĂ©es, des casques de rĂ©alitĂ© virtuelle, ou des assistants vocaux afin qu’ils servent d’interface Ă  ces outils. Une IA dont on dit que son impact sera plus important sur notre sociĂ©tĂ© que la rĂ©volution industrielle.

    Quel outil ? Quel objet ? Quelle interface ?

    Le BlackBerry, puis l’iPhone, en leurs temps, ont inventĂ© pour nous de nouveaux usages. Le dĂ©roulement continue des pages sans fin sur les rĂ©seaux sociaux a fondamentalement changĂ© notre maniĂšre de naviguer.

    L’IA va devoir nous apporter un support au moins aussi rĂ©volutionnaire. On parle beaucoup d’un assistant personnel, d’un dispositif nous permettant d’accĂ©der en toutes situations, Ă  cette IA Ă  notre service. Un nouvel appareil qui ne serait ni un tĂ©lĂ©phone, ni un ordinateur, avec lequel nous communiquerions sans doute avec la voix, et qui serait portable, connectĂ©, lĂ©ger ; en rĂ©sumĂ©, quelque chose qui n’existe pas encore, mais qui deviendrait notre compagnon intelligent, notre deuxiĂšme cerveau dit-on parfois.

    Mais alors, qui et quand ? Bien sĂ»r je n’ai pas la rĂ©ponse dĂ©finitive Ă  ces questions.

    Mais, et c’est l’objet de cette chronique, une association annoncĂ©e il y a quelques jours mĂ©rite notre attention.

    Jony Ive, et c’est lĂ  qu’il intervient, vient d’annoncer s’associer avec Sam Altman, le patron d’OpenAI, afin de lever des fonds pour dĂ©velopper ce fameux assistant intelligent.

    Pour Sam Altman, c’est la bonne dĂ©cision. S’il ne dĂ©veloppe pas son propre appareil, OpenAI risque d’ĂȘtre cantonnĂ© Ă  son rĂŽle d’OEM, de fournir des intelligences artificielles Ă  ceux qui voudront bien les intĂ©grer. Mais il a certainement compris que le succĂšs d’Apple vient de cette intĂ©gration. D’ailleurs mĂȘme Microsoft a cherchĂ© plusieurs fois, sans grand succĂšs, Ă  dĂ©velopper ses propres matĂ©riels.

    Donc une IA sans appareil pour l’hĂ©berger, restera toujours un logiciel, Ă  la merci des choix des fournisseurs de matĂ©riels.

    En s’associant Ă  Jony Ive, il montre aussi qu’il a compris que le matĂ©riel doit ĂȘtre beau, attirant, pour que l’on ait envie de dĂ©penser beaucoup d’argent pour se l’offrir, et pour le montrer. Le rĂ©cent lancement du casque Apple Vision Pro en est encore un exemple.

    Les travaux d’Apple inquiĂštent trĂšs certainement Sam Altman ; l’abandon du projet de voiture Apple est une mauvaise nouvelle pour lui. Car ce sont des milliards qui auraient Ă©tĂ© dĂ©pensĂ©s sur ce projet et qui pourraient ĂȘtre rĂ©affectĂ©s Ă  d’autres projets, justement dans l’IA.

    Car si Apple est en retard en matiĂšre d’offre d’IA Ă  grande Ă©chelle, l’entreprise dispose justement du savoir-faire et d’appareils existants, iPhone, Apple Watch, HomePod, etc.

    Le combat des chefs pourrait ĂȘtre demain Apple contre OpenAI. Le premier dispose du savoir-faire matĂ©riel, mais doit s’amĂ©liorer sur la partie logicielle. Le second est en avance sur le logiciel, mais totalement absent de la partie matĂ©rielle.

    Donc cette nouvelle sociĂ©tĂ© qui serait en cours de crĂ©ation, pourrait lever pas moins d’un milliard de dollars. De quoi lui permettre de dĂ©velopper tranquillement son assistant personnel. Une somme que Jony Ive et Sam Altman ne devraient pas avoir trop de mal Ă  rĂ©unir. Des rumeurs courent d’ailleurs que la veuve de Steve Jobs, Laurene Powell Jobs, figurerait parmi les investisseurs. Avec ce nouveau de financement, les enjeux sont importants. Jony Ive et Laurene Powell Jobs se retrouveraient en concurrence directe avec Apple. Les conseils d’administration vont ĂȘtre tendus !

    Il manque d’ailleurs une partie importante Ă  l’association Altman – Ive : la fabrication du matĂ©riel. Maitriser comme Apple le fait, la totalitĂ© de la production est un atout Ă©norme. ARM, le fabricant de micro-processeurs serait d’ailleurs en discussion avec les fondateurs.

    Si vous voulez avoir une idĂ©e de ce que pourrait ĂȘtre demain un dispositif de ce type, jetez un Ɠil au AI Pin dĂ©veloppĂ© par la sociĂ©tĂ© Humane. Une broche que l’on porte sur sa poitrine et avec laquelle on interagit par la voix et par le geste.

    Et puis pour terminer, rĂȘvons un peu
 Et si Apple, Jonathan Ive et Sam Altman, dĂ©cidaient finalement de travailler ensemble. Les modĂšles de OpenAI, le design de Jony Ive, et la puissance de Apple. C’est un trio gagnant !

  • CĂ©cile Petitgand est l'auteur du livre : DonnĂ©es personnelles, reprenons le pouvoir - rĂ©flexions sur la gouvernance citoyenne Ă  l'Ăšre du numĂ©rique, publiĂ© aux Editions Hermann.

    Avec elle, nous nous interrogeons sur la relation parfois ambigĂŒe que nous entretenons avec nos donnĂ©es personnelles.

    Est-on en train de perdre ou au contraire pouvons-nous reprendre le contrÎle de nos données personnelles ? Le grand public commence-t-il à avoir conscience de la valeur de ses données personnelles ? Ces derniÚres années, a-t-on progressé ou regressé dans ce domaine ? Et les nouvelles générations, quelle est leur attitude vis à vis des données personnelles ? Les gouvernements montrent-ils l'exemple en protégeant et en exploitant correctement les données qu'ils collectent sur leurs citoyens ?
  • L’administration amĂ©ricaine va nommer ses premiers CAIO (Chief Artificial Intelligence Officer) et former ses comitĂ©s de gouvernance

    Suite Ă  l’Executive Order signĂ© par Joe Biden le 30 octobre 2023, l’administration amĂ©ricaine a publiĂ© un MĂ©morandum destinĂ© Ă  l’ensemble des agences et dĂ©partements de l’administration amĂ©ricaine.

    Dans ce document, Shalanda D. Young, prĂ©cise que les administrations concernĂ©es devront nommer d’ici le 28 mai 2024, un Chief Artificial Intelligence Officer (CAIO), dont le document dĂ©finit le profil, ainsi que former un comitĂ© de gouvernance de l’IA.

    Les principales responsabilités du CAIO seront les suivantes

    - coordonner l'utilisation de l'IA dans l’agence gouvernementale ;

    - promouvoir l'innovation liée à l'IA ;

    - gérer les risques liés à l'utilisation de l'IA.

    Le mĂ©morandum prĂ©cise que la personne choisie pour occuper cette fonction peut ĂȘtre le directeur des systĂšmes d’information, ou le directeur du data office ; mais il peut Ă©galement s’agir d’un recrutement extĂ©rieur. La description de poste (en pages 6 et 7 du document) permet de dĂ©tailler les trois points indiquĂ©s ci-dessus et l’ensemble des tĂąches qui leur sont connectĂ©es, dont :

    Un travail de coordination avec l’ensemble des dĂ©partements et agences de l’administration y compris dans le domaine des ressources humaines afin de prendre en compte l’impact sur les mĂ©tiers actuels et le besoin de formation ; Promotion de l’égalitĂ© et de l’inclusion dans les processus de dĂ©cision ; Identification et cartographie des risques, en particulier en matiĂšre de sĂ©curitĂ© et de respect des droits ; Établissement de procĂ©dures de contrĂŽle afin de vĂ©rifier la conformitĂ© des systĂšmes d’IA utilisĂ©s avec les lois et rĂšglements amĂ©ricains ;

    - Le document prĂ©voit que pour rĂ©aliser ces tĂąches, le CAIO doit avoir une position hiĂ©rarchique suffisamment Ă©levĂ©e pour d’une part Ă©changer avec les directions des autres agences, et d’autre part vĂ©rifier la conformitĂ© des systĂšmes d’IA implĂ©mentĂ©s dans les directions de sa propre agence.

    En parallĂšle, le document demande Ă  chaque agence de mettre en place un comitĂ© de gouvernance de l’intelligence artificielle. Il peut s’agir d’un comitĂ© existant (par exemple de gouvernance des donnĂ©es) dont les compĂ©tences seront Ă©largies Ă  l’IA.

    Devront participer Ă  ce comitĂ© au moins les dĂ©partements suivants : « informatique, cybersĂ©curitĂ©, donnĂ©es, vie privĂ©e, droits civils et libertĂ©s civiles, Ă©quitĂ©, statistiques, capital humain, achats, budget, affaires juridiques, gestion de l'agence, expĂ©rience client, Ă©valuation des programmes, et responsables de la mise en Ɠuvre de l'IA au sein du ou des bureaux de programme de l'agence. Les agences devraient Ă©galement envisager d'inclure des reprĂ©sentants de leur bureau de l'inspecteur gĂ©nĂ©ral respectif »

    AprĂšs cette avancĂ©e en matiĂšre d’organisation et de ressources, comment les autres pays vont-ils s’organiser ? Quand verra-t-on dans l’administration française, canadienne, suisse ou belge la nomination de CAIOs et de comitĂ©s de gouvernance de l’IA ?

  • Les prompts sont des donnĂ©es : va-t-il falloir les cataloguer ?

    Selon une enquĂȘte de l’Associated Press, dĂ©jĂ  70 % des rĂ©dacteurs utilisent l’IA gĂ©nĂ©rative pour produire du contenu. Les donnĂ©es sont omniprĂ©sentes dans la dĂ©marche : dans l’alimentation des modĂšles, dans les prompts et dans les contenus produits.

    Si j’écris demain un article Ă  l’aide d’un traitement de texte, c’est moi qui en serai l’auteur et non Word. Mais si j’écris les prompts qui me permettent de demander Ă  ChatGPT de produire cet article, ou le code d’un logiciel, ce serait donc ChatGPT qui deviendrait l’auteur ? Non, et heureusement, il a dĂ©jĂ  Ă©tĂ© Ă©tabli par jurisprudence dans plusieurs pays, qu’une IA ne pouvait pas obtenir de droits de propriĂ©tĂ© sur ses propres crĂ©ations. L’IA n’a pas de personnalitĂ© juridique. C’est l’Humain qui a pilotĂ© l’IA qui est reconnu comme auteur de ses crĂ©ations.
    Mais demain, le journaliste, le scĂ©nariste, mais Ă©galement le programmeur, le rĂ©dacteur de documentation, ne manipuleront plus directement les mots, mais les prompts qui serviront Ă  les produire. Pourrait-on aller jusqu’à dĂ©poser et protĂ©ger un prompt, tout comme on protĂšge un livre, un logiciel ou un scĂ©nario ? Peut-ĂȘtre est-ce une idĂ©e Ă  creuser. Juristes spĂ©cialistes de la propriĂ©tĂ© intellectuelle, je vous lance la perche !
    En tous cas, ces prompts, ce sont Ă©galement des donnĂ©es. Et il faut les collecter, les stocker, et donc peut-ĂȘtre les protĂ©ger, afin de faire le lien entre le prompt et le contenu qu’il a produit.
    En entreprise, la rĂ©plicabilitĂ© et l’explicabilitĂ© sont des sujets importants. Si je lance deux fois la mĂȘme requĂȘte sur une mĂȘme base de donnĂ©es, je dois obtenir le mĂȘme rĂ©sultat. Sinon, j’ai un problĂšme. Êtes-vous certain que le mĂȘme prompt lancĂ© dans le mĂȘme outil d’IA gĂ©nĂ©rative, produira le mĂȘme contenu ?
    Je ne crois pas, et c’est un vrai problùme.
    Si j’utilise l’IA gĂ©nĂ©rative pour transformer une question en langage naturel en requĂȘte SQL, la mĂȘme question donnera-t-elle toujours la mĂȘme rĂ©ponse ? Si non, ça sent le crĂ©page de chignon en rĂ©union du lundi matin. Ça peut faire sourire, mais imaginez que votre tableau Excel donne des rĂ©sultats diffĂ©rents en fonction de l’heure de la journĂ©e, de la mĂ©tĂ©o ou de l’ñge du capitaine.

    Je vous parle beaucoup en ce moment de gouvernance de l’intelligence artificielle. Une des facettes de cette gouvernance, sera la gestion des prompts. Leur historisation, la traçabilitĂ© de leur cycle de vie, le lien entre le prompt et son rĂ©sultat, etc. Des tas de mĂ©tadonnĂ©es qu’il va falloir organiser.

    Je ne sais pas encore comment nous l’appellerons, mais c’est un outil qu’il va falloir inventer. On y retrouvera :
    - L’historisation des prompts utilisĂ©s, et de leurs mĂ©tadonnĂ©es ;
    - La traçabilitĂ©, le lineage, qui a menĂ© du prompt au rĂ©sultat. Quel modĂšle a Ă©tĂ© utilisĂ©, quelle version, quelles donnĂ©es d’entrainement, etc..

    Cet outil permettra Ă©galement de vĂ©rifier les droits d’accĂšs, la conformitĂ© des donnĂ©es utilisĂ©es, et produites. Et il assurera la piste d’audit nĂ©cessaire pour qu’en cas de besoin, le service conformitĂ© ou audit interne, voir une autoritĂ© extĂ©rieure, puissent remonter l’historique.

    Vous voyez que le sujet de la gouvernance de l’IA, et des donnĂ©es qui vont avec, n’est pas une mince affaire. On est loin de votre ado tout fier d’avoir utilisĂ© ChatGPT pour rĂ©diger 10 lignes sur la rĂ©volution russe !

    Si vous envisagez une utilisation sĂ©rieuse, et en production, de l’intelligence artificielle, vous devrez passer par les Ă©tapes que je viens de dĂ©crire. Et si vous cherchez une idĂ©e de business Ă  crĂ©er dans le domaine du logiciel, regardez du cĂŽtĂ© d’une plate-forme de traçabilitĂ© des usages de l’IA en entreprise
 il y a tout un marchĂ© !

  • Cette semaine, Decideo a rencontrĂ© Jean-Guillaume Pelletier, associĂ© de Mindmatcher, pour parler de la cartographie des mĂ©tiers du numĂ©rique, Ă  laquelle il a collaborĂ©, pour le compte de GEN - Grande Ecole du NumĂ©rique. - Vous avez aidĂ© la Grande Ecole du NumĂ©rique, crĂ©Ă©e en 2015 par le gouvernement, Ă  cartographier les mĂ©tiers du numĂ©rique. Quel a Ă©tĂ© votre apport et votre rĂŽle dans l'Ă©tablissement de cette cartographie ? - Quelles ont Ă©tĂ© les technologies utilisĂ©es ? Et les donnĂ©es sur lesquelles vous vous ĂȘtes appuyĂ© ? - Comment avez-vous Ă©vitĂ© les biais ? - On parle de signaux faibles lorsqu'il s'agit d'anticiper des tendances... depuis au moins 20 ans. Qu'y a-t-il de nouveau dans ce domaine ? - La limite de l'IA, comme elle s'appuie sur des donnĂ©es du passĂ©, c'est qu'elle est incapable de prĂ©voir l'imprĂ©visible. Comment avez-vous procĂ©dĂ© ? - Est-ce que ce travail peut ĂȘtre reproduit dans les entreprises ? Si vous voulez vous aussi participer Ă  une Ă©mission du podcast Decideo, envoyez un email Ă  [email protected].

  • SAP et le data mesh

    Depuis que le concept de data mesh a Ă©mergĂ© en 2019, la rĂ©ponse des grands Ă©diteurs de solutions centralisĂ©es Ă©tait attendue. SAP n’étant clairement pas un ardent dĂ©fenseur de la dĂ©centralisation, il Ă©tait lĂ©gitime pour ses clients de se demander comment l’editeur allait aborder le sujet.

    LancĂ© en 2019, formalisĂ© en 2022 dans le livre Ă©ponyme, le concept de data mesh a convaincu un certain nombre d’entreprises comme Suez, Le bon coin, Paypal, Eurotunnel, etc. Certains ne le nomment pas, et en choisissent les principes qu’ils souhaitent appliquer. Mais tous font un pas vers la dĂ©centralisation de la responsabilitĂ© des donnĂ©es vers les domaines mĂ©tiers, et la migration de data warehouses centralisĂ©s vers des data products, dĂ©centralisĂ©s fonctionnellement et centralisĂ©s techniquement.

    Centraliser les données ou les jeux de données ?

    La rĂ©ponse de SAP est apparue rĂ©cemment, elle s’appelle SAP Datasphere. Soit pour ne pas avoir Ă  payer de royalties, soit pour ne pas avouer qu’il n’est pas l’inventeur du concept, SAP n’utilise quasiment pas l’expression data mesh dans sa communication. Mais l’objectif est clairement de rĂ©pondre Ă  cette Ă©volution. Voyons ensemble comment.

    Il y a quelques annĂ©es, SAP migrant vers le cloud, proposait comme solution centrale Ă  un systĂšme dĂ©cisionnel son offre SAP Data Warehouse Cloud. Evoluant sur les plans technologiques et marketing, SAP Data Warehouse Cloud est devenu SAP Datasphere. Et il y a tout juste un an, SAP a prĂ©sentĂ© SAP business data fabric, basĂ©e sur SAP Datasphere comme coeur de la conception des systĂšmes dĂ©cisionnels pour ses clients. “i[Data Fabric est une architecture technique, qui permet de rassembler des donnĂ©es hĂ©tĂ©rogĂšnes en provenance de plusieurs sources]i”, explique Wolfgang Epting, expert produit chez SAP. On est donc bien dans une architecture de centralisation des donnĂ©es. Mais en rĂ©alitĂ©, SAP dĂ©fend que SAP Datasphere peut ĂȘtre utilisĂ© pour centraliser, de maniĂšre technique uniquement, des donnĂ©es ou des jeux de donnĂ©es (data products) qui peuvent provenir de sources externes.

    Ainsi, en définissant et construisant les data products dans les domaines métier, comme le préconise le data mesh, mais en les stockant dans la SAP business data fabric, cette derniÚre devient une plateforme selfservice de jeux de données. Les quatre principes du data mesh sont bien respectés : les domaines, les jeux de données, la plateforme en libre-service, et la gouvernance fédéralisée.

    Il faudra cependant resister Ă  la tentation de stocker les donnĂ©es unitaires dans SAP business data fabric et d’y fabriquer les jeux de donnĂ©es, auquel cas il n’y aurait plus de dĂ©centralisation et l’on retrouverait le trio data warehouse - data lake - data mart. Le data mesh est avant tout un changement de paradigme, une organisation diffĂ©rente, dĂ©centralisant la responsabilitĂ© des donnĂ©es dans les mĂ©tiers, et modifiant la rĂ©partition des rĂŽles entre l’informatique et les mĂ©tiers. Les luttes de pouvoir pourraient se rĂ©veiller Ă  l’occasion de cette mise en place


    Cataloguer, la premiĂšre pierre de l’édifice

    Qu’il s’agisse de gouvernance ou de data mesh, le catalogue des donnĂ©es est au centre du dispositif. SAP ou pas, sans catalogue de donnĂ©es, toute la gouvernance et la dĂ©centralisation des responsabilitĂ©s vers les mĂ©tiers, seront incomplĂštes et surtout bien compliquĂ©es Ă  appliquer.

    SAP s’est beaucoup appuyĂ© sur ses partenaires pour la crĂ©ation du catalogue des donnĂ©es. Collibra semble le partenaire Ă©diteur privilĂ©giĂ©. D’ailleurs, en terme de couverture fonctionnelle, comme de coĂ»t et de dĂ©lai de mise en place, il n’est pas rare d’entender Collibra qualifiĂ© de “SAP des catalogues de donnĂ©es”.

    Jusqu’à ce que SAP annonce sa propre solution, SAP Datasphere Catalog. Il permet “ i[de dĂ©couvrir, gĂ©rer et controler, toutes les donnĂ©es afin de garantir une gouvernance transverse de l’ensemble de leur cycle de vie]i”, explique Wolfgang Epting. Il s’appuie sur un graphe de connaissance, qui met en relation les donnĂ©es, les mĂ©tadonnĂ©es, et les processus mĂ©tier. DĂšs la version 1.0 de SAP Datasphere, publiĂ©e en janvier 2024, il est possible de rechercher en une fois des donnĂ©es et des jeux de donnĂ©es dans le catalogue.

    Dans la feuille de route publiĂ©e par SAP, la connexion entre les data products et le catalogue de donnĂ©es, est prĂ©vue pour le dernier trimestre 2024. Les data products pourront alors s’enrichir des mĂ©tadonnĂ©es du catalogue. Le catalogue de donnĂ©es pourrait alors devenir un catalogue de data products. L’extraction automatique des mĂ©tadonnĂ©es pour alimenter Datasphere est prĂ©vue pour le premier trimestre 2025. Une question intĂ©ressante se pose alors en ce qui concerne l’avenir de la coopĂ©tition avec Collibra, et de l’impact de SAP Datasphere Catalog sur les clients actuellement Ă©quipĂ©s de SAP et de Collibra
 Devront ils cumuler les deux solutions ou SAP leur conseillera-t-il amicalement de se concentrer sur sa propre solution ?

    Vers le partage et la monétisation des données

    Autre Ă©volution intĂ©ressante, la place de marchĂ© de jeux de donnĂ©es que pourrait devenir SAP Datasphere. Les diffĂ©rentes fonctionnalitĂ©s liĂ©es Ă  la publication de donnĂ©es et de jeux de donnĂ©es sont prĂ©vues dans le courant de 2024. Seule l’ouverture vers une place de marchĂ© publique est inscrite dans la vision mais non encore planifiĂ©e.

    Franchement, si le ramage de SAP business data fabric, et ses composants Datasphere et Catalog, se rapportent Ă  leur plumage, cette Ă©volution de l’offre de SAP est en ligne avec celle des bonnes pratiques, et c’est une bonne nouvelle. Reste Ă  voir le prix, les ressources de mise en Ɠuvre, et la complexitĂ©.

  • DBOS, la base de donnĂ©es au coeur d’un futur systĂšme d’exploitation

    Quand vous entendez le nom de Michael Stonebraker, et que vous avez quelques souvenirs de vos cours d’histoire du logiciel, vos neurones se rĂ©activent.

    Michael Stonebraker est en effet le concepteur de Ingres, au début des années 70, qui donnera naissance à Sybase, à Postgres. Spécialiste des bases de données, il donnera naissance à de nombreuses entreprises dont Vertica, VoltDB, etc. et sera pendant plusieurs années le directeur technique de Informix.

    Et si vous avez perdu la mĂ©moire de cette histoire des bases de donnĂ©es, oĂč si vous ne vous y ĂȘtes jamais intĂ©ressĂ©, je vous conseille la lecture du petit livre rouge du sujet : RedBook.io. Disponible gratuitement, la 5Ăšme Ă©dition, qui date de 2015, vous permettra de comprendre comment et pourquoi ont Ă©tĂ© crĂ©Ă©s ces composants indispensables de notre systĂšme d’information, les bases de donnĂ©es.

    Mais ce n’est pas le sujet du jour. En effet, Ă  80 ans, Michael Stonebraker n’a pas l’intention de partir Ă  la pĂȘche au coeur de l’AmĂ©rique profonde, mais plutĂŽt de se lancer dans un nouveau projet : DBOS !

    La rĂ©flexion de Michael Stonebraker part du rĂŽle croissant de la donnĂ©e dans le systĂšme d’information. Notre Ă©conomie “data driven”, nos entreprises “data driven”, notre architecture informatique bientĂŽt “data driven”. Mais nos systĂšmes d’exploitation ne le sont pas encore; Linux par exemple.

    Pour Michael Stonebraker, il est temps de sĂ©parer les donnĂ©es du code du systĂšme d’exploitation, et rĂ©duire celui-ci Ă  un petit noyau logiciel, exĂ©cutant quelques fonctions basiques de bas niveau. Tout le reste s’exĂ©cute dans la base de donnĂ©es. Cela fait maintenant trois ans qu’il travaille au MIT et Ă  Stanford sur le sujet. Depuis une quinzaine d’annĂ©es les bases de donnĂ©es relationnelles OLTP ont Ă©tĂ© grandement optimisĂ©es; elles pourraient donc aujourd’hui supporter l’exĂ©cution des tĂąches d’un systĂšme d’exploitation, explique-t-il. L’idĂ©e est donc de faire tourner l’OS dans la base de donnĂ©es.

    Une des fonctionnalitĂ©s intĂ©ressantes est le “time travel debugger”. Il permet de remonter dans l’historique du systĂšme d’exploitation, par exemple en cas de cyber-attaque, et de revenir Ă  la situation antĂ©rieure, instantanĂ©ment.

    DBOS, qui compte pour l’instant une Ă©quipe de dix personnes, a levĂ© 8,5 millions de dollars pour lancer ses activitĂ©s. Michael Stonebraker en est un des cofondateurs, et le directeur technique. Un autre des cofondateurs est l’ancien directeur technique de Databricks. DBOS serait dĂ©jĂ  en test dans une grande banque et une sociĂ©tĂ© du secteur agro-alimentaire.

    Pour en savoir plus, https://www.dbos.dev/