Le problème c'est les données !

L’année 2018 a vu venir au grand jour une question trop souvent négligée par le passé, celle des données, en particulier personnelles. C’est la mise en place du RGPD (Règlement général pour la protection des données) qui a donné l’alerte. En éducation comme en général dans la société, la place prise par le numérique est telle que l’on est en droit de s’interroger sur ce qui se passe derrière nos claviers, nos souris et nos écrans (devenus tactiles). Or c’est bien autour des données que se situe l’ensemble des questions essentielles : dans un programme informatique on apprend à séparer le code des données. Quand, au début des années 1980, nous bricolions en langage Basic, nous avions souvent les données en grande partie mélangées au code, c’est à dire aux procédures de traitement de ces données. En toute rigueur on nous a appris, avec la programmation « propre » à séparer les deux. Le code, basé sur l’algorithme de traitement, permet de récupérer les données, les traiter (effectuer des opérations plus ou moins complexes de transformation), les stocker et ou les émettre vers des destinataires variés. L’amélioration des performances techniques des composants informatiques a permis d’accélérer les vitesses de calcul et donc d’augmenter les traitements des données, mais aussi la quantité de données traitées.
Et puis arrivent les programmes générés par les données. C’est l’inversion de l’idée initiale. Les données construisent les algorithmes et le code, qu’on appelle cela « machine learning » ou « apprentissage machine », le résultat est le même. Sur la base d’un programme initial, un nouveau programme peut être conçu à partir des données traitées. Une analyse des propositions de logiciels basés sur cette idée montre rapidement les limites de la machine. Stanislas Dehaene, dans son livre « Apprendre » sous-titré « Les talents du cerveau, le défi des machines » rejoint alors les propos de Yann Le Cun sur les limites de la machine. Ouf, pense-t-on, on peut respirer. La fameuse Intelligence Artificielle, que l’année 2018 a réactualisée, ne serait encore une fois, comme dans les années 1980, qu’un argument commercial cachant mal les limites de la machine. D’ailleurs comparé à l’apprentissage humain, les machines semblent très peu efficientes (cf. S Dehaene p.105-110). Cependant on ne peut s’empêcher d’observer que dans des champs, certes limités, l’apprentissage des machines leur permet de s’améliorer : c’est là la ressemblance avec l’humain, si chère à ceux qui parlent d’IA et donc la source de toutes les constructions imaginaires possibles.
Compte tenu de ces éléments, il faut en revenir aux données et à leur utilisation, avec ou sans IA. Observons en particulier le monde de l’éducation et plus précisément celui de l’enseignement scolaire. Sur le site du ministère de l’éducation (http://www.education.gouv.fr/cid133192/le-numerique-service-ecole-confiance.html) on peut lire ces lignes :
– « Le ministère de l’Éducation nationale doit impérativement s’assurer que les flux, les traitements et l’hébergement de ces données scolaires respectent strictement la vie privée des élèves et de leur famille, des professeurs et des personnels administratifs. »
Et plus loin :
– « Le développement de l’intelligence artificielle (IA) dans le domaine scolaire va modifier les pratiques quotidiennes des professeurs en les aidant par exemple à recommander des contenus ou des ressources ou encore à apporter une assistance à l’évaluation et à la correction des travaux de leurs élèves. L’IA pourra également révéler de nouvelles informations sur les parcours d’apprentissage des élèves. Elle permettra ainsi aux professeurs de mettre en œuvre des situations d’apprentissage et un accompagnement plus proche des besoins de chaque élève. »
La conscience politique de la question des données semble ici claire, d’autant plus qu’ « un comité d’éthique et d’expertise en matière de données numérique » devait être créé en cette fin 2018, mais à ce jour nous n’en avons aucune trace de la mise en place, ce n’est même pas un comité Théodule…. On peut noter dans la deuxième phrase citée ici que l’on parle d’informations et non plus de données. Ce changement de terme n’est pas neutre dans ce discours, il faut rappeler qu’une information est un fait transformé en signal (une donnée) et diffusée ensuite. En séparant l’idée de données administratives qu’il faut protéger de données pédagogiques pour aider les enseignants, on repère les limites de cette prise de conscience : c’est bien l’ensemble des données qu’il faut considérer car elles font système au cœur du processus complexe de développement de l’enfant. En séparant les deux, on peut penser qu’il y a étanchéité de la pratique pédagogique avec la gestion administrative souvent appelée « vie scolaire ». C’est ce message que semble vouloir faire passer le ministère. Et pourtant depuis 2002 et un rapport sur le lien école famille, on a vu l’ouverture des données pédagogiques au-delà des murs de l’école devenir une norme du quotidien : inscriptions, suivi administratif, absence, retard, sanctions, orientation et filières suivies, contrôles et évaluations, travail à faire et à rendre (cahier de texte numérique) et plus généralement l’activité pédagogique au travers des ENT ouverts aux familles. Nous y sommes presque, les données générées par un élèves sont potentiellement un trésor de guerre dont certains peuvent être prompts à en faire une marchandise : quelles données gardent les concepteurs de produits de vie scolaire ou d’ENT indépendamment des demandes officielles ? Une observation impliquée dans un tel déploiement dans plusieurs é nous a permis d’observer que la captation des données est très facile à mettre en place, reste à savoir ce qui en est fait : amélioration du service ? Revente des données ? Un exemple peut nous permettre d’illustrer cela : pourquoi les éditeurs de manuels scolaires ont toujours imposé une identification spécifique de l’élève lors d’accès aux versions numériques de leurs produits ? Lors d’un échange avec certains d’entre eux, ils ont évoqué l’idée d’améliorer leur connaissance de « l’expérience utilisateur ». Pour le dire autrement, tous ceux qui s’intéressent de près ou de loin à la scolarisation des enfants pourraient adopter la même démarche, mais pour quoi en faire de ces données ?
Reste un espace d’incertitude à propos des données en contexte scolaire : que collecte-t-on et comment ? Pour l’instant ce que l’on capte comme données, c’est tout ce qui passe par l’utilisation d’un ordinateur (ou dérivé) dans le cadre des activités au sein de l’établissement. Mais que ne capte-t-on pas ? Le chercheur en éducation met en place, pour collecter ses données, des méthodes variées : observation directe, entretiens, questionnaires, collecte de données papier, collecte de données numériques ou numérisées. Examinons chacune de ces sources et de leur transformation en données numériques potentielles et ensuite tenter d’envisager ce que de nouvelles formes de collecte de données automatisées pourrait amener.
– L’observation directe
Être dans l’établissement, dans la salle de classe, c’est être au cœur de l’activité. Faire une observation de classe est complexe au vu du nombre d’évènements qui se produisent à chaque instant et qui peuvent tous amener à des analyses. L’utilisation de caméras pour enregistrer ces activités est certes un moyen de garder plus d’informations, mais aussi d’en délaisser. L’enseignant dans sa salle de classe fait constamment de l’observation, mais impliquée celle-là qui apporte aussi d’autres informations. Aussi a-t-il recours aux traces écrites ou à l’expression orale ou comportementale pour développer son analyse, mais là encore, il est limité naturellement par sa capacité à faire face à un grand nombre d’enfants et leurs productions. L’observation directe est la plus riche, mais aussi celle qui révèle le plus notre difficulté à capter des données dans l’espace classe.
– Les entretiens
Mener des entretiens, individuels, collectifs, ou en focus group, est un moyen courant de recueillir des données. Mais ces données sont particulières car elles sont des « déclarations » non vérifiables la plupart du temps. L’apport des entretiens est bien sûr le repérage des re-présentation de la réalité vécue et donc parfois son interprétation par celui ou celle qui l’a vécu. L’analyse des entretiens peut s’avérer délicate, difficile selon que l’on a été plus ou moins directif. Le complément apporté par l’entretien c’est la parole de l’acteur, son discours sur son action, son activité (on peut évoquer ici la méthode de l’entretien d’explicitation qui apporte des données un peu différentes).
– Les questionnaires
Orientant le propos sur des éléments plus ou moins précis, le questionnaire permet aussi de capter des données, dont la limite est encore celle du discours de celui qui répond. L’avantage c’est le côté formel qui permet une numérisation plus sûre. La limite est, par rapport aux deux premières pratiques, c’est l’appauvrissement de certains éléments du réel dont il est question. Comme l’entretien, le questionnaire est sujet à caution en particulier quand il est passé sans protocole rigoureux, voire d’observation directe de celui qui répond. Les enquêtes en ligne ont justement cette limite, surtout si l’on ne peut savoir qui répond réellement. Les données peuvent être particulièrement fragiles et peu fiables ou en tout cas à nettoyer.
– Les données papier
Dans une activité scolaire, la première production de l’élève c’est l’écrit papier. Il suffit d’observer des classes pour se rendre compte de l’importante présence de ce support et donc la possibilité de les collecter. Cahier de brouillon, du jour, de devoir et autres copies rendues, voici des sources riches car finalisées non par l’attente du chercheur mais par l’activité scolaire elle-même. Ces données sont d’ailleurs toujours premières dans le travail d’évaluation des enseignants. A ces données pédagogiques, s’ajoutent d’autres données dites de vie scolaire qui désormais sont de plus en plus souvent numérisées. Le cahier de liaison, le cahier de texte et les autres données administratives sont encore parfois sur support papier et peuvent servir pour l’analyse, mais leur numérisation est en voie de généralisation
– les données numériques
Depuis le début des années 1980, le monde scolaire a assisté à l’arrivée de plus en plus massive des ordinateurs. D’abord pour la gestion administrative et comptable puis pour la vie scolaire et de plus en plus pour l’activité pédagogique et documentaire. A cela s’ajoute la généralisation des accès à Internet et aux services proposés aux élèves dessus au travers des ENT et autres produits de vie scolaire (Pronote, Charlemagne etc..). Capter les données dans ce contexte peut être automatisé et aller bien au-delà des simples traces volontaires (devoirs, forums et autres participations actives des élèves). L’idée de l’adaptive learning (apprentissage adaptatif) c’est bien d’aller jusqu’au trace comportementales (hésitations, ajouts, errements et autres actions non sollicitées par l’enseignant mais faites par l’élève) pour mieux construire le profil de l’élève et apporter des aides (remédiation ou autres, comme le suggère le ministre).
La captation de données concernant les élèves dans l’espace de travail scolaire ne cesse de s’amplifier. De Big Blue (nom donné à IBM dans les années 1960 en référence à la couleur de ses ordinateurs mais surtout des costumes de ses employés) à Big Brother – (issu du roman 1984 de Georges Orwell publié en 1949), et désormais les GAFAM, la question des données est devenue centrale dans la société numérique. Le constat antérieur des limites de la captation des données a amené les pouvoirs à encourager la recherche dans le domaine de la captation. Dans la salle de classe, nous l’avons vu la collecte de données est très partielle. Imaginons quelques instants divers progrès techniques : captation automatiquement numérisée de toutes les traces écrites (OCR) et orales (transcription) de l’élève, captation des mouvements et déplacements dans l’espace, captation du fonctionnement du cerveau (IRMf ???) en temps réel… Que reste-t-il alors à capter ? Plus grand chose. Effectivement le « surveillant » peut devenir intelligent : jadis il avait comme rôle d’imposer une posture à l’élève (rappelez-vous les grandes salles d’étude avec le surveillant sur une estrade), désormais il lui suffira de demander à l’informatique d’analyser les données captées et de lui proposer le comportement adapté…
La déshumanisation n’est pas forcément celle que l’on croit. Il ne s’agit pas de supprimer les relations humaines, mais de les enregistrer pour mieux les contrôler et mener des actions ciblées. Il suffit de lire des productions du monde du commerce, de la vente et du marketing pour le comprendre. Dans ce domaine on ne se pose pas de question autre que la rentabilité du processus. Transformer l’humain en données est une base essentielle de l’action. Deux clients qui parlent entre eux, comment capter leurs propos et les utiliser éventuellement. Deux élèves qui parlent entre eux dans la classe, comment capter leurs propos pour les engager dans l’action voulue ou simplement vérifier ce qu’ils échangent… Face à un groupe de 20 ou 30 élèves un enseignant n’est pas en mesure de tout capter. Imaginons alors que tout soit enregistré et que les traitements automatiques soient mis en place, on passerait alors dans un autre monde….
A suivre et à débattre
BD

Licence SE | Pearltrees sur 31 décembre 2018 à 14:21
#

[…] Le problème c’est les données ! L’année 2018 a vu venir au grand jour une question trop souvent négligée par le passé, celle des données, en particulier personnelles. C’est la mise en place du RGPD (Règlement général pour la protection des données) qui a donné l’alerte. En éducation comme en général dans la société, la place prise par le numérique est telle que l’on est en droit de s’interroger sur ce qui se passe derrière nos claviers, nos souris et nos écrans (devenus tactiles). Or c’est bien autour des données que se situe l’ensemble des questions essentielles : dans un programme informatique on apprend à séparer le code des données. […]

Le problème c'est les données !

J’aime ça :

1 ping

Laisser un commentaire Annuler la réponse

Articles récents

Archives du blog

Droits de reproduction

Le problème c'est les données !

J’aime ça :

Posts associés

Le problème ce sont les données (numériques ?)

Traces, données, big data, vous avez dit éduquer ?

Les inégalités scolaires ne sont-elles pas d'abord produites par l'école ? Le numérique peut-il résoudre ce problème ?

1 ping

Laisser un commentaire Annuler la réponse

Articles récents

Archives du blog

Droits de reproduction