Leçon 4  - Préparer les données qualitatives pour l'analyse

De : Bureau du Conseil privé

Introduction

Dans la leçon précédente, vous avez vu comment Python peut faciliter l’analyse du contenu. Dans cette leçon, il est question de la préparation (prétraitement) des données en vue de telles analyses.

Texte pour ordinateurs

La plupart du temps, le texte est destiné à des humains. Vous écrivez dans un format pour des humains qui le liront. Si vous souhaitez qu’un ordinateur vous aide à interpréter le texte, vous devez y apporter quelques changements.

Vous devez commencer par structurer les données. Dans l’exemple ci-dessous, les données issues d’une consultation sont présentées dans un tableau. Chaque rangée contient les données rattachées à une seule entrée et chaque colonne décrit cette entrée. La rangée du haut est réservée aux en-têtes de colonne, qui décrivent les données présentées en dessous. La colonne « réponse » contient le texte que vous voulez analyser.

No d’identification de l’entrée question date réponse
1 Décrivez ce que vous pensez d’un changement de politique 2-21-2017 Il y a longtemps que j’appuie les changements, car cela a une incidence directe sur mon entreprise. Je suis heureux que les choses aillent en ce sens, même si j’aimerais que le gouvernement en fasse encore plus.
2 Décrivez ce que vous pensez d’un changement de politique 2-22-2017
12 Décrivez ce que vous pensez d’un changement de politique 2-21-2017 J’ai beaucoup entendu parler du changement de politique aux nouvelles, mais je ne sais pas trop quel effet il aura dans ma vie au quotidien.
15 Décrivez ce que vous pensez d’un changement de politique 2-21-2017 Je crois que le changement alourdira le fardeau qui pèse sur les propriétaires d’entreprise. J’étais satisfait de la politique telle qu’elle était avant.

Cette structure permet à un programme de savoir exactement ce qui se trouve dans chaque cellule. Vous devriez sauvegarder cette feuille de calcul sous forme de fichier CSV (valeurs séparées par des virgules), que l’on utilise pour conserver des données tabulaires sans formatage visuel ou formules.

Voici une liste de contrôle simple :

Vous pouvez réaliser différentes étapes pour préparer vos données encore davantage, notamment organiser le texte, segmenter les mots en unités, utiliser les minuscules, éliminer les mots vides, avoir recours à la lemmatisation, faire une indexation par radicaux et créer un « sac de mots ». Ces étapes sont appelées fonctions de prétraitement.

Organiser le texte

Une fois que vous avez structuré les données, vous pouvez commencer le prétraitement avec Python. Votre objectif consiste à modifier et à organiser les réponses textuelles dans un format facile à analyser.

Segmentation en unités

La segmentation en unités consiste à diviser les phrases en listes de mots, ce qui permet d’examiner des mots individuels et des fréquences de mots.

Usage de minuscules

L’usage de minuscules consiste à remplacer toutes les lettres majuscules par des lettres minuscules dans l’ensemble des mots. Par exemple, cela vous évitera de rater le mot « Chat » quand vous faites une recherche du mot « chat ».

Élimination des mots vides

Les mots vides sont des mots sans importance, comme les articles définis (« le », « la » ou « les ») et « ce », « que », etc. Bien qu’ils aident les êtres humains à interpréter le sens, ils ne sont d’aucune utilité pour analyser les données avec Python. Si vous négligez cette étape, les mots « le », « la » ou « les » seront toujours les plus fréquents, ce qui ne sera pas très utile.

Lemmatisation

La lemmatisation consiste à remplacer les mots par leur lemme, soit leur forme canonique figurant dans le dictionnaire. Cela vous permet de connaître la fréquence des mots même s’ils ont été modifiés à des fins de précision, par exemple s’ils ont été mis au pluriel.

Indexation par radicaux

L’indexation par radicaux consiste à éliminer les préfixes et suffixes courants afin de ne conserver que le radical d’un mot. Contrairement à un lemme, il se peut qu’un radical ne soit pas un mot qui existe. Ainsi, des mots comme « troublant », « troublé » et « trouble » seraient remplacés par « troubl ».

Voici un exemple qui illustre l’effet de la lemmatisation et de l’indexation par radicaux sur un ensemble de mots :

Original : opérer, opérant, opère, opération, opérationnel, opérationnels, opérationnelle
Indexé par radicaux : oper, oper, oper, oper, oper, oper, oper
Lemmatisé : opérer, opérant, opérer, opération, opérationnel, opérationnel, opérationnel

Création d’un « sac de mots »

La création d’un sac de mots consiste à éliminer le texte en format CSV pour former une longue liste. Cette opération peut être pratique comme première étape, afin de préparer les données à l’utilisation des autres techniques d’analyse décrites.

Voici un exemple d’application des fonctions de prétraitement à un groupe de mots :

Exemple d’un « sac de mots »
Version texte

Organigramme montrant comment le texte [“Pommes et oranges!”, “Il pleut dehors. ”] est modifié par l’application successive des différentes fonctions de prétraitement. Le premier encadré renferme le texte d’origine. Dans le deuxième encadré, situé sous le premier, le texte est segmenté en unités, de sorte que la ponctuation est éliminée et chaque mot se retrouve entre guillemets; [[“Pommes”, “et”, “oranges”], [“Il”, “pleut”, “dehors”]]. Dans le troisième encadré, situé sous le deuxième, tout l’énoncé est en lettres minuscules; [[“pommes”, “et”, “oranges”], [“il”, “pleut”, “dehors”]]. Dans le quatrième encadré, situé sous le troisième, les mots vides sont éliminés. Dans cet exemple, le mot vide est « et »; [[“pommes”, “oranges”], [“il”, “pleut”, “dehors”]].

Au-dessous du quatrième encadré, l’énoncé est soumis aux fonctions de lemmatisation et d’indexation par radicaux, dans deux encadrés différents, ce qui permet de voir la différence entre ces deux techniques. Dans l’encadré contenant la version lemmatisée, les mots sont ramenés à leur plus courte racine; [[“pomme”, “orange”], [“il”, “pleuvoir”, “dehors”]]. Suit au-dessous l’encadré qui contient le « sac de mots » de l’énoncé lemmatisé, soit [“pomme”, “orange”, “il”, “pleuvoir”, “dehors”]. Dans l’encadré contenant la version indexée par radicaux, seul le radical des mots est conservé; [[“pomm”, “orang”], [“il”, “pleu”, “dehors”]]. Suit au-dessous le dernier encadré, qui contient le sac de mots de l’énoncé indexé par radicaux, soit [“pomm”, “orang”, “il”, “pleu”, “dehors”].

Conclusion

Malgré leur simplicité, ces transformations sont essentielles à la préparation des données qualitatives en vue de l’analyse du contenu. En « nettoyant » ainsi le texte, vous permettez au logiciel d’exécuter divers processus d’analyse du contenu, lesquels seront abordés à la leçon 5.

Détails de la page

Date de modification :