Leçon 3 - Utiliser Python pour l’analyse du contenu

De : Bureau du Conseil privé

Introduction

Python est un langage de programmation dont vous pouvez vous servir pour analyser du contenu. À la leçon 2, vous avez vu certaines techniques d’analyse du contenu, comme le comptage des mots et la modélisation thématique. Certains outils numériques qui sont à portée de main vous permettent de commencer à analyser vos données issues d’une consultation au moyen de ces techniques. Par exemple, la plupart des logiciels de bureau offrent des fonctions comme le comptage des mots et la recherche par mots-clés, et il existe en ligne des lexiques de mots positifs et négatifs.

Ces logiciels ont pour principale limite qu’ils ne sont pas destinés à la recherche qualitative. Ils ne sont pas conçus pour faciliter l’examen, l’analyse et la compréhension de grands corpus. Utiliser le mauvais logiciel rendra l’analyse du contenu lente, laborieuse, voire impossible. En revanche, des langages de programmation comme Python permettent d’exécuter les techniques dont il a été question à la leçon 2 et vous aideront, par le truchement du codage, à repérer des liens dans vos données.

Dans cette leçon, vous apprendrez en quoi le codage et l’automatisation informatique peuvent vous aider à comprendre les données issues d’une consultation.

Aperçu de Python

Python est un langage de programmation général et facile à lire. Il est utilisé en analyse du contenu parce qu’il est simple et bien documenté. De plus, il est facile d’apprendre à le configurer et à l’utiliser et il est pratique pour quiconque veut automatiser des tâches répétitives.

Comme tout autre langage de programmation, Python permet de communiquer avec les ordinateurs. Voici un exemple d’instruction que vous pouvez donner dans Python :

for char in '-.,':
Text=Text.replace(char,' ')

L’instruction (ou code) ci-dessus dit à l’ordinateur de repérer les points, les virgules et les tirets dans un corpus et de les remplacer par une espace. Ce code particulier peut être utilisé pour « nettoyer » un texte en vue de l’analyse. Une fois ces caractères éliminés, l’ordinateur peut analyser les données plus aisément.

Composantes de base

Dans Python, il est possible de combiner des codes simples pour en faire des ensembles ou « scripts ». C’est là l’utilité de Python. Pris ensemble, ces scripts fonctionnent comme des composantes de base qui vous permettent d’effectuer des tâches complexes. Certains autres langages de programmation peuvent même représenter graphiquement ces blocs, comme l’illustre l’exemple du langage Blockly ci-dessous.

stacks of tri-colour puzzle pieces with instructional text fit together to show how Blockly creates visual representations of code scripts.

Pourquoi Python?

Python est un langage de programmation parmi tant d’autres pouvant servir à l’analyse de données qualitatives. Cela dit, il se distingue de la plupart des autres langages en ce que bon nombre des scripts qu’il peut utiliser pour exécuter les techniques d’analyse du contenu (voir la Leçon 2) sont partagés sur des plateformes comme GitHub. Ces collections communes de scripts Python, appelées « bibliothèques », vous permettent de réaliser de nombreuses actions sans avoir à rédiger votre propre code.

Les bibliothèques de Python couramment utilisées comprennent des instructions se prêtant à des techniques comme le traitement du langage naturel, l’analyse des sentiments et la modélisation thématique, qui facilitent l’analyse du contenu.

Utiliser des lexiques dans Python

Vous avez vu la fonction de Python et certaines situations dans lesquelles vous pouvez vous en servir pour travailler avec des données qualitatives et les préparer. Vous pouvez maintenant explorer la façon dont Python peut assister dans le processus d’analyse du contenu. Au fil de votre lecture, réfléchissez à la mesure dans laquelle les outils que vous choisissez pourraient influer sur votre interprétation des résultats.

Supposons que vous désiriez réaliser une analyse des sentiments et comparer des commentaires « positifs » et « négatifs » dans votre jeu de données. Pour y parvenir, vous pourriez entre autres analyser tous les mots pour déterminer s’ils correspondent à une réponse négative ou positive. La tâche s’annonce difficile, car il y a des milliers de mots à analyser.

Un outil pouvant s’avérer utile est l’Opinion Lexicon (en anglais seulement; nécessite un convertisseur de fichiers au format .RAR), qui regroupe plus de 6 800 mots. Il propose deux listes : l’une qui contient des mots négatifs, et l’autre, des mots positifs. Vous pouvez utiliser ce lexique pour calculer la fréquence des mots positifs et négatifs et déterminer s’il y a une forte tendance dans un sens ou dans l’autre.

Bien qu’il puisse être un bon point de départ, l’Opinon Lexicon est toutefois utile seulement si vous tenez soigneusement compte du contexte dans lequel s’inscrivent les données. Vous devez garder à l’esprit la méthode de collecte des données et de qui proviennent ces données. La valeur des données qualitatives tient en partie à la liberté des participants et des répondants de communiquer dans leur propre langue.

Il peut arriver que les mots soient employés avec ironie ou en relation avec d’autres mots, ce qui en change le sens. Par exemple, imaginons la façon dont l’Opinion Lexicon lirait la phrase suivante : « Ces montagnes russes étaient follement malades. » Le lexique place « follement » et « malades » dans la catégorie des mots négatifs. Or, dans ce contexte, vous aurez compris que l’auteur s’exprime fort probablement de façon positive.

Conclusion

Les langages de programmation comme Python peuvent exécuter automatiquement certaines tâches d’analyse, et ainsi vous aider à interpréter de grandes quantités de données. Cela dit, ces outils ne peuvent pas saisir toute la complexité de la vie humaine et des langues. Pour illustrer à la fois la force et la faiblesse de l’analyse du contenu au moyen de programmes informatiques, voici un exemple tiré de la bibliothèque de modélisation thématique Gensim (en anglais seulement). Il s’agit d’un résumé de la présente leçon que l’outil a généré automatiquement :

from gensim.summarization import summarize
print summarize(text, word_count=80)
--
Leçon 3 Utilisation de Python pour l’analyse du contenu Introduction : A la leçon 2, nous avons examiné la boîte d’outils d’analyse du contenu, dote d’outils comme le comptage des mots et la modélisation thématique. En ce qui concerne l’analyse du contenu, les bibliothèques de Python qui sont dignes de mention comprennent des instructions portant notamment sur le traitement du langage naturel, l’analyse des sentiments et la modélisation thématique. Chaque fois, il est important de savoir quelles bibliothèques de Python sont utilisées et dans quelle mesure elles peuvent influer sur les résultats de notre analyse du contenu.

Signaler un problème ou une erreur sur cette page
Veuillez sélectionner toutes les cases qui s'appliquent :

Merci de votre aide!

Vous ne recevrez pas de réponse. Pour toute question, contactez-nous.

Date de modification :