ARCHIVÉ – Analyse des données sur les niveaux de compétence linguistique canadiens issues de l’enquête sur la langue (Citoyenneté)
Problèmes avec l’ensemble de données
Nous avons constaté divers problèmes avec l’ensemble de données dont les principaux sont la nécessité de procéder à un nettoyage complet des données, les procédures d’enregistrement et, finalement, les lacunes au chapitre des questions de l’enquête elles-mêmes. Nous allons aborder chacun de ces problèmes séparément.
Lorsque nous avons reçu les données vers la mi-janvier de 2007, nous avons remarqué que les fichiers en provenance de Toronto et de Vancouver comportaient moins de questions que ceux des autres villes, et en outre qu’ils se présentaient sous le format SPSS tandis que les autres fichiers étaient en Excel. Pour pouvoir réaliser des comparaisons directes, toutes les données ont dû être fusionnées dans un même fichier, ce qui a nécessité passablement de gestion de données. Il a fallu ensuite procéder à un nettoyage additionnel considérable en raison d’incohérences dans les procédures de saisie des données. De plus, nous avons procédé au recodage des variables relatives aux professions à l’aide du système de la Classification nationale des professions (CNP). Ces procédures ont été effectuées entre mars et juin 2007. Les analyses statistiques ont pu ensuite être effectuées sur l’ensemble de données qui en est résulté.
En même temps que nous recevions les données, on nous a transmis les documents intitulés “CIC Language Surveys: Sample Development and Data Management” (Enquêtes sur la langue de CIC : élaboration de l’échantillon et gestion de données) et “Description of Data Files” (Description des fichiers de données). Même si ces documents nous ont fourni quelques renseignements sur le contexte, ils ne nous ont pas beaucoup aidés à comprendre certaines procédures de collecte de données ayant été utilisées.
Nous avons résolu, au mieux de nos compétences, certains problèmes résultant d’un nettoyage insatisfaisant des données. Les données issues de ce projet, maintenant combinées en un seul fichier et associées à un codage cohérent, sont maintenant à la disposition de CIC en vue d’utilisations futures. Pendant la phase de nettoyage des données, voici deux des plus importants problèmes que nous avons eu à régler :
- Les données incluaient des fichiers dont les formats étaient incompatibles, soit en Excel et en SPSS, ce qui a nécessité des manipulations importantes avant la fusion;
- Nous avons dû procéder à un recodage complet. Par exemple, nous avons enregistré neuf codes différents pour le sexe! Il s’agit d’un exemple des irrégularités relativement simples que nous avons dû corriger. Toutefois, d’autres modifications se sont révélées beaucoup plus complexes. Ainsi, beaucoup de problèmes que nous avons éprouvés avec l’ensemble de données étaient imputables à des procédures de collecte incorrectes dont il sera question dans la prochaine section.
Nous avons constaté un nombre élevé de cas de non réponse ou de données manquantes dans de nombreuses catégories. Peut-être que beaucoup de participants n’ont pas compris certaines questions en particulier et ne pouvaient donc pas y répondre, mais le nombre est tellement élevé que nous soupçonnons également l’évaluateur d’avoir commis des erreurs.
L’incohérence totale de la codification des données est un autre problème associé à l’évaluateur. Même s’il est inévitable dans ce genre de travail d’avoir à procéder à un certain nettoyage de données, si les évaluateurs avaient reçu de la formation dans ce domaine, cela aurait permis d’éliminer le degré élevé de variabilité dans le codage des réponses, et réduire le nombre d’heures ayant été requises pour nettoyer les données. Par exemple, le manque d’uniformité et les fautes d’orthographe ont rendu impossible la conversion automatique de variables en chaîne en variables numériques, et l’incohérence dans l’enregistrement des dates a dû être corrigée manuellement. De plus, nous avons constaté divers cas où l’on avait mélangé le codage de variables en chaîne avec des variables numériques d’une ville à l’autre, ce qui a eu pour effet de nous empêcher de fusionner les fichiers des villes avant d’avoir procédé à un recodage.
Un autre problème semblable nous est apparu lorsque nous avons constaté que l’on avait affecté les mêmes numéros d’identification à des personnes vivant dans des villes différentes. Il semble que cette erreur se soit produite parce que l’on avait attribué des ID aux participants aux endroits où on a procédé aux examens plutôt qu’au moyen d’un processus plus centralisé.
D’après les réponses à certaines questions, il était évident que les évaluateurs n’avaient pas suffisamment approfondi la question. Par exemple, les réponses à la question au sujet de la profession actuelle comprenaient des exemples tels que « travaille à la Baie », « technicien » et « propriétaire ». Ces descripteurs vagues ne peuvent être interprétés ou classés dans le système de la CNP. Un employé des magasins La Baie, par exemple, pourrait travailler à l’entretien, au service alimentaire, dans un bureau, comme vendeur ou encore au service ou même dans un poste de gestion. Un autre exemple de question qui aurait pu bénéficier d’un approfondissement plus soigneux est celle qui portait sur la langue – les réponses comprenaient notamment des langues inexistantes, p. ex. le suisse (la Suisse compte quatre langues officielles, et aucune d’entre elles n’est qualifiée de langue « suisse »), et nous avons également noté plusieurs réponses à des questions qui n’appelaient qu’une seule réponse, p. ex. langue utilisée le plus souvent au travail. Nous avons constaté un autre exemple de manque d’approfondissement lorsque l’évaluateur a omis de recueillir tous les renseignements requis à des questions comportant plusieurs parties. Par exemple, beaucoup de participants ayant déclaré avoir suivi des cours de langue n’ont pas précisé de quel genre de cours il s’agissait.
Nous ne comprenons pas très bien pourquoi, dans le cadre d’une étude sur l’acquisition d’une langue seconde, nous avons accordé autant d’importance aux locuteurs dont la langue première est l’anglais ou le français. Il semble que l’on ait consacré des ressources considérables pour recueillir des données qui n’ont pas beaucoup de valeur.
Pour pouvoir recueillir efficacement des données qui seront utiles dans l’élaboration de programmes de cours de langue, il faudrait mettre l’accent sur des questions qui sont pertinentes par rapport aux enjeux de l’enquête. Dans le cadre de la présente étude, il nous a semblé que l’on avait tenté de couvrir plusieurs secteurs disparates. Non seulement a-t-on posé des questions d’ordre démographique et sur la langue, mais on a inclus des questions sur la citoyenneté qui n’étaient pas vraiment pertinentes par rapport aux aspects de l’apprentissage d’une langue. Nous ne comprenons pas très bien pourquoi des données sur des questions de citoyenneté ont été recueillies (p. ex. le nom d’un juge) dans le cadre d’une étude qui visait ostensiblement à évaluer le perfectionnement de l’apprentissage d’une langue, et plus particulièrement, compte tenu que Citoyenneté et Immigration Canada dispose d’autres sources de données sur les taux de réussite aux examens pour la citoyenneté, etc. Les ressources seraient mieux utilisées si l’on restreignait les questions de l’enquête à celles qui sont directement pertinentes pour l’objet de l’étude. En ajoutant des questions, on allonge la durée de l’étude, on exige davantage des participants et des évaluateurs, et on augmente les coûts généraux.
Voici un autre exemple de question pas assez ciblée au sujet de la langue parlée au travail. On a demandé aux participants quelle langue ils utilisaient le plus fréquemment, mais sans préciser la nature de l’utilisation de la langue, autrement dit, le genre de tâches requises au travail pour lesquelles ils devaient se servir d’expressions convenues (les serveuses par exemple utilisent toujours plus ou moins le même genre d’expressions) comme répondre au téléphone, lire dans le cadre du travail, communiquer avec des collègues, donner de la formation, présenter des exposés, rédiger de la correspondance et des rapports, etc.
Compte tenu de la formulation de la question au sujet du statut d’emploi actuel, il n’est pas possible de déterminer quels participants étaient sans emploi ou ne travaillaient pas par choix. Cette question aurait pu être formulée différemment, ce qui aurait permis de recueillir davantage de renseignements utiles.
Certaines questions étaient ambiguës, aussi il se pourrait que des participants aient eu de la difficulté à les interpréter. Par exemple, à la question au sujet des cours de langue, on demandait aux participants s’ils avaient suivi les cours du programme CLIC, des cours payants ou encore des cours au niveau secondaire/collégial/universitaire. La dernière catégorie et celle des cours payants ne s’excluent pas mutuellement. De plus, il arrive parfois que le programme CLIC soit dispensé dans des établissements d’enseignement qui s’identifient comme des collèges. Des concepts comme les cours à temps plein par rapport aux cours à temps partiel, et les cours de « l’éducation permanente » peuvent également poser des problèmes en raison de l’interprétation assez large que l’on peut donner de chacune de ces expressions. La seule mesure utile relativement à la quantité de formation suivie est le nombre d’heures de contact. Ainsi, les cours à temps partiel pourraient correspondre à un très petit nombre d’heures ou encore à un très grand nombre d’heures par semaine.
En revanche, il n’y avait pas suffisamment de questions au sujet des expériences des participants avant leur arrivée au Canada, comme les études suivies et les emplois occupés dans le passé. De plus, les participants ayant déclaré avoir suivi des cours de langue auraient dû être interrogés au sujet de la note obtenue à l’ENCLC lors du premier examen. Il se peut que certains aient oublié leur note exacte, mais il est probable que la majorité des répondants auraient pu fournir des renseignements utiles. En l’absence de ces renseignements, il est impossible d’évaluer les progrès réels des participants sur le plan de l’apprentissage de la langue après leur arrivée au Canada. Si des questions de ce genre avaient été incluses, l’utilité de l’ensemble de données aurait été grandement améliorée, et l’on aurait pu arriver à des conclusions plus fiables au sujet de l’efficacité des cours de langue reçus par les participants.
À Toronto et à Vancouver on a achevé la collecte de données avant les quatre autres villes. Par la suite, des modifications ont été apportées au questionnaire, ce qui a entraîné une incompatibilité entre les fichiers de données. Pour pouvoir faire des comparaisons directes entre toutes les villes, nous avons dû exclure certains renseignements qui avaient été ajouté à mi-chemin du processus de collecte de données.
Détails de la page
- Date de modification :