La fiabilité comme l'une des principales caractéristiques du test. Types de fiabilité. Fiabilité et validité du test - qu'est-ce que c'est ? La fiabilité des tests signifie que

La fiabilité des tests est l'un des critères de qualité des tests liés à l'exactitude des mesures psychologiques. Plus un test est fiable, plus il est relativement exempt d'erreurs de mesure. La fiabilité des tests est considérée selon une approche : comme la stabilité (stabilité) des résultats lors de tests répétés ; d'autre part, comme manifestation du degré d'équivalence de deux tests (parallèles) identiques dans leur forme et leur finalité.

Fiabilité des tests

La fiabilité des tests est une caractéristique fondamentale d'un test, qui montre dans quelle mesure les résultats du test sont stables au fil d'examens répétés. La fiabilité d'un test peut être déterminée par des tests répétés (après une période de temps strictement définie) et par le calcul du coefficient de corrélation entre les résultats du premier test et ceux des tests répétés. La fiabilité d'un test peut également être déterminée en testant plusieurs versions du même test, en divisant le test en deux moitiés, etc. La fiabilité des résultats des tests dépend non seulement de la qualité du test lui-même, mais aussi de la procédure de test (elle doit être absolument identique dans le premier et dans le deuxième cas), de l'homogénéité socio-psychologique de l'échantillon (elle sera différente pour enfants, hommes, femmes, soldats de première année - service, anciens soldats, etc.). Et il se peut que, étant fiable pour un groupe de personnes, le test s'avère peu fiable pour un autre, et les résultats du test dans ce dernier cas seront incorrects. Ainsi, NT, exprimant le degré d'inexactitude, la possibilité d'erreur, qui survient inévitablement dans tout test, nous oblige à rechercher des moyens de réduire cette erreur, pour une application plus spécifique et ciblée du test. La fiabilité des meilleurs tests est de 0,8 à 0,9.

Fiabilité de l'expérience

stabilité des résultats de l'expérience lorsqu'elle est réalisée pour le deuxième, le troisième, le quatrième, etc. une fois.

L'objectivité d'un test psychologique peut être atteinte si les conditions suivantes sont remplies :

1) uniformité de la procédure de test pour obtenir des résultats comparables à la norme (voir ci-dessous) ;

2) uniformité de l'évaluation des performances des tests ;

3) déterminer la norme de performance des tests pour comparer avec eux les indicateurs obtenus à la suite du traitement des données de test (voir ici « troisième étape de normalisation »).

Ces trois conditions sont appelées étapes de normalisation test psychologique.

Étapes de normalisation

Au stade de l'élaboration du test, comme pour toute autre méthode, une procédure de normalisation est réalisée, qui comprend trois étapes.

La première étape dans la normalisation d’un test psychologique consiste à créer une procédure de test uniforme. Il comprend la détermination des aspects suivants de la situation diagnostique :

1) conditions de test (pièce, éclairage et autres facteurs externes). Évidemment, il est préférable de mesurer le volume de la mémoire à court terme (par exemple, en utilisant le sous-test de répétition des chiffres du test de Wechsler) lorsqu'il n'y a pas de stimuli externes, tels que des sons étrangers, des voix, etc.

3) Disponibilité du matériel de relance standard. Par exemple, la fiabilité des résultats obtenus dépend de manière significative du fait que l'on propose au répondant des cartes G. Rorschach faites maison ou des cartes standard - avec une certaine palette de couleurs et des nuances de couleurs.

4) Restrictions de temps pour effectuer ce test. Par exemple, un répondant adulte dispose de 20 minutes pour terminer le test de Raven.

5) Formulaire standard pour réaliser ce test. L’utilisation d’un formulaire standard simplifie la procédure de traitement.

6) Prise en compte de l'influence des variables situationnelles sur le processus et le résultat des tests. Par variables, on entend l'état du sujet (fatigue, surmenage, etc.), les conditions de test non standard (mauvais éclairage, manque de ventilation, etc.), l'interruption du test.

7) Prise en compte de l’influence du comportement du diagnostiqueur sur le processus et le résultat du test. Par exemple, le comportement approuvant et encourageant de l’expérimentateur pendant le test peut être perçu par le répondant comme une indication de la « bonne réponse », etc.

8) Prise en compte de l’influence de l’expérience du répondant en matière de tests. Naturellement, le répondant, qui n'était pas soumis à la procédure de test pour la première fois, a surmonté le sentiment d'incertitude et a développé une certaine attitude face à la situation de test. Par exemple, si le répondant a déjà terminé le test Raven, cela ne vaut probablement pas la peine de le lui proposer une seconde fois.

La deuxième étape de standardisation d'un test psychologique consiste à créer une évaluation uniforme de la performance du test : une interprétation standard des résultats obtenus et un traitement standard préalable. Cette étape consiste également à comparer les indicateurs obtenus avec la norme de réalisation de ce test pour un âge donné (par exemple, dans les tests d'intelligence), un sexe, etc. (voir ci-dessous).

La troisième étape de standardisation d'un test psychologique consiste à déterminer les normes de réalisation du test.

Des normes sont élaborées pour différents âges, professions, sexes, etc. Voici quelques-uns des types de normes existants :

Normes scolaires - sont élaborés sur la base de tests de résultats scolaires ou de tests d’aptitude scolaire. Ils sont établis pour chaque niveau scolaire et sont valables dans tout le pays.

Normes professionnelles sont établis sur la base de tests destinés à différents groupes professionnels (par exemple, mécaniciens de profils variés, dactylographes, etc.).

Normes locales sont établis et appliqués à des catégories étroites de personnes, distinguées par la présence d'une caractéristique commune - âge, sexe, zone géographique, statut socio-économique, etc. Par exemple, pour le test d'intelligence de Wechsler, les normes sont limitées par l'âge.

Normes nationales sont développés pour les représentants d'une nationalité, d'une nation ou d'un pays donné dans son ensemble. La nécessité de telles normes est déterminée par la culture, les exigences morales et les traditions spécifiques de chaque nation.

La présence de données normatives (normes) dans les méthodes psychodiagnostiques standardisées est leur caractéristique essentielle.

Pour commencer, définissons l'ampleur du développement de ce problème et énumérons brièvement les scientifiques.

Scientifiques qui ont traité du problème de la fiabilité et de la validité des méthodes de psychodiagnostic : A. Anastasi et al.

Définition

La fiabilité de la technique réside dans la stabilité des résultats lors de plusieurs examens.

La validité d'une technique est la fiabilité de la mesure d'une certaine propriété mentale soumise à mesure.

Fiabilité des tests

Considérons plusieurs types de fiabilité des tests psychodiagnostiques.

Fiabilité de la cohérence interne. La partie modifiée du test mesure une variable que les parties inchangées du test ne mesurent pas.
Fiabilité test-retest. Tests répétés des sujets avec corrélation ultérieure des résultats de l'examen initial et final.
Fiabilité des formulaires de tests parallèles. Création d'un questionnaire équivalent et sa présentation aux mêmes sujets pour une corrélation ultérieure des résultats.
La fiabilité des pièces de test peut être déterminée par diviser le questionnaire en parties ; puis corréler les résultats obtenus.

Figure 1. « Indicateurs de fiabilité des tests »

Lors de la détermination de la fiabilité du test, la technique doit être réalisée à des intervalles de temps significatifs. Il est également recommandé d'effectuer le test sur des échantillons d'au moins 200 sujets.

Validité des tests

Considérons quelques types de validité des tests en psychodiagnostic.

Validité claire. Les idées du sujet sur le test.
Validité concurrente. Corrélation avec des tests similaires.
Validité prédictive. Corrélation des résultats des tests initiaux et ultérieurs.
Validité incrémentale.
Validité différentielle.
Validité du contenu. Réflexion des éléments de test sur les aspects d'un domaine d'étude spécifique.
Validité empirique. Corrélation des résultats de cette technique avec les résultats de techniques similaires chez les mêmes sujets.
La validité des critères. Relation entre les résultats obtenus et les critères externes.
La validité de construction.

Une différence importante entre les tests psychométriques est qu'ils standardisé, et cela permet de comparer les indicateurs obtenus par un sujet avec ceux de la population générale ou des groupes correspondants. La standardisation des tests est très importante dans les cas où les performances des sujets sont comparées.

Ceci introduit le concept normes, ou indicateurs standards. Pour obtenir des normes standards, un plus grand nombre de sujets doivent être soigneusement sélectionnés selon des critères clairement définis. Lors de la constitution d'un échantillon de normalisation, sa taille et sa représentativité doivent être prises en compte.

Dans certains cas, il est nécessaire de former plusieurs groupes de normalisation ou de stratifier le groupe de normalisation en fonction de paramètres tels que âge, sexe, statut social. Il n’est pas toujours nécessaire d’établir des normes. Lors de l’utilisation de tests psychologiques dans la recherche scientifique, les normes ne sont pas si importantes et les résultats bruts des tests suffisent. Les normes pour chaque groupe doivent être présentées en valeurs moyennes et en écart type.

Figure 2. « Cadre de validité »

La fiabilité des tests est l'un des critères de qualité des tests liés à l'exactitude des mesures psychologiques. Plus un test est fiable, plus il est relativement exempt d'erreurs de mesure. La fiabilité des tests est considérée selon une approche : comme la stabilité des résultats lors de tests répétés ; d'autre part, comme manifestation du degré d'équivalence de deux tests (parallèles) identiques dans leur forme et leur finalité.

La fiabilité caractérise les tests de propriétés, mais pas les états. Propriétés:

1. Reproductibilité des résultats de recherche.
2. Précision des mesures.
3. Durabilité des résultats.

Le degré de fiabilité des méthodes dépend de nombreuses raisons. Parmi les facteurs négatifs, les plus fréquemment cités sont les suivants :

1. instabilité du bien diagnostiqué ;
2. imperfection des méthodes de diagnostic (les instructions sont rédigées avec négligence, les tâches sont de nature hétérogène, les instructions pour présenter la méthode aux sujets ne sont pas clairement formulées, etc.) ;
3. situation d'examen changeante (différents moments de la journée où les expériences sont réalisées, différentes conditions d'éclairage dans la pièce, présence ou absence de bruits parasites, etc.) ;
4. des différences dans le comportement de l'expérimentateur (d'une expérience à l'autre, il présente les instructions différemment, stimule différemment l'accomplissement des tâches, etc.) ;
5. fluctuations de l'état fonctionnel du sujet (dans une expérience il y a une bonne santé, dans une autre - fatigue, etc.) ;
6. éléments de subjectivité dans les modalités d’évaluation et d’interprétation des résultats (lors de l’enregistrement des réponses des sujets, les réponses sont évaluées en fonction de leur degré d’exhaustivité, d’originalité, etc.).

K.M. Gurevich interprète la fiabilité comme suit :

1. Fiabilité de l'instrument de mesure lui-même (coefficient de fiabilité) ;
2. Stabilité de la caractéristique étudiée (coefficient de stabilité) ;
3. Constance, c'est-à-dire relative indépendance des résultats par rapport à la personnalité de l'expérimentateur (coefficient de constance).

Il est proposé d'appeler l'indicateur caractérisant l'instrument de mesure le coefficient de fiabilité ; un indicateur caractérisant la stabilité de la propriété mesurée - coefficient de stabilité ; et l’indicateur permettant d’évaluer l’influence de la personnalité de l’expérimentateur est le coefficient de constance. C’est dans cet ordre qu’il est recommandé de vérifier la méthodologie : il convient de vérifier au préalable l’outil de mesure. Si les données obtenues sont satisfaisantes, nous pouvons alors procéder à l'établissement d'une mesure de stabilité de la propriété mesurée, puis, si nécessaire, considérer le critère de constance. (Fiabilité : test-retest, formes parallèles, parties du corps, cohérence interne, variance factorielle).

Une méthode est dite hautement fiable lorsqu’elle mesure avec précision la propriété qu’elle est censée mesurer. Les critères de précision suivants peuvent être notés :

Lorsque la méthode est répétée sur les mêmes sujets dans les mêmes conditions après un certain intervalle de temps, les résultats des deux tests ne diffèrent pas significativement les uns des autres.

Les actions de facteurs étrangers aléatoires n’ont pas d’impact significatif sur les résultats des tests. Peuvent être considérés comme facteurs étrangers : l'état émotionnel et la fatigue, s'ils ne sont pas inclus dans la gamme de caractéristiques étudiées, la température, l'éclairage de la pièce, etc. De tels facteurs aléatoires étrangers sont également appelés facteurs d'instabilité de la procédure de mesure.

Lorsque la méthode est répétée sur les mêmes sujets après un certain intervalle de temps et dans des conditions modifiées, les résultats des deux tests ne diffèrent pas significativement. Par modifié, nous entendons les conditions suivantes : un autre expérimentateur, la condition du répondant, etc.

Il existe différentes méthodes pour évaluer la fiabilité :

Méthode de retest - test répété d'un échantillon de sujets avec le même test après un certain intervalle de temps et dans les mêmes conditions. L’intervalle de temps dépend de l’âge (par exemple, chez les jeunes enfants, des changements peuvent survenir en un mois), ainsi que des événements survenus dans la vie du sujet.

TESTINTERVALRETEST

L'indice de fiabilité est considéré comme le coefficient de corrélation entre les résultats de deux tests. La forte corrélation qui en résulte peut être le résultat de la formation du sujet à des tâches de ce type ; une faible corrélation peut être le résultat de changements chez les candidats et peut également indiquer un manque de fiabilité du test.

Fiabilité des formes interchangeables - tests répétés d'un échantillon de sujets avec une forme parallèle du test après un intervalle de temps minimum dans les mêmes conditions.

TEST "AINTERVALTEST A"

L'indice de fiabilité est considéré comme le coefficient de corrélation entre les résultats des tests de deux formes parallèles du test. Un coefficient de corrélation élevé et un intervalle important entre deux tests indiquent la grande fiabilité du test.

Une éventuelle tromperie de la part du sujet, sa sophistication, les événements survenus dans l'intervalle entre les tests n'ont pas d'impact particulier (comme dans la méthode du retest) sur le degré de fiabilité du test. Si le facteur de formation est réduit lors de tests avec des formulaires parallèles, l'effet du transfert du principe des tâches se produit souvent. L'effet de transfert doit être pris en compte lors de la construction de formes parallèles.

Exigences pour la construction de formulaires parallèles :

1. Les formulaires parallèles doivent être des tests construits indépendamment, mais répondre aux mêmes exigences ;
2. doit contenir le même nombre de tâches avec un degré de difficulté similaire ;
3. L'équivalence des formes parallèles doit être vérifiée par la méthode du retest.

Définition de la constance, c'est-à-dire relative indépendance des résultats par rapport à la personnalité de l'expérimentateur. Puisque la technique est en cours de développement pour être utilisée ultérieurement par d'autres psychodiagnosticiens, il est nécessaire de déterminer dans quelle mesure ses résultats sont influencés par la personnalité de l'expérimentateur. Le coefficient de constance est déterminé en corrélant les résultats de deux expériences menées sur le même échantillon, mais par des expérimentateurs différents. Le coefficient de corrélation ne doit pas être inférieur à 0,80.

La transformation des procédures et techniques de psychodiagnostic en un outil fiable de science et de pratique dépend des efforts de nombreux spécialistes du débogage psychométrique, concevant des tests qui répondent aux exigences psychométriques de base : fiabilité, validité, standardisation. Les principes de base du test et de la détermination de la fiabilité, de la construction et de la validation des méthodes de psychodiagnostic sont abordés dans un certain nombre d'ouvrages spéciaux sur le psychodiagnostic (A. Anastasi, A. Bodalsi, V. Stolin, A. Shmelev, K. Gurevich, V. Melnikov , etc.). Dans ce tutoriel, nous décrirons les concepts et principes de base de la réalisation d'un examen psychodiagnostique, dont la connaissance est une condition indispensable pour les qualifications professionnelles d'un psychologue pratique.

Le psychodiagnostic en tant que discipline scientifique comprend trois domaines de connaissances psychologiques :

le domaine de la psychologie qui étudie ces phénomènes mentaux ;

psychométrie - la science de la mesure des différences individuelles et des variables diagnosticables ;

l'utilisation pratique des connaissances psychologiques dans le but d'exercer une influence psychologique adéquate et d'aider les gens à résoudre leurs problèmes.

La base méthodologique du psychodiagnostic est la psychométrie. C'est cette science qui développe la technologie permettant de créer des techniques psychodiagnostiques spécifiques et détermine la méthodologie permettant d'en garantir les exigences scientifiques :

fiabilité - cohérence interne de certaines parties du test et reproductibilité des résultats lors de tests répétés ;

validité – reflet dans les résultats des tests de la propriété exacte pour laquelle il est destiné à diagnostiquer ;

fiabilité - protection du test contre l'influence sur les résultats du désir du candidat de les modifier dans la direction souhaitée ;

représentativité - la présence de normes pour les résultats d'une enquête de masse auprès de la population pour laquelle le test est conçu, permettant d'évaluer le degré d'écart par rapport aux valeurs moyennes de tout indicateur individuel.

Ces exigences psychométriques s'appliquent à différents groupes de tests, dans une large mesure aux tests objectifs et aux questionnaires de personnalité, et dans une moindre mesure aux techniques projectives.

Une évaluation objective des techniques et tests psychologiques consiste à déterminer leur fiabilité. En psychométrie, le terme « fiabilité » fait toujours référence à la cohérence des scores obtenus auprès des mêmes sujets.

Quelle est l’utilité de ce test ? Remplit-il vraiment ses fonctions ? Ces questions peuvent donner lieu, et donnent parfois lieu à des discussions longues et infructueuses. Les préjugés, les conclusions subjectives et les préjugés personnels conduisent, comme le pense A. Anastasi, d'une part à une surestimation des capacités d'un test particulier et, d'autre part, à son rejet persistant. La seule façon de répondre à ces questions est de recourir à des tests empiriques. Évaluation objective les tests psychologiques consistent avant tout à déterminer leur fiabilité et leur validité dans des situations spécifiques.

Fiabilité des tests il existe une cohérence dans les scores obtenus auprès des mêmes sujets lorsqu'ils sont retestés avec le même test ou une forme équivalente.

Si le QI d’un enfant est de 110 le lundi et de 80 le vendredi, alors il est évident que cet indicateur peut difficilement être pris avec confiance. De même, si un individu identifie correctement 40 mots dans une série de 50 mots, et 20 dans une autre série considérée comme équivalente, alors aucun de ces indicateurs ne peut être considéré comme une mesure de sa compréhension verbale. Bien entendu, dans les deux exemples, il est possible qu’un seul des deux indicateurs soit erroné, mais seuls des tests ultérieurs pourront le confirmer ; Des données présentées, il s’ensuit seulement que les indicateurs pris ensemble ne peuvent pas être corrects.

Avant qu'un test psychologique soit mis à la disposition du public, un test approfondi et objectif de sa fiabilité doit être effectué. La fiabilité peut être testée en fonction des changements au fil du temps, du choix de tâches ou d'échantillons de test spécifiques, de la personnalité de l'expérimentateur ou du processeur de test et d'autres aspects des tests. Il est très important de préciser exactement le type de fiabilité et la manière dont elle est déterminée, car un même test peut varier sous différents aspects. Il est également conseillé de disposer d’informations sur le nombre et les caractéristiques des individus sur lesquels la fiabilité du test a été testée.

Ces informations permettront à l'utilisateur du test de décider de la fiabilité du test pour le groupe auquel il a l'intention de l'appliquer.

L'explication la plus complète de la fiabilité des méthodes de test est donnée par A. Anastasi. La fiabilité fait référence à la cohérence des résultats d'un test obtenu lorsqu'il est répété sur les mêmes sujets à différents moments, en utilisant différents ensembles de tâches équivalentes ou en modifiant d'autres conditions d'examen. Le calcul est basé sur la fiabilité erreurs de mesure, qui sert à indiquer les limites probables des fluctuations de la quantité mesurée qui surviennent sous l'influence de facteurs aléatoires étrangers. Dans son sens le plus large, la fiabilité fait référence à la mesure dans laquelle les différences individuelles dans les résultats des tests se révèlent « vraies » et à la mesure dans laquelle elles peuvent être attribuées à des erreurs aléatoires. Si nous traduisons cela dans le langage des termes spéciaux, alors mesurer la fiabilité d'un test nous permet d'estimer la valeur de la dispersion totale des indicateurs de test, qui est variance d'erreur. La question, cependant, est de savoir ce qu’il faut compter comme variance d’erreur. Les mêmes facteurs, qui sont étrangers à certains problèmes, sont déjà considérés comme des sources de « vraies » différences lors de la résolution d'autres problèmes. Par exemple, si nous nous intéressons aux sautes d’humeur, alors les changements quotidiens dans les résultats des tests d’état émotionnel pourraient être liés à l’objectif du test et donc à la véritable variance des scores. Mais si le test est conçu pour mesurer des caractéristiques de personnalité plus stables, alors les mêmes fluctuations quotidiennes peuvent être attribuées à la variance d'erreur.

L’important est que tout changement dans les conditions dans lesquelles le test est effectué, s’il n’est pas pertinent par rapport à son objectif, augmentera la variance d’erreur. Par conséquent, en adhérant à des conditions de test uniformes (contrôle de l'environnement général, contraintes de temps, instructions au sujet, contact avec lui et autres facteurs similaires), l'expérimentateur réduit la variance d'erreur et augmente la fiabilité du test. Mais même dans des conditions optimales, aucun test n’est un outil absolument fiable. Par conséquent, un ensemble standard de données de test doit inclure une mesure de fiabilité. Cette mesure caractérise le test lorsqu'il est administré dans des conditions standards et administré à des sujets similaires à ceux qui ont participé à l'échantillon normatif. Il est donc également nécessaire de fournir des informations sur cet échantillon.

K. M. Gurevich définit la fiabilité comme « un concept extrêmement complexe et multiforme, dont l'une des fonctions principales est d'évaluer la cohérence des indicateurs de performance des tests » [Gurevich, 1981].

En principe, nous pouvons dire que la fiabilité devrait justifier l’erreur de mesure : elle devrait montrer dans quelle mesure la variabilité des mesures est due à l’erreur. Plusieurs facteurs principaux déterminent le niveau de fiabilité. Ainsi, la fiabilité aura toujours tendance à augmenter si les conditions de la procédure de test restent constantes, car cela réduit l'erreur de variabilité du paramètre mesuré. Dans le même temps, la multiplicité des objectifs, la complexité du problème et la variabilité des situations tendent à accroître les erreurs de mesure, réduisant ainsi la fiabilité.

Il existe autant de variétés de fiabilité des tests qu'il existe de conditions affectant les résultats des tests, de telles conditions peuvent donc s'avérer étrangères à l'objectif recherché, et alors

la variance causée par eux doit être incluse dans la variance d’erreur. Cependant, seuls quelques types de fiabilité trouvent une application pratique. Étant donné que tous les types de fiabilité reflètent le degré de cohérence ou de cohérence de deux séries d'indicateurs obtenues indépendamment, leur mesure peut être Coefficient de corrélation. Une discussion plus spécialisée sur la corrélation avec une description détaillée des procédures informatiques est donnée dans les manuels de statistiques destinés aux enseignants et aux psychologues (V. Avanesov, A. Gusev, Ch. Izmailov, M. Mikhalevskaya, etc.).

En pratique, trois méthodes principales sont utilisées pour évaluer la fiabilité des tests :

1) nouveau test ;

2) tests parallèles ;

3) méthode de fractionnement.

Considérons chacun d'eux séparément.

Nouveau test C'est l'une des principales méthodes de mesure de la fiabilité. Répété

le test d'un échantillon de sujets est effectué avec le même test après un certain intervalle de temps et dans les mêmes conditions. Le nouveau test est généralement appelé retester, et la fiabilité mesurée de cette manière est fiabilité test-retest. Le schéma d'évaluation de la fiabilité test-retest ressemble à ceci :

Dans ce cas, le coefficient de corrélation entre les résultats de deux tests est pris comme indice de fiabilité.

La méthode de tests répétés présente à la fois des avantages et des inconvénients. Les avantages incluent le naturel et la simplicité de détermination du coefficient de fiabilité. Les inconvénients incluent l'incertitude dans le choix de l'intervalle entre deux mesures. L'émergence d'une incertitude temporaire est due au fait que le nouveau test diffère du test initial. Les sujets connaissent déjà le contenu du test, se souviennent de leurs premières réponses et sont guidés par celles-ci lors de la répétition du test. Par conséquent, lors de tests répétés, on observe souvent soit un « ajustement » des résultats initiaux, soit, en conséquence du négativisme, la démonstration de « nouveaux » résultats. Pour éviter cela, lorsque vous donnez la fiabilité test-retest dans le manuel de test, vous devez indiquer à quel intervalle de temps cela correspond. Étant donné que la fiabilité test-retest diminue avec l'augmentation de l'intervalle de temps, les plus fiables sont les coefficients de fiabilité élevés obtenus avec des intervalles clairement grands entre les tests. Des coefficients de fiabilité insuffisamment élevés peuvent être la conséquence d'une détermination sous-optimale des intervalles de temps.

Tests parallèles Dans ce cas, plusieurs mesures sont organisées à l’aide d’essais parallèles ou équivalents. Les tests parallèles sont des tests qui mesurent la même propriété mentale avec la même erreur. Dans ce cas, les mêmes personnes réalisent plusieurs versions du même test ou des tests équivalents. En règle générale, l'utilisation pratique de ce type de fiabilité est associée à des difficultés importantes, car il est extrêmement difficile de construire plusieurs versions d'un même test de telle sorte que le sujet ne puisse pas détecter leur homogénéité psychologique. Et l’influence déformante de la formation dans ce cas n’est pas complètement supprimée. De plus, la question se pose : les types alternatifs de fiabilité sont-ils des caractéristiques de la fiabilité des tests, et non des paramètres d'équivalence des tests ? Après tout, si deux formes de tests sont effectuées dans le même type de conditions constantes, alors, très probablement, ce sont les indicateurs d'équivalence des deux formes de tests qui sont étudiés, et non les indicateurs de fiabilité des tests eux-mêmes. Dans ce cas, l'erreur de mesure est déterminée par les fluctuations de l'exécution du test et non par les fluctuations de la structure du test.

Le schéma d'utilisation de tests parallèles pour mesurer la fiabilité est le suivant :

Le coefficient de corrélation calculé entre deux tests est appelé fiabilité équivalente.

Méthode de clivage Il s'agit d'un développement de la méthode de test parallèle et repose sur l'hypothèse du parallélisme non seulement des formes de test individuelles, mais également des tâches individuelles au sein d'un test. Il s'agit de l'un des tests les plus simples d'un test, lorsque le coefficient de corrélation entre ses moitiés est calculé. Comment diviser le test en deux moitiés afin de pouvoir aligner les deux moitiés sur l'une ou l'autre base spécifique ? Le plus souvent, les tâches de test sont divisées en paires et impaires, ce qui permet d'éliminer dans une certaine mesure d'éventuelles lacunes. Le principal avantage de ce type de fiabilité est l'indépendance des résultats des tests par rapport à des éléments d'activité tels que le développement, la formation, la pratique, la fatigue, etc. En divisant le test en deux parties, l'indice de fiabilité est calculé à l'aide de la formule de Spearman-Brown, qui l'a proposé indépendamment l'une de l'autre. Leurs articles ont été publiés dans le même numéro d'une revue psychologique avec des conclusions et des formules [Avanesov , 1982]. Dans leur formule

R(x, 0=2 RJ\ + R, y

où R est le coefficient de corrélation des deux moitiés du test. Le module moyen du coefficient de corrélation de tous les éléments de test ou le coefficient de détermination moyen est considéré comme un coefficient d'indice de fiabilité.

Jusqu'à présent, nous avons examiné trois méthodes empiriques pour évaluer la fiabilité des tests : retester avec le même test, retester avec une forme parallèle du test et diviser le test.

Laquelle de ces méthodes fournit une véritable estimation de la fiabilité du test ? Quelle méthode devriez-vous utiliser ? La réponse à cette question dépend des préférences personnelles et des objectifs de l'étude.

En utilisant la méthode des tests répétés, nous obtenons une évaluation du degré de stabilité des résultats dans le temps et en fonction des conditions de test. Par conséquent, le coefficient de fiabilité test-retest est également appelé coefficient de stabilité ou la stabilité test. Lors de l'utilisation de la méthode des formes parallèles et de la méthode de fractionnement, le degré de cohérence mutuelle des pièces testées est évalué. Par conséquent, les coefficients de fiabilité obtenus par ces deux méthodes sont interprétés comme influencés et homogénéité, homogénéité essais.

En plus des indicateurs de stabilité et d'homogénéité, R. B. Cattell juge nécessaire de considérer l'indicateur transférabilité. Il s'agit d'une évaluation de la capacité d'un test à maintenir l'exactitude des mesures sur différents échantillons, sous-cultures et populations. Ensemble, la stabilité, l'homogénéité et la portabilité forment une caractéristique complexe de la fiabilité, que R. B. Cattell appelle cohérence et le définit comme « la mesure dans laquelle un test continue de prédire ce qu'il prédisait autrefois malgré les changements (dans certaines limites) : a) la mesure dans laquelle le test est appliqué ; b) les conditions dans lesquelles il a été utilisé ; c) la composition de l’échantillon dans lequel il est appliqué.

Enfin, il existe un type de fiabilité qui est directement lié à la fiabilité de la personne qui administre le test. Une estimation de la fiabilité de la personne administrant le test est obtenue en simulant indépendamment le test par deux expérimentateurs différents.

La fiabilité des résultats des tests ne dépend pas seulement de la fiabilité du test lui-même et de la procédure à suivre pour le réaliser. Un facteur important influençant les résultats de l’interprétation des données est la spécificité d’un échantillon particulier. Les caractéristiques les plus significatives de l'échantillon, de ce point de vue, doivent être reconnues comme l'homogénéité socio-psychologique dans divers paramètres ; l’âge et le sexe sont également pris en compte.

A.G. Shmelev propose d'effectuer la séquence d'actions lors de la vérification de la fiabilité comme suit [Psychodiagnostic général, 1987] :

1. Découvrez s'il existe des données sur la fiabilité du test proposé, sur quelle population et dans quelle situation diagnostique il a été testé. S'il n'y a pas eu de contrôle ou si les caractéristiques de la nouvelle population et des situations sont clairement particulières, revérifier la fiabilité en tenant compte des options indiquées ci-dessous.

2. Si les opportunités le permettent, refaites le test sur l'ensemble de l'échantillon de standardisation et calculez tous les coefficients donnés à la fois pour l'ensemble du test et pour les éléments individuels. L'analyse des coefficients obtenus aidera à comprendre à quel point l'erreur de mesure est négligeable.

3. Si les possibilités sont limitées, répétez les tests uniquement sur une partie de l'échantillon (au moins 30 sujets), calculez manuellement la corrélation de rang pour évaluer l'évaluation interne.

cohérence (par méthode de fractionnement) et stabilité de l'ensemble du test.

Bien entendu, les concepts considérés du psychodiagnostic constituent ses attributs les plus importants. Cependant, les indicateurs de fiabilité élevée ne déterminent pas en eux-mêmes la valeur pratique du test. Le principal facteur qui vous permet de mesurer les résultats cibles des tests psychologiques est la validité.

Toute étude empirique en psychologie utilise des tests psychologiques. Les étudiants doivent souvent fournir des données sur leur fiabilité et leur validité.

Fiabilité des tests psychologiques

Dans la vie ordinaire, la fiabilité d’une personne ou d’un objet signifie la confiance que l’on peut compter sur lui. Comment vérifient-ils qu’un test psychologique est fiable ?

La première façon de vérifier la fiabilité d’un test psychologique est d’analyser la stabilité des résultats du test. En effet, si les résultats de l'utilisation d'un test sur un même échantillon n'évoluent pas de manière significative sur plusieurs tests, alors cela peut servir de critère de fiabilité.

Des tests répétés sont appelés un nouveau test. Elle est réalisée à intervalles d'une semaine à un an. Les corrélations de plusieurs mesures sont ensuite analysées. Si la corrélation entre les résultats des retests n'est pas inférieure à 0,76, un tel test est alors considéré comme fiable.

Inconvénients de la fiabilité test-retest des tests psychologiques.

1. Certains indicateurs psychologiques sont instables et changeants. Par exemple, en mesurant l'humeur et le bien-être à différents moments de la journée ou à différents jours, vous pouvez obtenir des résultats différents, et cela ne sera pas une conséquence du manque de fiabilité du test.

2. Lorsqu’ils effectuent le même test à plusieurs reprises, les sujets « s’y habituent ». Ils peuvent se souvenir de leurs réponses et réagir de la même manière. Ils peuvent au contraire modifier leurs réponses dans le sens de la désirabilité sociale. Ainsi, la fiabilité test-retest ne reflétera pas pleinement la fiabilité du test.

La deuxième façon de vérifier la fiabilité d’un test psychologique consiste à analyser la cohérence des différentes parties du test. Par exemple, il y a un indicateur dans le test qui est diagnostiqué par 10 questions. La cohérence de ce test est déterminée par la forte corrélation des réponses à chaque question avec le score global de l'échelle.

Souvent, pour déterminer la cohérence d’un test psychologique, celui-ci est divisé en deux parties. Vous pouvez le faire en sélectionnant les questions une par une. Vous pouvez séparer la première et la seconde moitié de la pâte. Ensuite, les corrélations des réponses des deux parties divisées du test sont analysées. Plus la corrélation est élevée, plus la cohérence et la fiabilité du test sont élevées.

Ainsi, la fiabilité d'un test psychologique est une caractéristique de son aptitude formelle au diagnostic d'indicateurs psychologiques. Par exemple, si un test pour diagnostiquer l’anxiété est fiable, cela signifie que lorsque vous l’utilisez sur différents échantillons à différents moments, vous obtiendrez des résultats similaires. Mais ces résultats caractériseront-ils l’anxiété des sujets ? La fiabilité d'un test psychologique ne le garantit pas. Un autre indicateur en est responsable : la validité du test psychologique.

Validité des tests psychologiques

La validité des tests psychologiques reflète la correspondance de leurs résultats avec l'essence des phénomènes psychologiques mesurés. Par exemple, dans quelle mesure le résultat d’un test d’agressivité reflète-t-il le niveau réel d’agressivité du répondant.

Il existe deux manières principales de déterminer la validité des tests psychologiques.

La première façon de déterminer la validité d'un test psychologique consiste à corréler les résultats du test avec des indicateurs similaires d'autres tests. Par exemple, pour vérifier la validité d'un test d'estime de soi, vous pouvez procéder comme suit :

effectuer des tests sur des sujets à l'aide d'un nouveau test ;
identifier l'estime de soi des sujets lors d'un autre test (en supposant qu'il soit valide) ;
calculer la corrélation des indicateurs d'estime de soi à l'aide de deux méthodes psychodiagnostiques ;
une corrélation statistiquement significative permettra de parler de la validité du nouveau test.

Cette méthode nous permet d’identifier ce que l’on appelle la validité de construit. Il reflète la correspondance de l'indicateur psychologique identifié avec la construction psychologique.

La deuxième façon de déterminer la validité d’un test psychologique consiste à corréler les résultats du test avec des critères externes. Cette validité est appelée validité critère d’un test psychologique.

Par exemple, un indicateur de la validité du critère d'un test de propension à un comportement déviant peut être le nombre réel d'infractions d'un adolescent. En ce qui concerne le test de motivation à la réussite, l'indicateur de validité du critère peut être la réussite de l'exécution d'une activité particulière.

La relation entre la fiabilité et la validité des tests psychologiques

La fiabilité d'un test reflète sa qualité en tant que méthode de diagnostic, en termes d'indicateurs formels. Sans tenir compte de l’analyse significative des résultats.

La validité évalue le contenu des résultats du test. Dans quelle mesure correspondent-ils à des phénomènes psychologiques réels ?

Un test fiable peut ne pas être valide. Par exemple, un test d'initiative peut montrer une fiabilité test-retest élevée et une cohérence des pièces. Cependant, du point de vue du contenu, les résultats des tests ne reflètent pas tant l'initiative que la volonté. Autrement dit, la fiabilité de ce test est élevée, mais sa validité est faible.

Dans la pratique des tests psychologiques, la fiabilité des tests utilisant le retest. La validité des tests psychologiques est généralement testée en analysant les relations avec les scores d'autres tests mesurant des indicateurs psychologiques similaires ou similaires.

Exemples de conclusions sur la fiabilité et la validité des tests psychologiques

Test d'orientation du sens de la vie (LSO)

Fiabilité du système de survie

La fiabilité du test SLS a été vérifiée en effectuant de nouveaux tests à un intervalle de 2 semaines (sujets : 76 étudiants MSU). Les résultats des tests étaient stables au niveau de signification de 5 % (p<0,05).

Validité du LSS

L'auteur du test LSS, D.A. Leotiev, la validité conceptuelle de la LSS a été vérifiée. À cette fin, un échantillon a été constitué comprenant des étudiants des universités de Moscou, soit un total de 24 personnes (hommes et femmes).

Les sujets ont été testés à l'aide des tests suivants : SZO, USK (niveau de contrôle subjectif) et SAT (test du niveau de réalisation de soi). Ensuite, une analyse de corrélation des indicateurs LSS avec les indicateurs des tests USC et SAT a été réalisée.

Les six indicateurs du test SLS sont en corrélation significativement positive avec l'intériorité générale et avec l'intériorité dans le domaine des réalisations, ainsi que (à l'exception de la troisième sous-échelle) avec l'intériorité dans le domaine des relations familiales. Des corrélations significatives de la cinquième sous-échelle du système de sauvetage avec l'intériorité dans la sphère de production et en relation avec la santé et la maladie ont également été notées.

Les indicateurs du test SJO sont en corrélation positive et significative avec les échelles de test SAT suivantes : l'échelle des besoins de soutien et cognitifs - les six indicateurs ; échelles de compétence en matière de temps, d'estime de soi et d'idées sur la nature humaine - toutes sauf la première sous-échelle ; l'échelle des orientations de valeurs - tout sauf l'indicateur général, et l'échelle de spontanéité - les troisième, quatrième et cinquième sous-échelles. Aucune corrélation significative n’a été trouvée avec les autres échelles CAT.

Un niveau de corrélation assez élevé entre les indicateurs du test d'orientations de sens de la vie (LSO) et les indicateurs d'intériorité (test USK) et les indicateurs de réalisation de soi (test SAT) permet de parler de la validité conceptuelle du test SLO .

Léontiev D.A. Test d'orientations de sens de la vie (LSO). 2e éd. M. : Smysl, 2000, 18 p.

La méthode de S. Schwartz pour étudier les valeurs personnelles a été adaptée en Russie par V.N. Karandashev.

Le fait que cette technique psychodiagnostique repose sur un concept clair et théorique de son auteur, contenant des caractéristiques opérationnalisées de valeurs ;

Le fait est que lors de l’élaboration de la version originale du questionnaire, des données de recherche provenant de 54 pays ont été utilisées.

Karandashev V.N. La méthode de Schwartz pour étudier les valeurs personnelles : concept et orientations méthodologiques. - Saint-Pétersbourg : Discours, 2004-70 p.

Méthodologie « Le niveau de corrélation entre la valeur et la disponibilité dans diverses sphères de la vie » (USDC) (E.B. Fantalova)

Dans la méthodologie d'E.B. Fantalova « Le niveau de corrélation entre Valeur et Disponibilité dans diverses sphères de la vie » utilise une liste de 12 valeurs tirées de la liste des valeurs terminales de la méthodologie de M. Rokeach.

D’où la fiabilité et la validité de la méthodologie d’E.B. Fantalova est déterminée par la fiabilité et la validité de la liste de valeurs de M. Rokeach.

La fiabilité du test d'orientation des valeurs de M. Rokeach a été vérifiée par l'auteur à travers la stabilité de la structure des valeurs en effectuant de nouveaux tests à des intervalles de temps allant de 3 semaines à 14-16 mois sur des échantillons d'étudiants universitaires. Pour les valeurs individuelles, lorsqu'elles sont retestées à intervalles de 3 à 7 semaines, l'indice de stabilité varie de 0,51 à 0,88 (valeurs terminales) et de 0,45 à 0,70 (valeurs instrumentales). Pour la version russe de la technique, lors de nouveaux tests avec un intervalle de 2 semaines, des indicateurs de fiabilité moyens de 0,82 (pour les valeurs terminales) et 0,79 (pour les valeurs instrumentales) ont été obtenus.

La validité de la méthode d'orientation des valeurs de M. Rokeach (et, par conséquent, de la méthode d'E.B. Fantalova) est indirectement attestée par les résultats obtenus à partir d'une enquête auprès de divers groupes sociaux. Les différences d'évaluation des mêmes valeurs par les hommes et les femmes atteignent des limites statistiquement significatives pour 12 des 18 valeurs terminales et pour 8 valeurs instrumentales.

Léontiev, D.A. Méthodologie d'étude des orientations de valeurs. - M. : Smysl, 1992. - 17 p.

Fantalova E.B. Sur une approche méthodologique de l'étude de la motivation et des conflits internes // Psychological Journal, vol. 13, 1992, N 1. pp. 107-117.

Méthodologie « Libre choix des valeurs » de Fantalova E.B.

La technique du « Libre choix des valeurs » fait partie intégrante du système axé sur les valeurs de l'auteur « Diagnostic des conflits internes » (DVK).

Dans cette technique, E.B. Fantalova a élargi la liste des valeurs de 12 à 72. Cependant, l'auteur n'a pas vérifié la fiabilité de cette structure de valeurs et sa validité.

Fantalova E.B. Diagnostic et psychothérapie des conflits internes. Samara, 2001.

J'espère que cet article vous aidera à rédiger vous-même un article de psychologie. Si vous avez besoin d'aide, contactez-nous (tous types de travaux en psychologie ; calculs statistiques).