Strop      30.06.2023

Spolehlivost jako jedna z hlavních charakteristik testu. Druhy spolehlivosti. Spolehlivost a validita testu – co to je? To znamená spolehlivost testu

Spolehlivost testu je jedním z kritérií kvality testu souvisejícího s přesností psychologických měření. Čím větší je spolehlivost testu, tím je relativně prostší od chyb měření. Spolehlivost testu je uvažována jedním přístupem: jako stabilita (stabilita) výsledků při opakovaném testování; na druhé straně jako projev míry ekvivalence dvou (paralelních) testů, které jsou identické formou i účelem.

Test spolehlivosti

Spolehlivost testu je základní charakteristikou testu, která ukazuje, do jaké míry jsou výsledky testu stabilní při opakovaných vyšetřeních. Spolehlivost testu lze určit opakovaným testováním (po přesně stanovené době) a výpočtem korelačního koeficientu mezi výsledky prvního a opakovaného testování. Spolehlivost testu lze také určit testováním několika verzí stejného testu, rozdělením testu na dvě poloviny atd. Spolehlivost výsledků testu závisí nejen na kvalitě samotného testu, ale také na postupu testování (ten musí být v prvním a druhém případě naprosto shodný), sociálně-psychologické homogenitě vzorku (bude se lišit např. děti, muži, ženy, vojáci prvního ročníku - služební, starodávní vojáci atd.). A může se ukázat, že když je test spolehlivý pro jednu skupinu lidí, ukáže se jako nespolehlivý pro jinou a výsledky testu v druhém případě budou nesprávné. NT, vyjadřující míru nepřesnosti, možnosti chyby, která nevyhnutelně vzniká při jakémkoli testování, nás nutí hledat cesty, jak tuto chybu snížit, pro konkrétnější, účelnější aplikaci testu. Spolehlivost nejlepších testů je 0,8 - 0,9.

Spolehlivost experimentu

stabilita výsledků experimentu, když se provádí pro druhý, třetí, čtvrtý atd. jednou.

Objektivity psychologického testu lze dosáhnout při splnění následujících podmínek:

1) jednotnost zkušebního postupu pro získání výsledků srovnatelných s normou (viz níže);

2) jednotnost hodnocení provedení testu;

3) stanovení standardu pro výkonnost testů, aby se s nimi porovnaly ukazatele získané jako výsledek zpracování testovacích dat (viz zde „třetí fáze standardizace“).

Tyto tři podmínky se nazývají etapy standardizace psychologický test.

Etapy standardizace

Ve fázi vývoje testu, stejně jako jakékoli jiné metody, se provádí postup standardizace, který zahrnuje tři fáze.

Prvním krokem při standardizaci psychologického testu je vytvoření jednotného testovacího postupu. Zahrnuje stanovení následujících aspektů diagnostické situace:

1) testovací podmínky (místnost, osvětlení a další vnější faktory). Je zřejmé, že je lepší měřit objem krátkodobé paměti (například pomocí subtestu opakování číslic ve Wechslerově testu), když nejsou žádné vnější podněty, jako jsou cizí zvuky, hlasy atd.

3) Dostupnost standardního stimulačního materiálu. Například spolehlivost získaných výsledků výrazně závisí na tom, zda jsou respondentovi nabídnuty domácí karty G. Rorschacha nebo standardní - s určitým barevným schématem a barevnými odstíny.

4) Časová omezení pro provedení tohoto testu. Například dospělý respondent dostane 20 minut na vyplnění testu Raven.

5) Standardní formulář pro provedení tohoto testu. Použití standardního formuláře zjednodušuje proces zpracování.

6) Zohlednění vlivu situačních proměnných na proces a výsledek testování. Proměnnými se rozumí stav testovaného (únava, přepětí atd.), nestandardní podmínky testování (špatné osvětlení, nedostatečné větrání atd.), přerušení testování.

7) Zohlednění vlivu chování diagnostika na proces a výsledek testování. Například schvalující a povzbuzující chování experimentátora během testování může být respondentem vnímáno jako náznak „správné odpovědi“ atd.

8) Zohlednění vlivu zkušeností respondenta s testováním. Respondent, který procházel testovací procedurou ne poprvé, přirozeně překonal pocit nejistoty a vytvořil si určitý postoj k testovací situaci. Pokud například respondent již absolvoval test Havrana, pak se mu s největší pravděpodobností nevyplatí nabízet jej podruhé.

Druhý stupeň standardizace psychologického testu spočívá ve vytvoření jednotného hodnocení výkonu testu: standardní interpretace získaných výsledků a předběžného standardního zpracování. V této fázi se také porovnává získané ukazatele s normou pro provedení tohoto testu pro daný věk (například v testech inteligence), pohlaví atp. (viz. níže).

Třetí etapou standardizace psychologického testu je stanovení norem pro provádění testu.

Normy jsou vyvíjeny pro různé věkové kategorie, profese, pohlaví atd. Zde jsou některé ze stávajících typů norem:

Školní normy - se vypracovávají na základě testů školních prospěchů nebo testů školní způsobilosti. Jsou stanoveny pro každý stupeň školy a jsou platné v celé zemi.

Profesionální standardy jsou stanoveny na základě testů pro různé profesní skupiny (např. mechanici různých profilů, písaři atd.).

Místní normy jsou stanoveny a aplikovány na úzké kategorie lidí, které se vyznačují přítomností společné charakteristiky – věk, pohlaví, geografická oblast, socioekonomický status atd. Například pro Wechslerův inteligenční test jsou normy omezeny věkem.

Národní normy jsou vypracovány pro zástupce dané národnosti, národa, země jako celku. Potřeba takových norem je dána specifickou kulturou, morálními požadavky a tradicemi každého národa.

Přítomnost normativních dat (norem) ve standardizovaných psychodiagnostických metodách je jejich zásadní charakteristikou.

Pro začátek definujme rozsah vývoje tohoto problému a stručně vyjmenujme vědce.

Vědci, kteří se zabývali problémem spolehlivosti a validity metod v psychodiagnostice: A. Anastasi et al.

Definice

Spolehlivostí techniky je stabilita výsledků při více vyšetřeních.

Platnost techniky je spolehlivost měření určité duševní vlastnosti, která je předmětem měření.

Test spolehlivosti

Podívejme se na několik typů spolehlivosti psychodiagnostických testů.

  1. Spolehlivost vnitřní konzistence. Upravená část testu měří proměnnou, kterou nezměněné části testu neměří.
  2. Spolehlivost test-retest. Opakované testování předmětů s následnou korelací výsledků vstupní a závěrečné zkoušky.
  3. Spolehlivost paralelních zkušebních formulářů. Vytvoření ekvivalentního dotazníku a jeho prezentace stejným subjektům pro následnou korelaci výsledků.
  4. Spolehlivost testovaných částí může být určena rozdělení dotazníku na části; pak korelujte získané výsledky.

Obrázek 1. „Ukazatele spolehlivosti testu“

Při určování spolehlivosti testu by měla být technika prováděna ve významných časových intervalech. Doporučuje se také provést test na vzorcích alespoň 200 subjektů.

Platnost testu

Podívejme se na některé typy validity testů v psychodiagnostice.

  1. Jasná platnost. Představy subjektu o testu.
  2. Souběžná platnost. Korelace s podobnými testy.
  3. Prediktivní platnost. Korelace počátečního a pozdějšího skóre testu.
  4. Přírůstková platnost.
  5. Rozdílová platnost.
  6. Platnost obsahu. Reflexe testových položek na aspekty konkrétní studijní oblasti.
  7. Empirická platnost. Korelace výsledků této techniky s výsledky podobných technik u stejných subjektů.
  8. Platnost kritéria. Vztah mezi získanými výsledky a externími kritérii.
  9. Platnost konstrukce.

Jedním z důležitých rozdílů mezi psychometrickými testy je to, že jsou standardizované, a to vám umožní porovnat ukazatele získané jedním subjektem s ukazateli v běžné populaci nebo odpovídajících skupinách. Standardizace testů je nejdůležitější v případech, kdy se porovnávají výkony subjektů.

Tím se zavádí koncept normy nebo standardní ukazatele. Pro získání standardních norem je třeba pečlivě vybrat větší počet předmětů podle jasně definovaných kritérií. Při vytváření standardizačního vzorku je třeba vzít v úvahu jeho velikost a reprezentativnost.

V některých případech je nutné vytvořit několik standardizačních skupin nebo stratifikovat standardizační skupinu ohledně parametrů, jako je např věk, pohlaví, sociální postavení. Stanovení standardů není vždy nutné. Při použití psychologických testů ve vědeckém výzkumu nejsou normy tak důležité a postačují hrubé výsledky testů. Normy pro každou skupinu by měly být uvedeny ve středních hodnotách a standardní odchylce.

Obrázek 2. „Rámec platnosti“

Spolehlivost testu je jedním z kritérií kvality testu souvisejícího s přesností psychologických měření. Čím větší je spolehlivost testu, tím je relativně prostší od chyb měření. Spolehlivost testu je uvažována jedním přístupem: jako stabilita výsledků během opakovaného testování; na druhé straně jako projev míry ekvivalence dvou (paralelních) testů, které jsou identické formou i účelem.

Spolehlivost charakterizuje zkoušky vlastností, nikoli však stavy. Vlastnosti:

  • 1. Reprodukovatelnost výsledků výzkumu.
  • 2. Přesnost měření.
  • 3. Udržitelnost výsledků.

Míra spolehlivosti metod závisí na mnoha důvodech. Mezi negativními faktory jsou nejčastěji uváděny tyto:

  • 1. nestabilita diagnostikované vlastnosti;
  • 2. nedokonalost diagnostických metod (návody jsou nedbale sestaveny, úkoly jsou heterogenního charakteru, návody k prezentaci metody subjektům nejsou jasně formulovány apod.);
  • 3. měnící se vyšetřovací situace (různá denní doba, kdy se experimenty provádějí, různé světelné podmínky v místnosti, přítomnost nebo nepřítomnost cizího hluku atd.);
  • 4. rozdíly v chování experimentátora (od experimentu k experimentu předkládá pokyny jinak, jinak stimuluje plnění úkolů atd.);
  • 5. kolísání funkčního stavu subjektu (v jednom experimentu je dobrý zdravotní stav, v jiném - únava atd.);
  • 6. prvky subjektivity ve způsobech hodnocení a interpretace výsledků (při zapisování odpovědí testovaných osob jsou odpovědi hodnoceny podle míry úplnosti, originality atd.).

K.M. Gurevich interpretuje spolehlivost jako:

  • 1. Spolehlivost samotného měřicího přístroje (koeficient spolehlivosti);
  • 2. Stabilita studované charakteristiky (koeficient stability);
  • 3. Stálost, tzn. relativní nezávislost výsledků na osobnosti experimentátora (koeficient stálosti).

Ukazatel charakterizující měřicí přístroj se navrhuje nazývat koeficient spolehlivosti; ukazatel charakterizující stabilitu měřené vlastnosti - koeficient stability; a ukazatelem pro posouzení vlivu osobnosti experimentátora je koeficient stálosti. V tomto pořadí se doporučuje zkontrolovat metodiku: nejprve je vhodné zkontrolovat měřicí nástroj. Pokud jsou získaná data vyhovující, můžeme přistoupit ke stanovení míry stability měřené vlastnosti a poté případně zvážit kritérium stálosti. (Reliabilita: test-retest, paralelní formy, části těla, vnitřní konzistence, faktoriální rozptyl).

O metodě se říká, že je vysoce spolehlivá, když metoda přesně měří vlastnost, kterou má měřit. Lze zaznamenat následující kritéria přesnosti:

Při opakování metody na stejných subjektech za stejných podmínek po určitém časovém intervalu se výsledky obou testů od sebe významně neliší.

Působení náhodných vnějších faktorů nemá významný dopad na výsledky testu. Za cizí faktory lze považovat: emoční stav a únavu, pokud nejsou zahrnuty v rozsahu studovaných charakteristik, teplota, osvětlení místnosti atd. Takové cizí náhodné faktory se také nazývají faktory nestability postupu měření.

Při opakování metody na stejných subjektech po určitém časovém intervalu za změněných podmínek se výsledky obou testů od sebe významně neliší. Změněnými rozumíme tyto podmínky: jiný experimentátor, stav respondenta atd.

Existují různé metody hodnocení spolehlivosti:

Retest metoda - opakované testování vzorku subjektů stejným testem po určitém časovém intervalu za stejných podmínek. Časový interval závisí na věku (například u malých dětí může dojít ke změnám během jednoho měsíce) a také na událostech, které se odehrávají v životě subjektu.

TESTINTERVALRETEST

Index spolehlivosti je považován za korelační koeficient mezi výsledky dvou testů. Výsledná vysoká korelace může být výsledkem školení subjektu na úkoly tohoto typu; nízká korelace může být výsledkem změn v testovaném a může také naznačovat nespolehlivost testu.

Spolehlivost zaměnitelných forem - opakované testování vzorku subjektů s paralelní formou testu po minimálním časovém odstupu za stejných podmínek.

TEST "INTERVALTEST A"

Index spolehlivosti se považuje za korelační koeficient mezi výsledky testu dvou paralelních forem testu. Vysoký korelační koeficient a velký interval mezi dvěma testy svědčí o vysoké spolehlivosti testu.

Případné klamání ze strany subjektu, jeho sofistikovanost, události, ke kterým došlo v intervalu mezi testy, nemají zvláštní dopad (jako u metody retestu) na míru spolehlivosti testu. Pokud se při testování s paralelními formami sníží tréninkový faktor, pak často nastává efekt přenesení principu úloh. Při konstrukci paralelních forem je třeba vzít v úvahu přenosový efekt.

Požadavky na konstrukci paralelních formulářů:

  • 1. Paralelní formy musí být nezávisle konstruované testy, ale musí splňovat stejné požadavky;
  • 2. musí obsahovat stejný počet úkolů s podobným stupněm obtížnosti;
  • 3. Ekvivalence paralelních formulářů musí být zkontrolována metodou opakovaného testu.

Definice stálosti, tzn. relativní nezávislost výsledků na osobnosti experimentátora. Vzhledem k tomu, že technika je vyvíjena pro další použití dalšími psychodiagnostiky, je nutné zjistit, do jaké míry jsou její výsledky ovlivněny osobností experimentátora. Koeficient stálosti je určen korelací výsledků dvou experimentů provedených na stejném vzorku, ale různými experimentátory. Korelační koeficient by neměl být nižší než 0,80.

Transformace psychodiagnostických postupů a technik ve spolehlivý nástroj vědy a praxe závisí na úsilí mnoha specialistů na psychometrické ladění, navrhování testů, které splňují základní psychometrické požadavky: spolehlivost, validitu, standardizaci. Základní principy testování a určování spolehlivosti, konstrukce a validace psychodiagnostických technik jsou obsaženy v řadě speciálních prací o psychodiagnostice (A. Anastasi, A. Bodalsi, V. Stolin, A. Shmelev, K. Gurevich, V. Melnikov , atd.). V tomto návodu si popíšeme základní pojmy a principy provádění psychodiagnostického vyšetření, jehož znalost je nezbytnou podmínkou pro odbornou způsobilost praktického psychologa.

Psychodiagnostika jako vědní disciplína zahrnuje tři oblasti psychologického poznání:

předmětová oblast psychologie, která studuje tyto duševní jevy;

psychometrie – věda o měření individuálních rozdílů a diagnostikovatelných proměnných;

praktické využití psychologických poznatků za účelem adekvátního psychického ovlivnění a pomoci lidem řešit jejich problémy.

Metodologickým základem psychodiagnostiky je psychometrie. Je to tato věda, která vyvíjí technologii pro vytváření specifických psychodiagnostických technik a určuje metodologii pro zajištění vědeckých požadavků na ně:

spolehlivost - vnitřní konzistence částí testu a reprodukovatelnost výsledků při opakovaném testování;

validita – odraz ve výsledcích testu přesně té vlastnosti, pro kterou má být diagnostikována;

spolehlivost - ochrana testu před vlivem na výsledky přání účastníka testu je změnit požadovaným směrem;

reprezentativnost - přítomnost norem pro výsledky hromadného průzkumu v populaci, pro kterou je test navržen, umožňující posoudit míru odchylky od průměrných hodnot jakéhokoli jednotlivého ukazatele.

Tyto psychometrické požadavky se vztahují na různé skupiny testů, v největší míře na objektivní testy a osobnostní dotazníky a v nejmenším na projektivní techniky.

Objektivní posouzení psychologických technik a testů znamená stanovení jejich spolehlivosti. V psychometrii termín „spolehlivost“ vždy odkazuje na konzistenci skóre získaných od stejných subjektů.

Jak užitečný je tento test? Opravdu plní své funkce? Tyto otázky mohou a někdy způsobují zdlouhavé, neplodné diskuse. Předsudky, subjektivní závěry a osobní předsudky vedou, jak se domnívá A. Anastasi, na jedné straně k přeceňování schopností konkrétního testu a na druhé k jeho vytrvalému odmítání. Jediným způsobem, jak odpovědět na takové otázky, je empirické testování. Objektivní hodnocení psychologické testy především znamenají zjištění jejich spolehlivosti a platnosti v konkrétních situacích.



Test spolehlivosti existuje shoda ve skóre získaných od stejných subjektů při opakovaném testování stejným testem nebo ekvivalentní formou.

Pokud je IQ dítěte v pondělí 110 a v pátek 80, pak je zřejmé, že tento ukazatel lze jen stěží brát s jistotou. Podobně, pokud jedinec správně určil 40 slov v řadě 50 slov a 20 v jiné uvažované ekvivalentní řadě, pak ani jeden z těchto ukazatelů nelze považovat za měřítko jeho verbálního porozumění. V obou příkladech je samozřejmě možné, že pouze jeden ze dvou indikátorů je chybný, ale to může potvrdit až následné testování; Z prezentovaných údajů pouze vyplývá, že ukazatele dohromady nemohou být správné.

Než bude psychologický test zpřístupněn veřejnosti, musí být proveden důkladný objektivní test jeho spolehlivosti. Spolehlivost lze testovat s ohledem na změny v čase, výběr konkrétních úloh nebo testovacích vzorků, osobnost experimentátora nebo zpracovatele testu a další aspekty testování. Je velmi důležité přesně specifikovat typ spolehlivosti a způsob jeho stanovení, protože stejný test se může v různých aspektech lišit. Je také vhodné mít informace o počtu a vlastnostech jedinců, na kterých byla spolehlivost testu testována.

Tyto informace umožní uživateli testu rozhodnout, jak spolehlivý je test pro skupinu, na kterou ho zamýšlí použít.

Nejúplnější vysvětlení spolehlivosti zkušebních metod podává A. Anastasi. Spolehlivost se týká konzistence výsledků testu získaných, když je opakován na stejných předmětech v různých časových bodech, s použitím různých sad ekvivalentních úloh nebo při změně jiných podmínek zkoušky. Výpočet je založen na spolehlivosti chyby měření, která slouží k označení pravděpodobných mezí kolísání měřené veličiny, které vznikají vlivem vnějších náhodných faktorů. V nejširším slova smyslu se spolehlivost týká toho, do jaké míry se jednotlivé rozdíly ve skóre testů ukáží jako „pravdivé“ a do jaké míry je lze připsat náhodným chybám. Pokud to převedeme do jazyka speciálních termínů, pak měření spolehlivosti testu nám umožňuje odhadnout hodnotu celkového rozptylu indikátorů testu, což je chybový rozptyl. Otázkou však je, co počítat jako rozptyl chyb. Stejné faktory, které jsou ve vztahu k některým problémům cizí, jsou již považovány za zdroje „skutečných“ rozdílů při řešení jiných problémů. Pokud nás například zajímají změny nálady, pak by každodenní změny ve skóre testu emočního stavu mohly souviset s účelem testu, a tedy se skutečným rozptylem skóre. Ale pokud je test navržen tak, aby změřil stabilnější osobnostní charakteristiky, pak stejné denní výkyvy lze připsat rozptylu chyb.

Důležité je, že jakékoli změny podmínek, za kterých se test provádí, pokud nejsou relevantní pro jeho účel, zvýší rozptyl chyb. Dodržováním jednotných testovacích podmínek (kontrola obecného prostředí, časová omezení, instrukce subjektu, kontakt s ním a další podobné faktory) tedy experimentátor snižuje rozptyl chyb a zvyšuje spolehlivost testu. Ale ani za optimálních podmínek není žádný test absolutně spolehlivým nástrojem. Proto by standardní soubor testovacích dat měl zahrnovat míru spolehlivosti. Toto měřítko charakterizuje test, když je podáván za standardních podmínek a podáván subjektům podobným těm, kteří se účastnili normativního vzorku. Proto je také nutné uvést informace o tomto vzorku.

K. M. Gurevich definuje spolehlivost jako „extrémně komplexní a mnohostranný koncept, jehož jednou z hlavních funkcí je posouzení konzistence ukazatelů výkonnosti testu“ [Gurevich, 1981].

V zásadě můžeme říci, že spolehlivost by měla ospravedlnit chybu měření – měla by ukazovat, jak velká část variability měření je způsobena chybou. Existuje několik hlavních faktorů, které určují úroveň spolehlivosti. Spolehlivost tedy bude mít vždy tendenci se zvyšovat, pokud jsou podmínky zkušebního postupu udržovány konstantní, protože to snižuje chybu variability měřeného parametru. Mnohočetnost cílů, složitost problému a proměnlivost situací má zároveň tendenci zvyšovat chybu měření, a tím snižovat spolehlivost.

Existuje tolik druhů spolehlivosti testu, kolik je podmínek ovlivňujících výsledky testu, takže se jakékoli takové podmínky mohou ukázat jako nepatřičné vzhledem k účelu, a pak

jimi způsobený rozptyl by měl být zahrnut do rozptylu chyby. Praktické uplatnění však nachází jen několik typů spolehlivosti. Vzhledem k tomu, že všechny typy spolehlivosti odrážejí míru konzistence nebo konzistence dvou nezávisle získaných řad ukazatelů, může být jejich mírou korelační koeficient. Specializovanější pojednání o korelaci s podrobným popisem výpočetních postupů je uvedeno v učebnicích statistiky pro učitele a psychology (V. Avanesov, A. Gusev, Ch. Izmailov, M. Mikhalevskaya atd.).

V praxi se pro hodnocení spolehlivosti testů používají tři hlavní metody:

1) opětovné testování;

2) paralelní testování;

3) metoda dělení.

Zvažme každou z nich zvlášť.

Opakované testování Je to jedna z hlavních metod měření spolehlivosti. Opakované

testování vzorku subjektů se provádí stejným testem po určitém časovém intervalu za stejných podmínek. Opakované testování se obvykle nazývá znovu otestovat, a spolehlivost měřená tímto způsobem je spolehlivost test-retest. Schéma hodnocení spolehlivosti test-retest vypadá takto:

V tomto případě se jako index spolehlivosti bere korelační koeficient mezi výsledky dvou testů.

Metoda opakovaného testování má výhody i nevýhody. Mezi výhody patří přirozenost a jednoduchost stanovení koeficientu spolehlivosti. Mezi nevýhody patří nejistota při volbě intervalu mezi dvěma měřeními. Vznik dočasné nejistoty je způsoben tím, že opakované testování se liší od původního. Subjekty jsou již obeznámeny s obsahem testu, pamatují si své prvotní odpovědi a jsou jimi vedeny při opakování testu. Při opakovaném testování proto často pozorujeme buď „přizpůsobení“ počátečním výsledkům, nebo v důsledku negativismu předvedení „nových“ výsledků. Abyste tomu zabránili, při uvádění spolehlivosti testu a opakovaného testu v příručce testu byste měli uvést, jakému časovému intervalu to odpovídá. Vzhledem k tomu, že spolehlivost test-retest klesá s rostoucím časovým intervalem, nejspolehlivější jsou vysoké koeficienty spolehlivosti získané se zřetelně velkými intervaly mezi testy. Nedostatečně vysoké koeficienty spolehlivosti mohou být důsledkem neoptimálního stanovení časových intervalů.

Paralelní testování V tomto případě je více měření organizováno pomocí paralelních nebo ekvivalentních testů. Paralelní testy jsou testy, které měří stejnou duševní vlastnost se stejnou chybou. V tomto případě stejní jednotlivci provádějí více verzí stejného testu nebo ekvivalentních testů. Praktické použití tohoto typu spolehlivosti je zpravidla spojeno se značnými obtížemi, protože je extrémně obtížné sestavit několik verzí jednoho testu tak, aby subjekt nemohl detekovat jejich psychologickou homogenitu. A zkreslující vliv tréninku v tomto případě není zcela odstraněn. Kromě toho vyvstává otázka: jsou alternativní typy spolehlivostních charakteristik spolehlivosti testu, a nikoli parametry ekvivalence testu? Pokud se totiž provádějí dvě formy testování za stejného typu konstantních podmínek, pak se s největší pravděpodobností studují ukazatele ekvivalence obou forem testování, a nikoli ukazatele spolehlivosti samotných testů. Chyba měření je v tomto případě určena kolísáním provádění testu, nikoli kolísáním struktury testu.

Schéma použití paralelních testů k měření spolehlivosti je následující:

Nazývá se korelační koeficient vypočítaný mezi dvěma testy ekvivalentní spolehlivost.

Metoda štěpení Jde o vývoj metody paralelního testování a je založen na předpokladu paralelnosti nejen jednotlivých testovacích forem, ale i jednotlivých úloh v rámci jednoho testu. Jedná se o jeden z nejjednodušších testů testu, kdy se počítá korelační koeficient mezi jeho polovinami. Jak rozdělit test na dvě poloviny, aby bylo možné obě poloviny sladit na té či oné konkrétní bázi? Nejčastěji se testové úlohy dělí na sudé a liché, což umožňuje do jisté míry eliminovat případné nedostatky. Hlavní výhodou tohoto typu spolehlivosti je nezávislost výsledků testů na takových prvcích činnosti, jako je vývoj, trénink, praxe, únava atd. Při rozdělení testu na dvě části se index spolehlivosti vypočítá pomocí Spearman-Brownova vzorce, který jej navrhl nezávisle na sobě. Jejich články byly publikovány ve stejném čísle psychologického časopisu se závěry a vzorci [Avanesov , 1982]. V jejich vzorci

R(x, 0=2 RJ\ + R, y

kde R je korelační koeficient dvou polovin testu. Za koeficient indexu spolehlivosti se považuje průměrný modul korelačního koeficientu všech testovaných položek nebo průměrný koeficient determinace.

Dosud jsme se zabývali třemi empirickými metodami hodnocení spolehlivosti testu: opakovaným testováním se stejným testem, opakovaným testováním s paralelní formou testu a rozdělením testu.

Která z těchto metod poskytuje skutečný odhad spolehlivosti testu? Jakou metodu byste měli použít? Odpověď na tuto otázku závisí na osobních preferencích a cílech studia.

Při použití metody opakovaného testování získáme posouzení stupně stability výsledků v čase a v závislosti na podmínkách testování. Proto se také nazývá koeficient spolehlivosti test-retest koeficient stability nebo stabilita test. Při použití metody paralelních forem a metody dělení se posuzuje míra vzájemné konzistence zkušebních částí. Proto jsou koeficienty spolehlivosti získané těmito dvěma metodami interpretovány jako kolísavé a stejnorodost, stejnorodost testy.

Kromě ukazatelů stability a homogenity považuje R. B. Cattell za nutné uvažovat i ukazatel přenositelnost. Jde o posouzení schopnosti testu udržet přesnost měření napříč různými vzorky, subkulturami a populacemi. Stabilita, homogenita a přenositelnost dohromady tvoří komplexní charakteristiku spolehlivosti, kterou R. B. Cattell nazývá konzistence a definuje jej jako „míru, do jaké test pokračuje v předpovídání toho, co kdysi předpovídal navzdory změnám (v rámci určitých mezí): a) rozsah, v jakém je test aplikován; b) podmínky, za kterých byl použit; c) složení vzorku, ve kterém je aplikován.“

Konečně existuje typ spolehlivosti, který přímo souvisí se spolehlivostí osoby, která test provádí. Odhad spolehlivosti osoby provádějící test se získá nezávislou simulací testu dvěma různými experimentátory.

Spolehlivost výsledků testu nezávisí pouze na spolehlivosti samotného testu a postupu při jeho provádění. Důležitým faktorem ovlivňujícím výsledky interpretace dat je specifičnost konkrétního vzorku. Nejvýznamnější charakteristikou vzorku z tohoto pohledu je sociálně-psychologická homogenita v různých parametrech; zohledňuje se také věk a pohlaví.

A.G. Shmelev navrhuje provést sled akcí při kontrole spolehlivosti takto [General psychodiagnostics, 1987]:

1. Zjistěte, zda existují údaje o spolehlivosti testu navrženého k použití, na jaké populaci a v jaké diagnostické situaci byl testován. Pokud neproběhla žádná kontrola nebo pokud jsou rysy nové populace a situace jasně specifické, znovu zkontrolujte spolehlivost s ohledem na možnosti uvedené níže.

2. Pokud to příležitosti dovolí, otestujte znovu celý standardizační vzorek a vypočítejte všechny koeficienty uvedené pro celý test i pro jednotlivé položky. Analýza získaných koeficientů pomůže pochopit, jak zanedbatelná je chyba měření.

3. Pokud jsou možnosti omezené, opakujte testování pouze na části vzorku (alespoň 30 subjektů), ručně vypočítejte korelaci pořadí pro posouzení vnitřní

konzistenci (metodou dělení) a stabilitu celého testu.

Uvažované pojmy psychodiagnostiky jsou samozřejmě jejími nejdůležitějšími atributy. Vysoké ukazatele spolehlivosti však samy o sobě neurčují praktickou hodnotu testu. Hlavním faktorem, který umožňuje měřit cílové výsledky psychologického testování, je validita.

Jakákoli empirická studie v psychologii používá psychologické testy. Studenti jsou často povinni poskytnout údaje o jejich spolehlivosti a platnosti.

Spolehlivost psychologických testů

V běžném životě spolehlivost člověka nebo předmětu znamená jistotu, že se na něj můžete spolehnout. Jak ověří, že se na psychologický test dá spolehnout?

Prvním způsobem, jak ověřit spolehlivost psychologického testu, je analýza stability výsledků testu. Pokud se totiž výsledky použití testu na stejném vzorku během několika testů významně nemění, může to sloužit jako kritérium jeho spolehlivosti.

Opakované testování se nazývá retest. Provádí se v intervalech od týdne do jednoho roku. Poté jsou analyzovány korelace několika měření. Pokud korelace mezi výsledky opakovaných testů není nižší než 0,76, pak je takový test považován za spolehlivý.

Nevýhody test-retest spolehlivosti psychologických testů.

1. Některé psychologické ukazatele jsou nestabilní a proměnlivé. Například měřením nálady a pohody v různou denní dobu nebo v různé dny můžete získat různé výsledky a nebude to důsledek nespolehlivosti testu.

2. Při opakovaném vyplňování stejného testu si subjekty „zvykají“. Mohou si zapamatovat své odpovědi a reagovat stejným způsobem. Své odpovědi mohou naopak změnit směrem k sociální potřebnosti. Spolehlivost testu a opakovaného testu tedy nebude plně odrážet spolehlivost testu.

Druhým způsobem, jak ověřit spolehlivost psychologického testu, je analýza konzistence různých částí testu. Například v testu je jeden indikátor, který je diagnostikován 10 otázkami. Konzistence tohoto testu je dána vysokou korelací odpovědí na každou otázku s celkovým skóre na škále.

Aby se určila konzistence psychologického testu, je často rozdělen na dvě části. Můžete to provést výběrem otázek jednu po druhé. První a druhou polovinu těsta můžete oddělit. Dále jsou analyzovány korelace odpovědí dvou rozdělených částí testu. Čím vyšší je korelace, tím vyšší je konzistence a spolehlivost testu.

Spolehlivost psychologického testu je tedy charakteristická pro jeho formální vhodnost pro diagnostiku psychologických ukazatelů. Pokud je například test na diagnostiku úzkosti spolehlivý, znamená to, že když jej použijete na různých vzorcích v různých časech, získáte podobné výsledky. Budou však tyto výsledky charakterizovat úzkost subjektů? Spolehlivost psychologického testu to nezaručuje. Může za to další ukazatel – validita psychologického testu.

Platnost psychologických testů

Validita psychologických testů odráží shodu jejich výsledků s podstatou měřených psychologických jevů. Například do jaké míry výsledek testu agresivity odráží skutečnou míru agresivity respondenta.

Existují dva hlavní způsoby, jak určit platnost psychologických testů.

První způsob, jak určit validitu psychologického testu, zahrnuje korelaci výsledků testu s podobnými indikátory jiných testů. Chcete-li například zkontrolovat platnost testu sebeúcty, můžete provést následující:

  • provádět testování subjektů pomocí nového testu;
  • identifikovat sebeúctu subjektů v jiném testu (za předpokladu, že je platný);
  • vypočítat korelaci ukazatelů sebehodnocení pomocí dvou psychodiagnostických metod;
  • statisticky významná korelace dá důvod mluvit o platnosti nového testu.

Tato metoda nám umožňuje identifikovat tzv. konstruktovou validitu. Odráží shodu identifikovaného psychologického indikátoru s psychologickým konstruktem.

Druhý způsob, jak určit validitu psychologického testu, zahrnuje korelaci výsledků testu s externími kritérii. Tato validita se nazývá validita kritéria psychologického testu.

Například ukazatelem platnosti kritéria testu sklonu k deviantnímu chování může být skutečný počet trestných činů teenagera. Ve vztahu k testu výkonové motivace může být ukazatelem platnosti kritéria úspěšnost provedení konkrétní činnosti.

Vztah mezi spolehlivostí a validitou psychologických testů

Spolehlivost testu odráží jeho kvalitu jako diagnostické metody z hlediska formálních ukazatelů. Bez zohlednění smysluplné analýzy výsledků.

Validita hodnotí obsah výsledků testu. Do jaké míry odpovídají skutečným psychologickým jevům?

Spolehlivý test nemusí být platný. Například test iniciativy může vykazovat vysokou spolehlivost testu a opakovaného testu a konzistenci dílů. Z obsahového hlediska však výsledky testů neodrážejí ani tak iniciativu, jako spíše vůli. To znamená, že spolehlivost tohoto testu je vysoká, ale validita je nízká.

V praxi psychologického testování spolehlivost testů pomocí retestu. Platnost psychologických testů se obvykle testuje analýzou vztahů se skóre v jiných testech, které měří podobné nebo podobné psychologické ukazatele.

Příklady závěrů o spolehlivosti a validitě psychologických testů

Test orientace smyslu života (LSO)

Spolehlivost systému podpory života

Spolehlivost testu SLS byla kontrolována pomocí retestování s intervalem 2 týdnů (subjekty: 76 studentů MSU). Výsledky testu byly stabilní na 5% hladině významnosti (str<0,05).

Platnost LSS

Autor testu LSS, D.A. Leotieve, byla ověřena konstruktová validita LSS. Za tímto účelem byl vytvořen vzorek, který zahrnoval studenty moskevských univerzit s celkovým počtem 24 osob (muži a ženy).

Subjekty byly testovány pomocí následujících testů: SZO, USK (úroveň subjektivní kontroly) a SAT (test úrovně seberealizace). Dále byla provedena korelační analýza indikátorů LSS s indikátory testů USC a SAT.

Všech šest indikátorů testu SLS významně pozitivně koreluje s obecnou internalitou a s internalitou v oblasti úspěchů a také (kromě třetí subškály) s internalitou v oblasti rodinných vztahů. Rovněž byly zaznamenány významné korelace páté subškály život zachraňujícího systému s internalitou ve výrobní sféře a ve vztahu ke zdraví a nemoci.

Indikátory testu SJO pozitivně a významně korelují s následujícími testovacími škálami SAT: škála podpory a kognitivních potřeb - všech šest indikátorů; škály kompetence v čase, sebeúctě a představách o lidské přirozenosti – vše kromě první subškály; škála hodnotových orientací - vše kromě obecného ukazatele a škála spontánnosti - třetí, čtvrtá a pátá subškála. Nebyly nalezeny žádné významné korelace s ostatními stupnicemi CAT.

Poměrně vysoká míra korelace mezi indikátory testu životně důležitých orientací (LSO) a indikátory internality (USK test) a indikátory seberealizace (SAT test) umožňuje hovořit o konstruktivní validitě testu SLO. .

Leontyev D.A. Test orientací na smysl života (LSO). 2. vyd. M.: Smysl, 2000, 18 s.

Metodu S. Schwartze pro studium osobních hodnot upravil v Rusku V.N. Karandašev.

Skutečnost, že tato psychodiagnostická technika vychází z jasného a teoreticky podloženého konceptu svého autora, obsahujícího operacionalizované charakteristiky hodnot;

Faktem je, že při vývoji původní verze dotazníku byla použita výzkumná data z 54 zemí.

Karandašev V.N. Schwartzova metoda pro studium osobních hodnot: koncepce a metodické vedení. - Petrohrad: Projev, 2004-70 s.

Metodika „Úroveň korelace mezi hodnotou a dostupností v různých sférách života“ (USDC) (E.B. Fantalová)

V metodice E.B. Fantalova „Úroveň korelace mezi hodnotou a dostupností v různých sférách života“ používá seznam 12 hodnot převzatých ze seznamu koncových hodnot metodiky M. Rokeacha.

Tedy spolehlivost a platnost metodologie E.B. Fantalova je určena spolehlivostí a validitou seznamu hodnot M. Rokeacha.

Reliabilita testu hodnotových orientací M. Rokeacha byla autorem ověřena přes stabilitu hodnotové struktury až po retestování v časových intervalech od 3 týdnů do 14-16 měsíců na vzorcích vysokoškolských studentů. Pro jednotlivé hodnoty se při opakovaném testování v intervalu 3-7 týdnů pohybuje index stability v rozmezí 0,51 až 0,88 (terminální hodnoty) a 0,45 až 0,70 (přístrojové hodnoty). Pro ruskojazyčnou verzi techniky byly během opakovaného testování s intervalem 2 týdnů získány průměrné ukazatele spolehlivosti 0,82 (pro terminální hodnoty) a 0,79 (pro instrumentální hodnoty).

O platnosti metody hodnotových orientací M. Rokeachové (a potažmo metody E. B. Fantalové) nepřímo svědčí i výsledky získané z průzkumu různých sociálních skupin. Rozdíly v hodnocení stejných hodnot u mužů a žen dosahují statisticky významných limitů pro 12 z 18 terminálních hodnot a pro 8 instrumentálních.

Leontyev, D.A. Metodika studia hodnotových orientací. - M.: Smysl, 1992. - 17 s.

Fantalová E.B. O jednom metodologickém přístupu ke studiu motivace a vnitřních konfliktů // Psychological Journal, vol. 13, 1992, N 1. s. 107-117.

Metodika „Svobodná volba hodnot“ od Fantalové E.B.

Technika „Free Choice of Values“ je nedílnou součástí autorova hodnotově orientovaného systému „Diagnostika vnitřního konfliktu“ (DVK).

V této technice E.B. Fantalová rozšířila seznam hodnot z 12 na 72. Spolehlivost této hodnotové struktury a její platnost však autor neověřil.

Fantalová E.B. Diagnostika a psychoterapie vnitřního konfliktu. Samara, 2001.

Doufám, že vám tento článek pomůže samostatně napsat psychologickou práci. Pokud potřebujete pomoc, kontaktujte nás (všechny typy prací v psychologii; statistické výpočty).