Tillförlitlighet som en av testets huvudegenskaper. Typer av tillförlitlighet. Testets tillförlitlighet och validitet - vad är det? Testtillförlitlighet betyder det

Testtillförlitlighet är ett av testkvalitetskriterierna relaterat till noggrannheten av psykologiska mätningar. Ju större tillförlitlighet ett test har, desto relativt friare är det från mätfel. Testtillförlitlighet betraktas i ett tillvägagångssätt: som stabiliteten (stabiliteten) hos resultaten under upprepad testning; å andra sidan som en manifestation av graden av ekvivalens av två (parallella) test som är identiska till form och syfte.

Testa tillförlitlighet

Testtillförlitlighet är en grundläggande egenskap hos ett test, som visar i vilken utsträckning testresultaten är stabila vid upprepade undersökningar. Tillförlitligheten av ett test kan bestämmas genom upprepad testning (efter en strikt definierad tidsperiod) och beräkning av korrelationskoefficienten mellan resultaten av den första och upprepade testningen. Ett tests tillförlitlighet kan också bestämmas genom att testa flera versioner av samma test, dela upp testet i två halvor osv. Testresultatens tillförlitlighet beror inte bara på kvaliteten på själva testet, utan också på testförfarandet (det måste vara helt identiskt i det första och andra fallet), provets sociopsykologiska homogenitet (det kommer att vara annorlunda för barn, män, kvinnor, soldater under det första året - tjänst, gamla soldater, etc.). Och det kan visa sig att testet, eftersom det är tillförlitligt för en grupp människor, kommer att visa sig vara opålitligt för en annan, och testresultaten i det senare fallet blir felaktiga. Således, NT, som uttrycker graden av inexakthet, möjligheten till fel, som oundvikligen uppstår i alla tester, tvingar oss att leta efter sätt att minska detta fel, för en mer specifik, målmedveten tillämpning av testet. Tillförlitligheten för de bästa testerna är 0,8 - 0,9.

Experimentets tillförlitlighet

stabiliteten hos experimentresultaten när det utförs för andra, tredje, fjärde, etc. en gång.

Objektiviteten hos ett psykologiskt test kan uppnås om följande villkor är uppfyllda:

1) enhetlighet i testförfarandet för att erhålla resultat som är jämförbara med normen (se nedan);

2) enhetlig bedömning av testprestanda;

3) fastställa standarden för testprestanda för att med dem jämföra de indikatorer som erhållits som ett resultat av bearbetning av testdata (se här "tredje steget av standardisering").

Dessa tre tillstånd kallas stadier av standardisering psykologiskt test.

Stadier av standardisering

På testets utvecklingsstadium, liksom alla andra metoder, genomförs ett standardiseringsförfarande, som inkluderar tre steg.

Det första steget i att standardisera ett psykologiskt test är att skapa ett enhetligt testförfarande. Det inkluderar att fastställa följande aspekter av den diagnostiska situationen:

1) testförhållanden (rum, belysning och andra externa faktorer). Uppenbarligen är det bättre att mäta volymen av korttidsminnet (till exempel genom att använda deltestet för sifferupprepning i Wechsler-testet) när det inte finns några yttre stimuli, såsom främmande ljud, röster, etc.

3) Tillgänglighet av standardstimulansmaterial. Till exempel beror tillförlitligheten av de erhållna resultaten avsevärt på om respondenten erbjuds hemgjorda G. Rorschach-kort eller standard - med ett visst färgschema och färgnyanser.

4) Tidsbegränsningar för att utföra detta test. Till exempel får en vuxen respondent 20 minuter på sig att slutföra Raven-testet.

5) Standardformulär för att utföra detta test. Att använda ett standardformulär förenklar bearbetningsproceduren.

6) Ta hänsyn till inverkan av situationsvariabler på testprocessen och resultatet. Variabler betyder testpersonens tillstånd (trötthet, överansträngning etc.), icke-standardiserade testförhållanden (dålig belysning, bristande ventilation etc.), avbrott i testningen.

7) Att ta hänsyn till påverkan av diagnostikerns beteende på testprocessen och resultatet. Till exempel kan försöksledarens godkännande och uppmuntrande beteende under testningen uppfattas av respondenten som en antydan om det "rätta svaret" etc.

8) Att ta hänsyn till inflytandet av respondentens erfarenhet av testning. Naturligtvis övervann respondenten, som genomgick testproceduren inte för första gången, känslan av osäkerhet och utvecklade en viss inställning till testsituationen. Till exempel, om respondenten redan har slutfört Raven-testet, är det troligen inte värt att erbjuda honom det en andra gång.

Det andra steget av standardisering av ett psykologiskt test består av att skapa en enhetlig bedömning av testprestanda: en standardtolkning av de erhållna resultaten och preliminär standardbearbetning. Detta steg innebär också att jämföra de erhållna indikatorerna med normen för att utföra detta test för en given ålder (till exempel i intelligenstester), kön etc. (se nedan).

Det tredje steget av standardisering av ett psykologiskt test är att fastställa normerna för att utföra testet.

Normer är utvecklade för olika åldrar, yrken, kön etc. Här är några av de befintliga typerna av normer:

Skolnormer - utvecklas på grundval av tester av skolprestationer eller tester av skolbegåvning. De är etablerade för varje skolnivå och gäller i hela landet.

Professionella standarder fastställs på grundval av tester för olika yrkesgrupper (till exempel mekaniker av olika profiler, maskinskrivare etc.).

Lokala standarder etableras och tillämpas på snäva kategorier av människor, kännetecknade av närvaron av en gemensam egenskap - ålder, kön, geografiskt område, socioekonomisk status, etc. Till exempel för Wechslers intelligenstest är normerna begränsade av ålder.

Nationella standarderär utvecklade för representanter för en given nationalitet, nation, land som helhet. Behovet av sådana normer bestäms av varje nations specifika kultur, moraliska krav och traditioner.

Förekomsten av normativa data (normer) i standardiserade psykodiagnostiska metoder är deras väsentliga egenskap.

Till att börja med, låt oss definiera området för utvecklingen av detta problem och kort lista forskarna.

Forskare som behandlade problemet med tillförlitlighet och validitet av metoder inom psykodiagnostik: A. Anastasi et al.

Definition

Teknikens tillförlitlighet är stabiliteten hos resultaten under flera undersökningar.

Giltigheten av en teknik är tillförlitligheten av mätningen av en viss mental egenskap som är föremål för mätning.

Testa tillförlitlighet

Låt oss överväga flera typer av tillförlitlighet av psykodiagnostiska tester.

Intern konsistens tillförlitlighet. Den modifierade delen av testet mäter en variabel som de oförändrade delarna av testet inte mäter.
Test-omtest tillförlitlighet. Upprepad testning av ämnen med efterföljande korrelation av resultaten från den initiala och slutliga undersökningen.
Tillförlitlighet av parallella testformulär. Skapande av ett likvärdigt frågeformulär och dess presentation för samma ämnen för efterföljande korrelation av resultat.
Testdelarnas tillförlitlighet kan bestämmas av dela upp frågeformuläret i delar; korrelera sedan de erhållna resultaten.

Figur 1. "Test tillförlitlighetsindikatorer"

Vid bestämning av testets tillförlitlighet bör tekniken utföras med betydande tidsintervall. Det rekommenderas också att utföra testet på prover av minst 200 försökspersoner.

Testets giltighet

Låt oss överväga några typer av testvaliditet inom psykodiagnostik.

Tydlig giltighet. Föremålets idéer om provet.
Samtidig giltighet. Korrelation med liknande tester.
Prediktiv validitet. Korrelation mellan inledande och senare testresultat.
Inkrementell giltighet.
Differentiell validitet.
Innehållsvaliditet. Reflektion av provobjekt över aspekter av ett specifikt studieområde.
Empirisk giltighet. Korrelation av resultaten av denna teknik med resultaten av liknande tekniker i samma ämnen.
Kriteriets giltighet. Samband mellan erhållna resultat och externa kriterier.
Konstruera giltighet.

En viktig skillnad mellan psykometriska test är att de standardiserad, och detta låter dig jämföra indikatorerna som erhållits av ett ämne med dem i den allmänna befolkningen eller motsvarande grupper. Teststandardisering är viktigast i de fall försökspersoners prestationer jämförs.

Detta introducerar konceptet normer, eller standardindikatorer. För att få standardnormer måste ett större antal ämnen väljas noggrant enligt tydligt definierade kriterier. Vid bildandet av ett standardiseringsurval bör dess storlek och representativitet beaktas.

I vissa fall är det nödvändigt att bilda flera standardiseringsgrupper eller stratifiera standardiseringsgruppen avseende parametrar som t.ex ålder, kön, social status. Att sätta standarder är inte alltid nödvändigt. När man använder psykologiska test i vetenskaplig forskning är normer inte så viktiga och det räcker med råa testresultat. Normer för varje grupp ska presenteras i medelvärden och standardavvikelse.

Figur 2. "Giltighetsramverk"

Testtillförlitlighet är ett av testkvalitetskriterierna relaterat till noggrannheten av psykologiska mätningar. Ju större tillförlitlighet ett test har, desto relativt friare är det från mätfel. Testtillförlitlighet betraktas i ett tillvägagångssätt: som stabiliteten hos resultaten under upprepad testning; å andra sidan som en manifestation av graden av ekvivalens av två (parallella) test som är identiska till form och syfte.

Tillförlitlighet kännetecknar tester av egenskaper, men inte tillstånd. Egenskaper:

1. Reproducerbarhet av forskningsresultat.
2. Mätnoggrannhet.
3. Resultatens hållbarhet.

Graden av tillförlitlighet hos metoder beror på många skäl. Bland de negativa faktorerna är de vanligast citerade följande:

1. instabilitet hos den egendom som diagnostiseras;
2. ofullkomlighet av diagnostiska metoder (instruktioner är slarvigt utformade, uppgifter är heterogena till sin natur, instruktioner för att presentera metoden för försökspersoner är inte tydligt formulerade, etc.);
3. förändrad undersökningssituation (olika tider på dygnet då experiment utförs, olika ljusförhållanden i rummet, förekomst eller frånvaro av främmande buller etc.);
4. skillnader i försöksledarens beteende (från experiment till experiment presenterar han instruktioner på olika sätt, stimulerar utförandet av uppgifter på olika sätt, etc.);
5. fluktuationer i ämnets funktionella tillstånd (i ett experiment finns det god hälsa, i ett annat - trötthet, etc.);
6. inslag av subjektivitet i metoderna för att bedöma och tolka resultaten (när testpersonernas svar registreras bedöms svaren efter fullständighetsgrad, originalitet etc.).

K.M. Gurevich tolkar tillförlitlighet som:

1. Tillförlitligheten hos själva mätinstrumentet (tillförlitlighetskoefficient);
2. Stabilitet för den studerade egenskapen (stabilitetskoefficient);
3. Konstans, dvs. relativ oberoende av resultaten från experimentatorns personlighet (konstantskoefficient).

Den indikator som kännetecknar mätinstrumentet föreslås kallas tillförlitlighetskoefficienten; en indikator som kännetecknar stabiliteten hos den uppmätta egenskapen - stabilitetskoefficient; och indikatorn för att bedöma inflytandet av experimentatorns personlighet är konstanskoefficienten. Det är i denna ordning som det rekommenderas att kontrollera metodiken: det är tillrådligt att först kontrollera mätverktyget. Om de erhållna uppgifterna är tillfredsställande, kan vi fortsätta med att fastställa ett mått på stabiliteten för den egendom som mäts, och efter det, om nödvändigt, överväga kriteriet om beständighet. (Tillförlitlighet: test-omtest, parallella former, kroppsdelar, intern konsistens, faktorvarians).

En metod sägs vara mycket tillförlitlig när metoden noggrant mäter den egenskap den är avsedd att mäta. Följande noggrannhetskriterier kan noteras:

När metoden upprepas på samma försökspersoner under samma förhållanden efter ett visst tidsintervall, skiljer sig resultaten från båda testerna inte signifikant från varandra.

Verkningarna av slumpmässiga främmande faktorer har ingen signifikant inverkan på testresultaten. Följande kan betraktas som främmande faktorer: känslomässigt tillstånd och trötthet, om de inte ingår i intervallet av egenskaper som studeras, temperatur, rumsbelysning, etc. Sådana främmande slumpmässiga faktorer kallas också faktorer för instabilitet i mätproceduren.

När metoden upprepas på samma försökspersoner efter ett visst tidsintervall under ändrade förhållanden, skiljer sig resultaten från båda testerna inte nämnvärt från varandra. Med ändrad menar vi följande villkor: en annan experimentator, respondentens tillstånd, etc.

Det finns olika metoder för att bedöma tillförlitlighet:

Omtestmetod - upprepad testning av ett prov av försökspersoner med samma test efter ett visst tidsintervall under samma förhållanden. Tidsintervallet beror på ålder (till exempel hos små barn kan förändringar inträffa inom en månad), såväl som händelser som inträffar i försökspersonens liv.

TESTINTERVALRETEST

Tillförlitlighetsindexet antas vara korrelationskoefficienten mellan resultaten av två tester. Den resulterande höga korrelationen kan vara resultatet av försökspersonens träning i uppgifter av denna typ; en låg korrelation kan vara resultatet av förändringar hos testtagaren och kan också indikera opålitlighet hos testet.

Tillförlitlighet av utbytbara former - upprepad testning av ett urval av ämnen med en parallell form av testet efter ett minsta tidsintervall under samma förhållanden.

TEST "INTERVALTEST A"

Tillförlitlighetsindexet antas vara korrelationskoefficienten mellan testresultaten för två parallella former av testet. En hög korrelationskoefficient och ett stort intervall mellan två tester indikerar testets höga tillförlitlighet.

Eventuellt bedrägeri från försökspersonens sida, hans sofistikerade, händelser som inträffade i intervallet mellan testerna har ingen speciell inverkan (som i omtestmetoden) på graden av tillförlitlighet hos testet. Om träningsfaktorn reduceras när man testar med parallella former, uppstår ofta effekten av att överföra principen om uppgifter. Överföringseffekten bör beaktas vid konstruktion av parallella former.

Krav för att konstruera parallella former:

1. Parallella former måste vara oberoende konstruerade tester, men uppfylla samma krav;
2. måste innehålla samma antal uppgifter med liknande svårighetsgrad;
3. Likvärdigheten av parallella formulär måste kontrolleras med omtestningsmetoden.

Definition av beständighet, dvs. resultatens relativa oberoende av experimentatorns personlighet. Eftersom tekniken utvecklas för vidare användning av andra psykodiagnostiker, är det nödvändigt att bestämma i vilken utsträckning dess resultat påverkas av experimentatorns personlighet. Konstantskoefficienten bestäms genom att korrelera resultaten från två experiment utförda på samma prov, men av olika experimentörer. Korrelationskoefficienten bör inte vara lägre än 0,80.

Omvandlingen av psykodiagnostiska förfaranden och tekniker till ett tillförlitligt verktyg för vetenskap och praktik beror på ansträngningarna från många specialister inom psykometrisk felsökning, som designar tester som uppfyller de grundläggande psykometriska kraven: tillförlitlighet, validitet, standardisering. De grundläggande principerna för att testa och bestämma tillförlitligheten, konstruktionen och valideringen av psykodiagnostiska metoder täcks av ett antal specialarbeten om psykodiagnostik (A. Anastasi, A. Bodalsi, V. Stolin, A. Shmelev, K. Gurevich, V. Melnikov , etc.). I denna handledning kommer vi att beskriva de grundläggande begreppen och principerna för att genomföra en psykodiagnostisk undersökning, vars kunskap är ett oumbärligt villkor för en praktisk psykologs yrkeskvalifikationer.

Psykodiagnostik som en vetenskaplig disciplin omfattar tre områden av psykologisk kunskap:

ämnesområdet psykologi som studerar dessa mentala fenomen;

psykometri - vetenskapen om att mäta individuella skillnader och diagnoserbara variabler;

praktisk användning av psykologisk kunskap i syfte att få adekvat psykologiskt inflytande och hjälpa människor att lösa sina problem.

Den metodologiska grunden för psykodiagnostik är psykometri. Det är denna vetenskap som utvecklar tekniken för att skapa specifika psykodiagnostiska tekniker och bestämmer metoden för att säkerställa vetenskapliga krav för dem:

tillförlitlighet - intern konsistens av delar av testet och reproducerbarhet av resultat under upprepad testning;

validitet – reflektion i testresultaten av exakt den egenskap för vilken den är avsedd att diagnostisera;

tillförlitlighet - skydd av testet från påverkan på resultaten av testtagarens önskan att ändra dem i önskad riktning;

representativitet - förekomsten av normer för resultaten av en massundersökning i befolkningen för vilken testet är utformat, vilket gör att man kan bedöma graden av avvikelse från medelvärdena för varje enskild indikator.

Dessa psykometriska krav gäller för olika grupper av test, med störst omfattning till objektiva test och personlighetsenkäter, och i minsta utsträckning projektiva tekniker.

En objektiv bedömning av psykologiska tekniker och tester innebär att bestämma deras tillförlitlighet. I psykometri hänvisar termen "tillförlitlighet" alltid till konsistensen av poäng erhållna från samma ämnen.

Hur användbart är detta test? Fyller den verkligen sina funktioner? Dessa frågor kan och ibland orsaka långa, fruktlösa diskussioner. Fördomar, subjektiva slutsatser och personliga fördomar leder, som A. Anastasi anser, å ena sidan till en överskattning av förmågan hos ett visst test, och å andra sidan till dess ihållande förkastande. Det enda sättet att besvara sådana frågor är genom empiriska tester. Objektiv bedömning psykologiska tester innebär först och främst att bestämma deras tillförlitlighet och giltighet i specifika situationer.

Testa tillförlitlighet det är konsekventa poäng som erhålls från samma ämnen när de testas om med samma prov eller motsvarande form.

Om ett barns IQ är 110 på måndag och 80 på fredag, är det uppenbart att denna indikator knappast kan tas med tillförsikt. På liknande sätt, om en individ korrekt identifierade 40 ord i en serie på 50 ord och 20 i en annan likvärdig serie, kan ingen av dessa indikatorer betraktas som ett mått på hans verbala förståelse. Naturligtvis är det i båda exemplen möjligt att endast en av de två indikatorerna är felaktig, men endast efterföljande testning kan bekräfta detta; Av de presenterade uppgifterna följer endast att indikatorerna tillsammans inte kan vara korrekta.

Innan ett psykologiskt test görs tillgängligt för allmänheten måste ett grundligt, objektivt test av dess tillförlitlighet genomföras. Tillförlitligheten kan testas med avseende på förändringar över tid, valet av specifika uppgifter eller testprover, experimenterarens eller testprocessorns personlighet och andra aspekter av testning. Det är mycket viktigt att precisera vilken typ av tillförlitlighet och hur den bestäms, eftersom samma test kan variera i olika aspekter. Det är också tillrådligt att ha information om antalet och egenskaperna hos individer på vilka testets tillförlitlighet testades.

Sådan information kommer att göra det möjligt för användaren av testet att bestämma hur tillförlitligt testet är för den grupp som han avser att tillämpa det på.

Den mest kompletta förklaringen av testmetodernas tillförlitlighet ges av A. Anastasi. Tillförlitlighet avser konsistensen av testresultat som erhålls när det upprepas på samma ämnen vid olika tidpunkter, med olika uppsättningar av likvärdiga uppgifter eller när andra undersökningsförhållanden ändras. Beräkningen baseras på tillförlitlighet mätfel, som tjänar till att indikera de sannolika gränserna för fluktuationer av den uppmätta kvantiteten som uppstår under påverkan av främmande slumpmässiga faktorer. I dess vidaste mening avser reliabilitet i vilken utsträckning individuella skillnader i testresultat visar sig vara "sanna" och i vilken utsträckning de kan hänföras till slumpmässiga fel. Om vi översätter detta till språket med speciella termer, kan vi genom att mäta ett tests tillförlitlighet uppskatta värdet av den totala spridningen av testindikatorer, vilket är felavvikelse. Frågan är dock vad som ska räknas som felvarians. Samma faktorer, som är främmande i förhållande till vissa problem, anses redan vara källor till "sanna" skillnader när man löser andra problem. Om vi till exempel är intresserade av humörsvängningar, kan dagliga förändringar i testresultaten för känslotillstånd vara relaterade till syftet med testet och därför till den sanna variansen mellan poängen. Men om testet är utformat för att mäta mer stabila personlighetsegenskaper, kan samma dagliga fluktuationer tillskrivas felvarians.

Det viktiga är att eventuella förändringar i de förhållanden under vilka testet genomförs, om de inte är relevanta för dess syfte, kommer att öka felvariansen. Därför, genom att följa enhetliga testförhållanden (kontrollera den allmänna miljön, tidsbegränsningar, instruktioner till försökspersonen, kontakt med honom och andra liknande faktorer), minskar försöksledaren felvariansen och ökar testets tillförlitlighet. Men även under optimala förhållanden är inget test ett absolut tillförlitligt verktyg. Därför bör en standarduppsättning testdata innehålla ett mått på tillförlitlighet. Detta mått kännetecknar testet när det administreras under standardförhållanden och administreras till försökspersoner liknande de som deltog i det normativa urvalet. Därför är det också nödvändigt att ge information om detta prov.

K. M. Gurevich definierar tillförlitlighet som "ett extremt komplext och mångfacetterat koncept, vars en av huvudfunktionerna är att bedöma konsekvensen av testprestandaindikatorer" [Gurevich, 1981].

I princip kan vi säga att tillförlitlighet ska motivera mätfel — den ska visa hur mycket av variabiliteten i mått som beror på fel. Det finns flera huvudfaktorer som bestämmer tillförlitlighetsnivån. Sålunda kommer tillförlitligheten alltid att tendera att öka om villkoren för testproceduren hålls konstanta, eftersom detta minskar variabilitetsfelet hos den uppmätta parametern. Samtidigt tenderar mångfalden av mål, problemets komplexitet och variabiliteten i situationer att öka mätfelen och därigenom minska tillförlitligheten.

Det finns lika många varianter av testtillförlitlighet som det finns förhållanden som påverkar testresultaten, så alla sådana förhållanden kan visa sig vara främmande för syftet, och sedan

variansen som orsakas av dem bör inkluderas i felvariansen. Men endast ett fåtal typer av tillförlitlighet finner praktisk tillämpning. Eftersom alla typer av tillförlitlighet återspeglar graden av konsistens eller konsekvens hos två oberoende erhållna serier av indikatorer, kan deras mått vara korrelationskoefficient. En mer specialiserad diskussion om korrelation med en detaljerad beskrivning av beräkningsprocedurer ges i läroböcker om statistik för lärare och psykologer (V. Avanesov, A. Gusev, Ch. Izmailov, M. Mikhalevskaya, etc.).

I praktiken används tre huvudmetoder för att bedöma testernas tillförlitlighet:

1) omtestning;

2) parallell testning;

3) uppdelningsmetod.

Låt oss överväga var och en av dem separat.

Testar om Det är en av de viktigaste metoderna för att mäta tillförlitlighet. Upprepad

testning av ett prov av försökspersoner utförs med samma test efter ett visst tidsintervall under samma förhållanden. Omtestning brukar kallas testa om, och tillförlitlighet mätt på detta sätt är test-retest reliabilitet. Schemat för test-omtest-tillförlitlighetsbedömning ser ut så här:

I detta fall tas korrelationskoefficienten mellan resultaten av två test som tillförlitlighetsindex.

Den upprepade testmetoden har både fördelar och nackdelar. Fördelarna inkluderar naturligheten och enkelheten att bestämma tillförlitlighetskoefficienten. Nackdelar inkluderar osäkerheten i valet av intervall mellan två mätningar. Uppkomsten av tillfällig osäkerhet beror på att omtestning skiljer sig från den ursprungliga. Försökspersonerna är redan bekanta med provets innehåll, kommer ihåg sina första svar och vägleds av dem när de upprepar provet. Under upprepade tester observerar man därför ofta antingen "anpassning" till de initiala resultaten, eller, som en konsekvens av negativism, demonstration av "nya" resultat. För att undvika detta, när du ger test-omtest-tillförlitlighet i testmanualen, bör du ange vilket tidsintervall det motsvarar. På grund av att test-omtest-tillförlitligheten minskar med ökande tidsintervall, är de mest tillförlitliga höga tillförlitlighetskoefficienter som erhålls med klart stora intervall mellan testerna. Otillräckligt höga tillförlitlighetskoefficienter kan vara en konsekvens av suboptimal bestämning av tidsintervall.

Parallell testning I det här fallet organiseras flera mätningar med hjälp av parallella eller likvärdiga tester. Parallella tester är tester som mäter samma mentala egenskap med samma fel. I det här fallet utför samma individer flera versioner av samma test eller likvärdiga tester. Som regel är den praktiska användningen av denna typ av tillförlitlighet förknippad med betydande svårigheter, eftersom det är extremt svårt att konstruera flera versioner av ett test på ett sådant sätt att försökspersonen inte kan upptäcka deras psykologiska homogenitet. Och det snedvridande inflytandet av träning i det här fallet är inte helt borttaget. Dessutom uppstår frågan: är alternativa typer av tillförlitlighet egenskaper hos testtillförlitlighet och inte testekvivalensparametrar? När allt kommer omkring, om två former av testning utförs under samma typ av konstanta förhållanden, studeras sannolikt ekvivalensindikatorerna för de två testformerna, och inte tillförlitlighetsindikatorerna för själva testerna. Mätfelet i detta fall bestäms av fluktuationer i testutförandet och inte av fluktuationer i teststrukturen.

Schemat för att använda parallella tester för att mäta tillförlitlighet är som följer:

Korrelationskoefficienten som beräknas mellan två test kallas motsvarande tillförlitlighet.

Klyvningsmetod Det är en utveckling av den parallella testmetoden och bygger på antagandet om parallellitet inte bara av individuella testformer, utan även av individuella uppgifter inom ett test. Detta är ett av de enklaste testerna av ett test, när korrelationskoefficienten mellan dess halvor beräknas. Hur delar man upp testet i två halvor för att kunna anpassa båda halvorna på en eller annan specifik basis? Oftast är testuppgifter uppdelade i jämna och udda, vilket gör att man i viss mån kan eliminera eventuella brister. Den största fördelen med denna typ av tillförlitlighet är oberoendet av testresultat från sådana element av aktivitet som utveckling, träning, övning, trötthet, etc. När testet delas upp i två delar beräknas tillförlitlighetsindexet med Spearman-Brown-formeln, som föreslog det oberoende av varandra. Deras artiklar publicerades i samma nummer av en psykologisk tidskrift med slutsatser och formler [Avanesov , 1982]. I deras formel

R(x, 0=2 RJ\ + R, y

där R är korrelationskoefficienten för testets två halvor. Medelmodulen för korrelationskoefficienten för alla testobjekt eller den genomsnittliga bestämningskoefficienten betraktas som en tillförlitlighetsindexkoefficient.

Hittills har vi tittat på tre empiriska metoder för att bedöma testtillförlitlighet: omtestning med samma test, omtestning med en parallell form av testet och dela upp testet.

Vilken av dessa metoder ger en sann uppskattning av testets tillförlitlighet? Vilken metod ska du använda? Svaret på denna fråga beror på personliga preferenser och studiens mål.

Vid användning av den upprepade testmetoden får vi en bedömning av graden av stabilitet hos resultaten över tid och beroende på testförhållandena. Därför kallas även test-retest reliabilitetskoefficienten stabilitetskoefficient eller stabilitet testa. Vid användning av parallellformmetoden och klyvningsmetoden bedöms graden av inbördes överensstämmelse mellan testdelarna. Därför tolkas tillförlitlighetskoefficienterna som erhålls med dessa två metoder som svängda och homogenitet, homogenitet tester.

Förutom indikatorer på stabilitet och homogenitet anser R. B. Cattell att det är nödvändigt att överväga indikatorn överförbarhet. Det är en bedömning av ett tests förmåga att upprätthålla mätnoggrannhet över olika prover, subkulturer och populationer. Tillsammans bildar stabilitet, homogenitet och portabilitet en komplex egenskap hos tillförlitlighet, som R. B. Cattell kallar konsistens och definierar det som "i vilken grad ett test fortsätter att förutsäga vad det en gång förutspådde trots förändringar (inom vissa gränser): a) i vilken utsträckning testet tillämpas; b) de förhållanden under vilka den användes. c) Sammansättningen av provet i vilket det appliceras.”

Slutligen finns det en typ av reliabilitet som direkt relaterar till reliabiliteten hos den person som administrerar testet. En uppskattning av tillförlitligheten hos den person som administrerar testet erhålls genom att oberoende simulera testet av två olika experimentörer.

Testresultatens tillförlitlighet beror inte bara på tillförlitligheten hos själva testet och förfarandet för att genomföra det. En viktig faktor som påverkar resultaten av datatolkningen är specificiteten hos ett visst urval. De viktigaste egenskaperna hos provet, ur denna synvinkel, bör erkännas som sociopsykologisk homogenitet i olika parametrar; ålder och kön beaktas också.

A.G. Shmelev föreslår att man ska utföra sekvensen av åtgärder vid kontroll av tillförlitlighet enligt följande [General psychodiagnostics, 1987]:

1. Ta reda på om det finns data om tillförlitligheten hos det test som föreslagits för användning, om vilken population och i vilken diagnostisk situation det testades. Om det inte fanns någon kontroll eller om funktionerna i den nya populationen och situationerna är tydligt specifika, kontrollera tillförlitligheten igen med hänsyn till alternativen som anges nedan.

2. Om möjligheterna tillåter, testa sedan om på hela standardiseringsprovet och beräkna alla koefficienter som ges både för hela testet och för enskilda poster. Analys av de erhållna koefficienterna kommer att hjälpa till att förstå hur försumbart mätfelet är.

3. Om möjligheterna är begränsade, upprepa testning endast på en del av provet (minst 30 försökspersoner), beräkna rankkorrelationen manuellt för att bedöma den interna

konsistens (genom klyvningsmetod) och stabilitet för hela testet.

Naturligtvis är de övervägda begreppen psykodiagnostik dess viktigaste egenskaper. Höga tillförlitlighetsindikatorer i sig avgör dock inte testets praktiska värde. Den ledande faktorn som låter dig mäta målresultaten för psykologiska tester är validitet.

Alla empiriska studier inom psykologi använder psykologiska tester. Studenter måste ofta tillhandahålla uppgifter om deras tillförlitlighet och giltighet.

Psykologiska tests tillförlitlighet

I det vanliga livet betyder tillförlitligheten hos en person eller ett föremål förtroendet för att du kan lita på det. Hur kontrollerar de att man kan lita på ett psykologiskt test?

Det första sättet att kontrollera tillförlitligheten hos ett psykologiskt test är att analysera testresultatens stabilitet. Faktum är att om resultaten av att använda ett test på samma prov inte förändras signifikant över flera tester, kan detta fungera som ett kriterium för dess tillförlitlighet.

Upprepad testning kallas ett omtest. Det utförs med intervaller från en vecka till ett år. Korrelationer mellan flera mätningar analyseras sedan. Om korrelationen mellan resultaten av omprov inte är lägre än 0,76, anses ett sådant test vara tillförlitligt.

Nackdelar med test-retest reliabilitet av psykologiska tester.

1. Vissa psykologiska indikatorer är instabila och föränderliga. Genom att till exempel mäta humör och välbefinnande vid olika tidpunkter på dygnet eller på olika dagar kan du få olika resultat, och det blir inte en konsekvens av testets opålitlighet.

2. När försökspersonerna genomför samma test upprepade gånger "vänjer sig" dem. De kan komma ihåg sina svar och svara på samma sätt. De kan tvärtom ändra sina svar i riktning mot social önskvärdhet. Test-omtest-tillförlitligheten kommer alltså inte att helt återspegla testets tillförlitlighet.

Det andra sättet att kontrollera tillförlitligheten av ett psykologiskt test är att analysera konsekvensen av testets olika delar. Till exempel finns det en indikator i testet som diagnostiseras av 10 frågor. Konsistensen av detta test bestäms av den höga korrelationen mellan svaren på varje fråga och den totala poängen på skalan.

Ofta, för att bestämma konsekvensen av ett psykologiskt test, delas det ofta upp i två delar. Du kan göra detta genom att välja frågor en i taget. Du kan separera den första och andra halvan av degen. Därefter analyseras sambanden mellan svaren från de två delade delarna av testet. Ju högre korrelation desto högre är testets konsistens och tillförlitlighet.

Så tillförlitligheten hos ett psykologiskt test är ett kännetecken för dess formella lämplighet för att diagnostisera psykologiska indikatorer. Till exempel, om ett test för att diagnostisera ångest är tillförlitligt betyder det att när du använder det på olika prover vid olika tidpunkter kommer du att få liknande resultat. Men kommer dessa resultat att prägla försökspersonernas ångest? Tillförlitligheten hos ett psykologiskt test garanterar inte detta. En annan indikator är ansvarig för detta - giltigheten av det psykologiska testet.

Giltighet av psykologiska tester

Giltigheten av psykologiska tester återspeglar överensstämmelsen mellan deras resultat och essensen av de uppmätta psykologiska fenomenen. Till exempel, i vilken utsträckning återspeglar resultatet av ett aggressivitetstest respondentens verkliga nivå av aggressivitet.

Det finns två huvudsakliga sätt att fastställa giltigheten av psykologiska tester.

Det första sättet att fastställa giltigheten av ett psykologiskt test involverar att korrelera testresultaten med liknande indikatorer för andra test. För att till exempel kontrollera giltigheten av ett självkänslastest kan du göra följande:

utföra testning av ämnen med ett nytt test;
identifiera självkänslan hos försökspersoner på ett annat test (förutsatt att det är giltigt);
beräkna korrelationen mellan självkänslasindikatorer med hjälp av två psykodiagnostiska metoder;
en statistiskt signifikant korrelation ger anledning att tala om det nya testets validitet.

Denna metod låter oss identifiera den så kallade konstruktionsvaliditeten. Det återspeglar överensstämmelsen mellan den identifierade psykologiska indikatorn och den psykologiska konstruktionen.

Det andra sättet att fastställa giltigheten av ett psykologiskt test innebär att man korrelerar testresultaten med externa kriterier. Denna validitet kallas kriteriumvaliditet för ett psykologiskt test.

Till exempel kan en indikator på kriteriets giltighet för ett test av benägenhet för avvikande beteende vara det faktiska antalet förseelser av en tonåring. I förhållande till testet av prestationsmotivation kan indikatorn på kriterievaliditet vara framgången med att utföra en viss aktivitet.

Sambandet mellan psykologiska tests tillförlitlighet och validitet

Ett tests tillförlitlighet återspeglar dess kvalitet som diagnostisk metod, i form av formella indikatorer. Utan att ta hänsyn till den meningsfulla analysen av resultaten.

Validitet utvärderar innehållet i testresultaten. I vilken utsträckning motsvarar de verkliga psykologiska fenomen?

Ett tillförlitligt test kanske inte är giltigt. Till exempel kan ett initiativtest visa hög test-omtest-tillförlitlighet och delkonsistens. Ur innehållssynpunkt återspeglar dock testresultaten inte så mycket initiativförmåga som viljestyrka. Det vill säga, tillförlitligheten för detta test är hög, men validiteten är låg.

I praktiken av psykologisk testning, tillförlitligheten av tester med omtest. Giltigheten av psykologiska tester testas vanligtvis genom att analysera samband med poäng på andra test som mäter liknande eller liknande psykologiska indikatorer.

Exempel på slutsatser om psykologiska tests reliabilitet och validitet

Life Meaning Orientations Test (LSO)

Livsuppehållande systemets tillförlitlighet

Tillförlitligheten av SLS-testet kontrollerades med omtestning med ett intervall på 2 veckor (ämnen: 76 MSU-studenter). Testresultaten var stabila på 5 % signifikansnivå (s<0,05).

Giltighet av LSS

Författaren till LSS-testet, D.A. Leotiev, konstruktionens giltighet av LSS kontrollerades. För detta ändamål bildades ett urval som inkluderade studenter från Moskvas universitet med totalt 24 personer (män och kvinnor).

Försökspersonerna testades med hjälp av följande test: SZO, USK (nivå av subjektiv kontroll) och SAT (test för nivån av självförverkligande). Därefter genomfördes en korrelationsanalys av LSS-indikatorerna med indikatorerna för USC- och SAT-testerna.

Alla sex indikatorer för SLS-testet korrelerar signifikant positivt med allmän internitet och med internalitet inom området för prestationer, såväl som (förutom den tredje underskalan) med internalitet inom området familjerelationer. Signifikanta samband mellan den femte subskalan av livräddningssystemet med internitet i produktionssfären och i relation till hälsa och sjukdom noterades också.

SJO-testindikatorerna korrelerar positivt och signifikant med följande SAT-testskalor: skalan för stöd och kognitiva behov - alla sex indikatorer; kompetensskalor i tid, självkänsla och idéer om människans natur - alla utom den första subskalan; skalan för värdeorientering - allt utom den allmänna indikatorn, och skalan för spontanitet - den tredje, fjärde och femte underskalorna. Inga signifikanta korrelationer hittades med de andra CAT-skalorna.

En ganska hög nivå av korrelation mellan indikatorerna för testet av livsmenande orienteringar (LSO) och indikatorer för internalitet (USK-test) och indikatorer för självförverkligande (SAT-test) gör att vi kan tala om konstruktionsvaliditeten för SLO-testet .

Leontyev D.A. Test av livsmenande orienteringar (LSO). 2:a uppl. M.: Smysl, 2000, 18 sid.

S. Schwartz metod för att studera personliga värderingar anpassades i Ryssland av V.N. Karandashev.

Det faktum att denna psykodiagnostiska teknik är baserad på ett tydligt och teoretiskt baserat koncept av dess författare, som innehåller operationaliserade egenskaper hos värden;

Faktum är att vid utvecklingen av den ursprungliga versionen av frågeformuläret användes forskningsdata från 54 länder.

Karandashev V.N. Schwartz metod för att studera personliga värderingar: koncept och metodisk vägledning. - St Petersburg: Tal, 2004-70 sid.

Metod "Nivån av korrelation mellan värde och tillgänglighet i olika livssfärer" (USDC) (E.B. Fantalova)

I metodiken hos E.B. Fantalova "Nivån av korrelation mellan värde och tillgänglighet i olika livssfärer" använder en lista med 12 värden hämtade från listan över terminalvärden i M. Rokeachs metodik.

Således är tillförlitligheten och giltigheten av E.B:s metodik. Fantalova bestäms av tillförlitligheten och giltigheten hos M. Rokeachs värdelista.

Tillförlitligheten av M. Rokeachs test av värdeorientering kontrollerades av författaren genom stabiliteten i värdestrukturen till omtestning med tidsintervall från 3 veckor till 14-16 månader på prover av högskolestudenter. För individuella värden, vid omtestning med 3-7 veckors intervall, sträcker sig stabilitetsindexet från 0,51 till 0,88 (terminalvärden) och från 0,45 till 0,70 (instrumentella värden). För den ryskspråkiga versionen av tekniken, under omtestning med ett intervall på 2 veckor, erhölls genomsnittliga tillförlitlighetsindikatorer på 0,82 (för terminalvärden) och 0,79 (för instrumentella värden).

Giltigheten av M. Rokeachs metod för värdeorientering (och följaktligen E.B. Fantalovas metod) bevisas indirekt av resultaten från en undersökning av olika sociala grupper. Skillnader i bedömningar av samma värden av män och kvinnor når statistiskt signifikanta gränser för 12 av 18 terminalvärden och för 8 instrumentella.

Leontyev, D.A. Metodik för att studera värdeorientering. - M.: Smysl, 1992. - 17 sid.

Fantalova E.B. Om ett metodiskt förhållningssätt till studiet av motivation och interna konflikter // Psychological Journal, vol. 13, 1992, N 1. s. 107-117.

Metodik ”Fritt val av värden” av Fantalova E.B.

Tekniken "Fritt val av värderingar" är en integrerad del av författarens värdeorienterade system "Diagnostics of Internal Conflict" (DVK).

I denna teknik har E.B. Fantalova utökade listan över värden från 12 till 72. Författaren kontrollerade dock inte tillförlitligheten av denna värdestruktur och dess giltighet.

Fantalova E.B. Diagnos och psykoterapi av inre konflikter. Samara, 2001.

Jag hoppas att den här artikeln hjälper dig att skriva en psykologirapport på egen hand. Om du behöver hjälp, vänligen kontakta oss (alla typer av arbete inom psykologi; statistiska beräkningar).