Teto      30/06/2023

Confiabilidade como uma das principais características do teste. Tipos de confiabilidade. Confiabilidade e validade do teste – o que é? A confiabilidade do teste significa que

A confiabilidade do teste é um dos critérios de qualidade do teste relacionado à precisão das medidas psicológicas. Quanto maior a confiabilidade de um teste, relativamente mais livre ele estará de erros de medição. A confiabilidade do teste é considerada em uma abordagem: como estabilidade (estabilidade) dos resultados durante testes repetidos; por outro lado, como manifestação do grau de equivalência de dois testes (paralelos) idênticos na forma e na finalidade.

Confiabilidade do teste

A confiabilidade do teste é uma característica fundamental de um teste, que mostra até que ponto os resultados do teste são estáveis ​​em exames repetidos. A confiabilidade de um teste pode ser determinada por testes repetidos (após um período de tempo estritamente definido) e pelo cálculo do coeficiente de correlação entre os resultados do primeiro teste e dos testes repetidos. A confiabilidade de um teste também pode ser determinada testando diversas versões do mesmo teste, dividindo o teste em duas metades, etc. A fiabilidade dos resultados do teste depende não só da qualidade do teste em si, mas também do procedimento de teste (deve ser absolutamente idêntico no primeiro e segundo casos), da homogeneidade sócio-psicológica da amostra (será diferente para crianças, homens, mulheres, soldados do primeiro ano - serviço, soldados antigos, etc.). E pode acontecer que, sendo confiável para um grupo de pessoas, o teste não seja confiável para outro, e os resultados do teste neste último caso serão incorretos. Assim, a NT, expressando o grau de imprecisão, a possibilidade de erro, que inevitavelmente surge em qualquer teste, obriga-nos a procurar formas de reduzir esse erro, para uma aplicação mais específica e proposital do teste. A confiabilidade dos melhores testes é de 0,8 a 0,9.

Confiabilidade do experimento

estabilidade dos resultados do experimento quando ele é realizado para o segundo, terceiro, quarto, etc. uma vez.

A objetividade de um teste psicológico pode ser alcançada se as seguintes condições forem atendidas:

1) uniformidade do procedimento de teste para obtenção de resultados comparáveis ​​à norma (ver abaixo);

2) uniformidade de avaliação do desempenho nos testes;

3) determinar o padrão de desempenho dos testes para comparar com eles os indicadores obtidos como resultado do processamento dos dados dos testes (ver aqui “terceira etapa de padronização”).

Essas três condições são chamadas etapas de padronização teste psicológico.

Estágios de padronização

Na fase de desenvolvimento do teste, assim como em qualquer outro método, é realizado um procedimento de padronização, que inclui três etapas.

O primeiro passo na padronização de um teste psicológico é criar um procedimento de teste uniforme. Inclui a determinação dos seguintes aspectos da situação diagnóstica:

1) condições de teste (sala, iluminação e outros fatores externos). Obviamente, é melhor medir o volume da memória de curto prazo (por exemplo, usando o subteste de repetição de dígitos no teste de Wechsler) quando não há estímulos externos, como sons estranhos, vozes, etc.

3) Disponibilidade de material de estímulo padrão. Por exemplo, a confiabilidade dos resultados obtidos depende significativamente se o entrevistado recebe cartões G. Rorschach caseiros ou cartões padrão - com um determinado esquema de cores e tonalidades de cores.

4) Restrições de tempo para realização deste teste. Por exemplo, um entrevistado adulto tem 20 minutos para completar o teste Raven.

5) Formulário padrão para realização deste teste. O uso de um formulário padrão simplifica o procedimento de processamento.

6) Levar em consideração a influência das variáveis ​​situacionais no processo e resultado do teste. Variáveis ​​​​significam a condição do sujeito de teste (fadiga, esforço excessivo, etc.), condições de teste não padronizadas (má iluminação, falta de ventilação, etc.), interrupção do teste.

7) Levar em consideração a influência do comportamento do diagnosticador no processo e resultado do teste. Por exemplo, o comportamento de aprovação e incentivo do experimentador durante o teste pode ser percebido pelo entrevistado como uma sugestão da “resposta correta”, etc.

8) Levar em consideração a influência da experiência do respondente em testes. Naturalmente, o entrevistado, que não era a primeira vez que se submetia ao procedimento de teste, superou o sentimento de incerteza e desenvolveu uma certa atitude em relação à situação de teste. Por exemplo, se o entrevistado já completou o teste Raven, provavelmente não vale a pena oferecê-lo uma segunda vez.

A segunda etapa da padronização de um teste psicológico consiste na criação de uma avaliação uniforme do desempenho do teste: uma interpretação padrão dos resultados obtidos e processamento padrão preliminar. Esta etapa envolve também a comparação dos indicadores obtidos com a norma de realização deste teste para uma determinada idade (por exemplo, em testes de inteligência), sexo, etc. (Veja abaixo).

A terceira etapa da padronização de um teste psicológico é determinar as normas para a realização do teste.

As normas são desenvolvidas para diferentes idades, profissões, gêneros, etc. Aqui estão alguns dos tipos de normas existentes:

Normas escolares - são desenvolvidos com base em testes de aproveitamento escolar ou testes de aptidão escolar. Eles são estabelecidos para cada nível escolar e são válidos em todo o país.

Padrões profissionais são estabelecidos com base em testes para diferentes grupos profissionais (por exemplo, mecânicos de vários perfis, datilógrafos, etc.).

Padrões locais são estabelecidos e aplicados a categorias restritas de pessoas, diferenciadas pela presença de uma característica comum - idade, sexo, área geográfica, situação socioeconômica, etc. Por exemplo, para o teste de inteligência Wechsler, as normas são limitadas pela idade.

Padrões nacionais são desenvolvidos para representantes de uma determinada nacionalidade, nação, país como um todo. A necessidade de tais normas é determinada pela cultura, exigências morais e tradições específicas de cada nação.

A presença de dados normativos (normas) em métodos psicodiagnósticos padronizados é sua característica essencial.

Para começar, vamos definir a extensão do desenvolvimento deste problema e listar brevemente os cientistas.

Cientistas que lidaram com o problema da confiabilidade e validade dos métodos em psicodiagnóstico: A. Anastasi et al.

Definição

A confiabilidade da técnica é a estabilidade dos resultados durante múltiplos exames.

A validade de uma técnica é a confiabilidade da medição de uma determinada propriedade mental que está sujeita a medição.

Confiabilidade do teste

Consideremos vários tipos de confiabilidade dos testes psicodiagnósticos.

  1. Confiabilidade de consistência interna. A parte modificada do teste mede uma variável que as partes inalteradas do teste não medem.
  2. Confiabilidade teste-reteste. Testes repetidos de sujeitos com posterior correlação dos resultados do exame inicial e final.
  3. Confiabilidade de formulários de teste paralelos. Criação de questionário equivalente e sua apresentação aos mesmos sujeitos para posterior correlação de resultados.
  4. A confiabilidade das peças de teste pode ser determinada por dividir o questionário em partes; em seguida, correlacione os resultados obtidos.

Figura 1. “Indicadores de confiabilidade de teste”

Ao determinar a confiabilidade do teste, a técnica deve ser realizada em intervalos de tempo significativos. Também é recomendado realizar o teste em amostras de pelo menos 200 indivíduos.

Validade do teste

Consideremos alguns tipos de validade de testes em psicodiagnóstico.

  1. Validade clara. Idéias do sujeito sobre o teste.
  2. Validade concorrente. Correlação com testes semelhantes.
  3. Validade preditiva. Correlação das pontuações dos testes iniciais e posteriores.
  4. Validade incremental.
  5. Validade diferencial.
  6. Validade do conteúdo. Reflexão dos itens do teste sobre aspectos de uma área de estudo específica.
  7. Validade empírica. Correlação dos resultados desta técnica com os resultados de técnicas semelhantes nos mesmos sujeitos.
  8. Validade do criterio. Relação entre os resultados obtidos e critérios externos.
  9. Validade do construto.

Uma diferença importante entre os testes psicométricos é que eles padronizado, e isso permite comparar os indicadores obtidos por um sujeito com os da população em geral ou grupos correspondentes. A padronização dos testes é mais importante nos casos em que o desempenho dos sujeitos é comparado.

Isso introduz o conceito normas, ou indicadores padrão. Para obter normas padrão, um número maior de assuntos deve ser cuidadosamente selecionado de acordo com critérios claramente definidos. Na formação de uma amostra de padronização deve-se levar em consideração seu tamanho e representatividade.

Em alguns casos, é necessário formar vários grupos de padronização ou estratificar o grupo de padronização em relação a parâmetros como idade, sexo, status social. Nem sempre é necessário estabelecer padrões. Ao usar testes psicológicos em pesquisas científicas, as normas não são tão importantes e os resultados brutos dos testes são suficientes. As normas para cada grupo deverão ser apresentadas em valores médios e desvio padrão.

Figura 2. “Quadro de Validade”

A confiabilidade do teste é um dos critérios de qualidade do teste relacionado à precisão das medidas psicológicas. Quanto maior a confiabilidade de um teste, relativamente mais livre ele estará de erros de medição. A confiabilidade do teste é considerada em uma abordagem: como a estabilidade dos resultados durante testes repetidos; por outro lado, como manifestação do grau de equivalência de dois testes (paralelos) idênticos na forma e na finalidade.

A confiabilidade caracteriza testes de propriedades, mas não de estados. Propriedades:

  • 1. Reprodutibilidade dos resultados da investigação.
  • 2. Precisão da medição.
  • 3. Sustentabilidade dos resultados.

O grau de confiabilidade dos métodos depende de vários motivos. Entre os fatores negativos, os mais citados são os seguintes:

  • 1. instabilidade do imóvel diagnosticado;
  • 2. imperfeição dos métodos diagnósticos (as instruções são elaboradas de forma descuidada, as tarefas são de natureza heterogênea, as instruções para apresentar o método aos sujeitos não são formuladas com clareza, etc.);
  • 3. mudança na situação do exame (diferentes horários do dia em que os experimentos são realizados, diferentes condições de iluminação na sala, presença ou ausência de ruídos estranhos, etc.);
  • 4. diferenças no comportamento do experimentador (de experimento em experimento ele apresenta instruções de forma diferente, estimula a realização de tarefas de forma diferente, etc.);
  • 5. flutuações no estado funcional do sujeito (em um experimento há boa saúde, em outro - fadiga, etc.);
  • 6. elementos de subjetividade nos métodos de avaliação e interpretação dos resultados (quando são registradas as respostas dos sujeitos do teste, as respostas são avaliadas de acordo com o grau de completude, originalidade, etc.).

K. M. Gurevich interpreta confiabilidade como:

  • 1. Confiabilidade do próprio instrumento de medição (coeficiente de confiabilidade);
  • 2. Estabilidade da característica estudada (coeficiente de estabilidade);
  • 3. Constância, ou seja, relativa independência dos resultados da personalidade do experimentador (coeficiente de constância).

Propõe-se que o indicador que caracteriza o instrumento de medição seja denominado coeficiente de confiabilidade; um indicador que caracteriza a estabilidade da propriedade medida - coeficiente de estabilidade; e o indicador para avaliar a influência da Personalidade do experimentador é o coeficiente de constância. É nesta ordem que se recomenda verificar a metodologia: é aconselhável verificar primeiro a ferramenta de medição. Se os dados obtidos forem satisfatórios, podemos proceder ao estabelecimento de uma medida de estabilidade da propriedade que está sendo medida e, a partir daí, se necessário, considerar o critério de constância. (Confiabilidade: teste-reteste, formas paralelas, partes do corpo, consistência interna, variância fatorial).

Um método é considerado altamente confiável quando mede com precisão a propriedade que se pretende medir. Os seguintes critérios de precisão podem ser observados:

Quando o método é repetido nos mesmos sujeitos e nas mesmas condições após um determinado intervalo de tempo, os resultados de ambos os testes não diferem significativamente entre si.

As ações de fatores estranhos aleatórios não têm um impacto significativo nos resultados do teste. Podem ser considerados fatores estranhos: estado emocional e fadiga, caso não estejam incluídos na gama de características em estudo, temperatura, iluminação ambiente, etc. Tais fatores aleatórios estranhos também são chamados de fatores de instabilidade do procedimento de medição.

Quando o método é repetido nos mesmos sujeitos após um certo intervalo de tempo sob condições alteradas, os resultados de ambos os testes não diferem significativamente entre si. Por alterado entendemos as seguintes condições: outro experimentador, condição do entrevistado, etc.

Existem vários métodos para avaliar a confiabilidade:

Método de reteste - teste repetido de uma amostra de sujeitos com o mesmo teste após um determinado intervalo de tempo nas mesmas condições. O intervalo de tempo depende da idade (por exemplo, em crianças pequenas, as mudanças podem ocorrer dentro de um mês), bem como dos eventos que ocorrem na vida do sujeito.

TESTE INTERVALRETESTE

O índice de confiabilidade é considerado o coeficiente de correlação entre os resultados de dois testes. A alta correlação resultante pode ser resultado do treinamento do sujeito em tarefas deste tipo; uma correlação baixa pode ser o resultado de mudanças no candidato e também pode indicar falta de confiabilidade do teste.

Confiabilidade de formulários intercambiáveis ​​​​- testes repetidos de uma amostra de sujeitos com uma forma de teste paralela após um intervalo mínimo de tempo nas mesmas condições.

TESTE "INTERVALO TESTE A"

O índice de confiabilidade é considerado o coeficiente de correlação entre os resultados do teste de duas formas paralelas de teste. Um alto coeficiente de correlação e um grande intervalo entre dois testes indicam a alta confiabilidade do teste.

Possível engano por parte do sujeito, sua sofisticação, eventos ocorridos no intervalo entre os testes não têm impacto especial (como no método de reteste) no grau de confiabilidade do teste. Se o fator de treinamento for reduzido ao testar com formulários paralelos, muitas vezes ocorre o efeito de transferência do princípio das tarefas. O efeito de transferência deve ser levado em consideração na construção de formas paralelas.

Requisitos para construir formulários paralelos:

  • 1. Os formulários paralelos devem ser testes construídos de forma independente, mas atender aos mesmos requisitos;
  • 2. devem conter o mesmo número de tarefas com grau de dificuldade semelhante;
  • 3. A equivalência dos formulários paralelos deve ser verificada pelo método de reteste.

Definição de constância, ou seja, relativa independência dos resultados da personalidade do experimentador. Como a técnica está sendo desenvolvida para uso posterior por outros psicodiagnósticos, é necessário determinar até que ponto seus resultados são influenciados pela personalidade do experimentador. O coeficiente de constância é determinado pela correlação dos resultados de dois experimentos realizados na mesma amostra, mas por experimentadores diferentes. O coeficiente de correlação não deve ser inferior a 0,80.

A transformação dos procedimentos e técnicas de psicodiagnóstico em uma ferramenta confiável da ciência e da prática depende dos esforços de muitos especialistas em depuração psicométrica, elaborando testes que atendam aos requisitos psicométricos básicos: confiabilidade, validade, padronização. Os princípios básicos para testar e determinar a confiabilidade, construção e validação de técnicas de psicodiagnóstico são abordados em vários trabalhos especiais sobre psicodiagnóstico (A. Anastasi, A. Bodalsi, V. Stolin, A. Shmelev, K. Gurevich, V. Melnikov , etc.). Neste tutorial descreveremos os conceitos e princípios básicos para a realização de um exame psicodiagnóstico, cujo conhecimento é condição indispensável para a qualificação profissional de um psicólogo prático.

O psicodiagnóstico como disciplina científica inclui três áreas do conhecimento psicológico:

a área disciplinar da psicologia que estuda esses fenômenos mentais;

psicometria – a ciência que mede diferenças individuais e variáveis ​​diagnosticáveis;

o uso prático do conhecimento psicológico com o propósito de exercer uma influência psicológica adequada e ajudar as pessoas a resolver seus problemas.

A base metodológica do psicodiagnóstico é a psicometria. É esta ciência que desenvolve a tecnologia para a criação de técnicas de psicodiagnóstico específicas e determina a metodologia para garantir os requisitos científicos para as mesmas:

confiabilidade - consistência interna de partes do teste e reprodutibilidade dos resultados durante testes repetidos;

validade – reflexo nos resultados dos testes exatamente da propriedade que se pretende diagnosticar;

confiabilidade - proteção do teste contra a influência nos resultados do desejo do candidato de alterá-los na direção desejada;

representatividade - a presença de normas para os resultados de um inquérito massivo na população para a qual o teste se destina, permitindo avaliar o grau de desvio dos valores médios de qualquer indicador individual.

Esses requisitos psicométricos aplicam-se a diferentes grupos de testes, com maior extensão para testes objetivos e questionários de personalidade, e em menor extensão para técnicas projetivas.

Uma avaliação objetiva de técnicas e testes psicológicos significa determinar sua confiabilidade. Em psicometria, o termo “confiabilidade” sempre se refere à consistência das pontuações obtidas nos mesmos sujeitos.

Quão útil é este teste? Ele realmente cumpre suas funções? Essas questões podem, e às vezes causam, discussões longas e infrutíferas. Preconceitos, conclusões subjetivas e preconceitos pessoais levam, como acredita A. Anastasi, por um lado, a uma superestimação das capacidades de um determinado teste e, por outro, à sua rejeição persistente. A única maneira de responder a essas questões é através de testes empíricos. Avaliação objetiva testes psicológicos significam, antes de tudo, determinar sua confiabilidade e validade em situações específicas.



Confiabilidade do teste há consistência nas pontuações obtidas dos mesmos sujeitos quando retestados com o mesmo teste ou formulário equivalente.

Se o QI de uma criança for 110 na segunda-feira e 80 na sexta-feira, é óbvio que este indicador dificilmente pode ser considerado com confiança. Da mesma forma, se um indivíduo identificou corretamente 40 palavras em uma série de 50 palavras e 20 em outra série considerada equivalente, então nenhum desses indicadores pode ser considerado como medida de sua compreensão verbal. É claro que em ambos os exemplos é possível que apenas um dos dois indicadores esteja errado, mas apenas testes subsequentes podem confirmar isto; Dos dados apresentados, conclui-se apenas que os indicadores em conjunto não podem estar corretos.

Antes de um teste psicológico ser disponibilizado ao público, deve ser realizado um teste completo e objetivo de sua confiabilidade. A confiabilidade pode ser testada em relação às mudanças ao longo do tempo, à escolha de tarefas específicas ou amostras de teste, à personalidade do experimentador ou processador de teste e a outros aspectos do teste. É muito importante especificar exatamente o tipo de confiabilidade e como ela é determinada, pois um mesmo teste pode variar em diferentes aspectos. Também é aconselhável ter informações sobre o número e as características dos indivíduos nos quais foi testada a confiabilidade do teste.

Essas informações permitirão ao usuário do teste decidir quão confiável é o teste para o grupo ao qual pretende aplicá-lo.

A explicação mais completa sobre a confiabilidade dos métodos de teste é dada por A. Anastasi. A confiabilidade refere-se à consistência dos resultados do teste obtidos quando ele é repetido nos mesmos assuntos em diferentes momentos, usando diferentes conjuntos de tarefas equivalentes ou quando outras condições de exame são alteradas. O cálculo é baseado na confiabilidade erros de medição, que serve para indicar os limites prováveis ​​​​de flutuações da quantidade medida que surgem sob a influência de fatores aleatórios estranhos. No seu sentido mais amplo, a fiabilidade refere-se à medida em que as diferenças individuais nos resultados dos testes se revelam “verdadeiras” e à medida em que podem ser atribuídas a erros aleatórios. Se traduzirmos isto para a linguagem de termos especiais, então medir a fiabilidade de um teste permite-nos estimar o valor da dispersão total dos indicadores de teste, que é variação de erro. A questão, entretanto, é o que contar como variação do erro. Os mesmos fatores, estranhos a alguns problemas, já são considerados fontes de “verdadeiras” diferenças na resolução de outros problemas. Por exemplo, se estivermos interessados ​​em mudanças de humor, então as mudanças diárias nas pontuações dos testes de estado emocional poderão estar relacionadas com o objectivo do teste e, portanto, com a verdadeira variação das pontuações. Mas se o teste for concebido para medir características de personalidade mais estáveis, então as mesmas flutuações diárias podem ser atribuídas à variação do erro.

O importante é que quaisquer alterações nas condições em que o teste é conduzido, se não forem relevantes para o seu propósito, aumentarão a variância do erro. Portanto, ao aderir a condições de teste uniformes (controle do ambiente geral, restrições de tempo, instruções ao sujeito, contato com ele e outros fatores semelhantes), o experimentador reduz a variação do erro e aumenta a confiabilidade do teste. Mas mesmo sob condições ideais, nenhum teste é uma ferramenta absolutamente confiável. Portanto, um conjunto padrão de dados de teste deve incluir uma medida de confiabilidade. Essa medida caracteriza o teste quando ele é aplicado em condições padrão e aplicado em sujeitos semelhantes aos que participaram da amostra normativa. Portanto, também é necessário fornecer informações sobre esta amostra.

K. M. Gurevich define confiabilidade como “um conceito extremamente complexo e multifacetado, uma das principais funções do qual é avaliar a consistência dos indicadores de desempenho dos testes” [Gurevich, 1981].

Em princípio, podemos dizer que a fiabilidade deve justificar o erro de medição – deve mostrar quanto da variabilidade nas medidas se deve ao erro. Existem vários fatores principais que determinam o nível de confiabilidade. Assim, a confiabilidade sempre tenderá a aumentar se as condições do procedimento de ensaio forem mantidas constantes, pois isso reduz o erro de variabilidade do parâmetro medido. Ao mesmo tempo, a multiplicidade de objetivos, a complexidade do problema e a variabilidade das situações tendem a aumentar o erro de medição, reduzindo assim a confiabilidade.

Existem tantas variedades de confiabilidade do teste quanto condições que afetam os resultados do teste, portanto, quaisquer dessas condições podem revelar-se estranhas ao propósito e, então,

a variação causada por eles deve ser incluída na variação do erro. No entanto, apenas alguns tipos de confiabilidade encontram aplicação prática. Como todos os tipos de confiabilidade refletem o grau de consistência ou consistência de duas séries de indicadores obtidas independentemente, sua medida pode ser coeficiente de correlação. Uma discussão mais especializada sobre correlação com uma descrição detalhada de procedimentos computacionais é fornecida em livros didáticos de estatística para professores e psicólogos (V. Avanesov, A. Gusev, Ch. Izmailov, M. Mikhalevskaya, etc.).

Na prática, três métodos principais são utilizados para avaliar a confiabilidade dos testes:

1) reteste;

2) testes paralelos;

3) método de divisão.

Vamos considerar cada um deles separadamente.

Testando novamenteÉ um dos principais métodos para medir a confiabilidade. Repetido

testar uma amostra de sujeitos é realizado com o mesmo teste após um determinado intervalo de tempo nas mesmas condições. O reteste geralmente é chamado retestar, e a confiabilidade medida desta forma é confiabilidade teste-reteste. O esquema de avaliação de confiabilidade teste-reteste é assim:

Neste caso, o coeficiente de correlação entre os resultados dos dois testes é tomado como índice de confiabilidade.

O método de teste repetido tem vantagens e desvantagens. As vantagens incluem a naturalidade e simplicidade na determinação do coeficiente de confiabilidade. As desvantagens incluem a incerteza na escolha do intervalo entre duas medições. O surgimento de incerteza temporária se deve ao fato de o reteste ser diferente do inicial. Os sujeitos já estão familiarizados com o conteúdo da prova, lembram-se das respostas iniciais e são orientados por elas na repetição da prova. Portanto, durante testes repetidos, muitas vezes observa-se um “ajuste” aos resultados iniciais ou, como consequência do negativismo, a demonstração de “novos” resultados. Para evitar isso, ao fornecer confiabilidade teste-reteste no manual de teste, você deve indicar a que intervalo de tempo ela corresponde. Devido ao fato de que a confiabilidade teste-reteste diminui com o aumento do intervalo de tempo, os mais confiáveis ​​​​são os altos coeficientes de confiabilidade obtidos com intervalos claramente grandes entre os testes. Coeficientes de confiabilidade insuficientemente altos podem ser consequência de uma determinação abaixo do ideal de intervalos de tempo.

Teste paralelo Neste caso, múltiplas medições são organizadas usando testes paralelos ou equivalentes. Testes paralelos são testes que medem a mesma propriedade mental com o mesmo erro. Neste caso, os mesmos indivíduos realizam múltiplas versões do mesmo teste ou testes equivalentes. Via de regra, a utilização prática deste tipo de confiabilidade está associada a dificuldades significativas, pois é extremamente difícil construir várias versões de um mesmo teste de forma que o sujeito não consiga detectar sua homogeneidade psicológica. E a influência distorcida do treinamento, neste caso, não é completamente removida. Além disso, surge a questão: tipos alternativos de confiabilidade são características de confiabilidade de teste, e não parâmetros de equivalência de teste? Afinal, se duas formas de teste são realizadas sob o mesmo tipo de condições constantes, então, muito provavelmente, são estudados os indicadores de equivalência das duas formas de teste, e não os indicadores de confiabilidade dos próprios testes. O erro de medição, neste caso, é determinado por flutuações na execução do teste, e não por flutuações na estrutura do teste.

O esquema para usar testes paralelos para medir a confiabilidade é o seguinte:

O coeficiente de correlação calculado entre dois testes é chamado confiabilidade equivalente.

Método de clivagemÉ um desenvolvimento do método de teste paralelo e baseia-se na suposição de paralelismo não apenas de formas de teste individuais, mas também de tarefas individuais dentro de um teste. Este é um dos testes mais simples de um teste, quando é calculado o coeficiente de correlação entre suas metades. Como dividir a massa em duas metades para poder alinhar ambas as metades em uma ou outra base específica? Na maioria das vezes, as tarefas de teste são divididas em pares e ímpares, o que permite, até certo ponto, eliminar possíveis deficiências. A principal vantagem deste tipo de confiabilidade é a independência dos resultados dos testes de elementos da atividade como desenvolvimento, treinamento, prática, fadiga, etc. Ao dividir o teste em duas partes, o índice de confiabilidade é calculado por meio da fórmula de Spearman-Brown, que o propôs independentemente um do outro. Seus artigos foram publicados na mesma edição de uma revista psicológica com conclusões e fórmulas [Avanesov , 1982]. Em sua fórmula

R(x, 0=2 RJ\ + R, y

onde R é o coeficiente de correlação das duas metades do teste. O módulo médio do coeficiente de correlação de todos os itens de teste ou o coeficiente de determinação médio é considerado um coeficiente do índice de confiabilidade.

Até agora, examinamos três métodos empíricos para avaliar a confiabilidade do teste: reteste com o mesmo teste, reteste com uma forma paralela do teste e divisão do teste.

Qual destes métodos fornece uma estimativa verdadeira da confiabilidade do teste? Qual método você deve usar? A resposta a esta pergunta depende da preferência pessoal e dos objetivos do estudo.

Ao utilizar o método de testes repetidos, obtemos uma avaliação do grau de estabilidade dos resultados ao longo do tempo e dependendo das condições de teste. Portanto, o coeficiente de confiabilidade teste-reteste também é chamado coeficiente de estabilidade ou estabilidade teste. Ao usar o método de formas paralelas e o método de divisão, o grau de consistência mútua das partes de teste é avaliado. Portanto, os coeficientes de confiabilidade obtidos por estes dois métodos são interpretados como oscilados e homogeneidade, homogeneidade testes.

Além dos indicadores de estabilidade e homogeneidade, R. B. Cattell considera necessário considerar o indicador transferibilidade.É uma avaliação da capacidade de um teste de manter a precisão da medição em diferentes amostras, subculturas e populações. Juntas, estabilidade, homogeneidade e portabilidade formam uma característica complexa de confiabilidade, que R. B. Cattell chama consistência e o define como “o grau em que um teste continua a prever o que antes previa, apesar das mudanças (dentro de certos limites): a) a extensão em que o teste é aplicado; b) as condições em que foi utilizado; c) a composição da amostra em que é aplicado.”

Finalmente, existe um tipo de confiabilidade que está diretamente relacionado à confiabilidade da pessoa que administra o teste. Uma estimativa da confiabilidade da pessoa que administra o teste é obtida pela simulação independente do teste por dois experimentadores diferentes.

A confiabilidade dos resultados do teste não depende apenas da confiabilidade do teste em si e do procedimento para conduzi-lo. Um fator importante que influencia os resultados da interpretação dos dados é a especificidade de uma determinada amostra. As características mais significativas da amostra, deste ponto de vista, devem ser reconhecidas como homogeneidade sócio-psicológica em diversos parâmetros; idade e sexo também são levados em consideração.

AG Shmelev propõe realizar a sequência de ações ao verificar a confiabilidade da seguinte forma [Psicodiagnóstico geral, 1987]:

1. Saber se existem dados sobre a fiabilidade do teste proposto para utilização, sobre que população e em que situação diagnóstica foi testado. Se não houve verificação ou se as características da nova população e situações são claramente específicas, verifique novamente a fiabilidade tendo em conta as opções indicadas abaixo.

2. Se as oportunidades permitirem, faça um novo teste em toda a amostra de padronização e calcule todos os coeficientes dados tanto para o teste como um todo quanto para itens individuais. A análise dos coeficientes obtidos ajudará a compreender o quão insignificante é o erro de medição.

3. Se as possibilidades forem limitadas, repita o teste apenas em parte da amostra (pelo menos 30 indivíduos), calcule manualmente a correlação de classificação para avaliar a correlação interna

consistência (pelo método de divisão) e estabilidade de todo o teste.

É claro que os conceitos considerados de psicodiagnóstico são seus atributos mais importantes. No entanto, indicadores de alta confiabilidade por si só não determinam o valor prático do teste. O principal fator que permite medir os resultados desejados dos testes psicológicos é a validade.

Qualquer estudo empírico em psicologia utiliza testes psicológicos. Freqüentemente, os alunos são solicitados a fornecer dados sobre sua confiabilidade e validade.

Confiabilidade dos testes psicológicos

Na vida cotidiana, a confiabilidade de uma pessoa ou objeto significa a confiança de que você pode confiar nele. Como eles verificam se um teste psicológico pode ser confiável?

A primeira forma de verificar a confiabilidade de um teste psicológico é analisar a estabilidade dos resultados do teste. Na verdade, se os resultados da utilização de um teste na mesma amostra não mudarem significativamente ao longo de vários testes, então isto pode servir como um critério para a sua fiabilidade.

Testes repetidos são chamados de reteste. É realizado em intervalos de uma semana a um ano. Correlações de diversas medidas são então analisadas. Se a correlação entre os resultados dos retestes não for inferior a 0,76, então tal teste é considerado confiável.

Desvantagens da confiabilidade teste-reteste dos testes psicológicos.

1. Alguns indicadores psicológicos são instáveis ​​e mutáveis. Por exemplo, ao medir o humor e o bem-estar em diferentes momentos do dia ou em dias diferentes, você poderá obter resultados diferentes, e isso não será consequência da falta de confiabilidade do teste.

2. Ao completar o mesmo teste repetidamente, os sujeitos “se acostumam”. Eles podem lembrar suas respostas e responder da mesma maneira. Podem, pelo contrário, mudar as suas respostas no sentido da desejabilidade social. Assim, a confiabilidade teste-reteste não refletirá totalmente a confiabilidade do teste.

A segunda forma de verificar a confiabilidade de um teste psicológico é analisar a consistência das diversas partes do teste. Por exemplo, há um indicador no teste que é diagnosticado por 10 questões. A consistência deste teste é determinada pela alta correlação das respostas de cada questão com a pontuação geral da escala.

Freqüentemente, para determinar a consistência de um teste psicológico, ele é dividido em duas partes. Você pode fazer isso selecionando uma pergunta de cada vez. Você pode separar a primeira e a segunda metade da massa. A seguir, são analisadas as correlações das respostas das duas partes divididas do teste. Quanto maior a correlação, maior a consistência e confiabilidade do teste.

Assim, a confiabilidade de um teste psicológico é uma característica de sua adequação formal para o diagnóstico de indicadores psicológicos. Por exemplo, se um teste para diagnosticar ansiedade for confiável, isso significa que, ao usá-lo em amostras diferentes em momentos diferentes, você obterá resultados semelhantes. Mas será que esses resultados caracterizarão a ansiedade dos sujeitos? A confiabilidade de um teste psicológico não garante isso. Outro indicador é responsável por isso – a validade do teste psicológico.

Validade dos testes psicológicos

A validade dos testes psicológicos reflete a correspondência de seus resultados com a essência dos fenômenos psicológicos medidos. Por exemplo, até que ponto o resultado de um teste de agressividade reflete o real nível de agressividade do entrevistado.

Existem duas maneiras principais de determinar a validade dos testes psicológicos.

A primeira forma de determinar a validade de um teste psicológico envolve correlacionar os resultados do teste com indicadores semelhantes de outros testes. Por exemplo, para verificar a validade de um teste de autoestima, você pode fazer o seguinte:

  • realizar testes de sujeitos usando um novo teste;
  • identificar a autoestima dos sujeitos de outro teste (supondo que seja válido);
  • calcular a correlação dos indicadores de autoestima por meio de dois métodos de psicodiagnóstico;
  • uma correlação estatisticamente significativa dará motivos para falar sobre a validade do novo teste.

Este método permite identificar a chamada validade de construto. Reflete a correspondência do indicador psicológico identificado com o construto psicológico.

A segunda forma de determinar a validade de um teste psicológico envolve correlacionar os resultados do teste com critérios externos. Essa validade é chamada de validade de critério de um teste psicológico.

Por exemplo, um indicador da validade de critério de um teste de propensão para comportamento desviante pode ser o número real de infrações cometidas por um adolescente. Em relação ao teste de motivação para realização, o indicador de validade de critério pode ser o sucesso na realização de determinada atividade.

A relação entre a confiabilidade e a validade dos testes psicológicos

A confiabilidade de um teste reflete sua qualidade como método diagnóstico, em termos de indicadores formais. Sem levar em conta a análise significativa dos resultados.

A validade avalia o conteúdo dos resultados do teste. Até que ponto correspondem a fenómenos psicológicos reais?

Um teste confiável pode não ser válido. Por exemplo, um teste de iniciativa pode apresentar alta confiabilidade teste-reteste e consistência das peças. No entanto, do ponto de vista do conteúdo, os resultados dos testes refletem não tanto iniciativa, mas força de vontade. Ou seja, a confiabilidade deste teste é alta, mas a validade é baixa.

Na prática dos testes psicológicos, a confiabilidade dos testes por meio do reteste. A validade dos testes psicológicos é normalmente testada analisando as relações com as pontuações de outros testes que medem indicadores psicológicos semelhantes ou semelhantes.

Exemplos de conclusões sobre a confiabilidade e validade dos testes psicológicos

Teste de Orientações para o Significado da Vida (LSO)

Confiabilidade do sistema de suporte de vida

A confiabilidade do teste SLS foi verificada por meio de reteste com intervalo de 2 semanas (sujeitos: 76 alunos da MSU). Os resultados do teste foram estáveis ​​ao nível de significância de 5% (p<0,05).

Validade do LSS

O autor do teste LSS, D.A. Leotiev, foi verificada a validade de construto da LSS. Para tanto, foi formada uma amostra que incluiu estudantes de universidades de Moscou com um total de 24 pessoas (homens e mulheres).

Os sujeitos foram testados por meio dos seguintes testes: SZO, USK (nível de controle subjetivo) e SAT (teste para nível de autorrealização). Em seguida, foi realizada uma análise de correlação dos indicadores LSS com os indicadores dos testes USC e SAT.

Todos os seis indicadores do teste SLS correlacionam-se significativamente positivamente com a internalidade geral e com a internalidade na área de realizações, bem como (exceto a terceira subescala) com a internalidade na área das relações familiares. Também foram observadas correlações significativas da quinta subescala do sistema de salvamento com a internalidade na esfera produtiva e em relação à saúde e doença.

Os indicadores do teste SJO correlacionam-se positiva e significativamente com as seguintes escalas do teste SAT: a escala de necessidades cognitivas e de apoio - todos os seis indicadores; escalas de competência temporal, autoestima e ideias sobre a natureza humana - todas exceto a primeira subescala; a escala de orientações de valor - tudo exceto o indicador geral, e a escala de espontaneidade - a terceira, quarta e quinta subescalas. Não foram encontradas correlações significativas com as demais escalas do CAT.

Um nível bastante elevado de correlação entre os indicadores do teste de orientações de sentido de vida (LSO) e indicadores de internalidade (teste USK) e indicadores de autorrealização (teste SAT) permite-nos falar sobre a validade de construto do teste SLO .

Leontiev D.A. Teste de orientações de significado de vida (LSO). 2ª edição. M.: Smysl, 2000, 18 p.

O método de S. Schwartz para estudar valores pessoais foi adaptado na Rússia por V.N. Karandashev.

O facto desta técnica de psicodiagnóstico se basear num conceito claro e fundamentado teoricamente do seu autor, contendo características operacionalizadas de valores;

O fato é que no desenvolvimento da versão original do questionário foram utilizados dados de pesquisas de 54 países.

Karandashev V.N. O método de Schwartz para estudar valores pessoais: conceito e orientação metodológica. - São Petersburgo: Discurso, 2004-70 p.

Metodologia “O nível de correlação entre Valor e Disponibilidade em várias esferas da vida” (USDC) (E.B. Fantalova)

Na metodologia de E.B. Fantalova “O nível de correlação entre Valor e Disponibilidade em várias esferas da vida” utiliza uma lista de 12 valores retirados da lista de valores terminais da metodologia de M. Rokeach.

Assim, a confiabilidade e validade da metodologia de E.B. Fantalova é determinada pela confiabilidade e validade da lista de valores de M. Rokeach.

A confiabilidade do teste de orientação de valores de M. Rokeach foi verificada pelo autor através da estabilidade da estrutura de valores antes do reteste em intervalos de tempo de 3 semanas a 14-16 meses em amostras de estudantes universitários. Para valores individuais, quando testados novamente em intervalos de 3 a 7 semanas, o índice de estabilidade varia de 0,51 a 0,88 (valores terminais) e de 0,45 a 0,70 (valores instrumentais). Para a versão em russo da técnica, durante o reteste com intervalo de 2 semanas, foram obtidos indicadores médios de confiabilidade de 0,82 (para valores terminais) e 0,79 (para valores instrumentais).

A validade do método de orientação de valores de M. Rokeach (e, conseqüentemente, do método de E.B. Fantalova) é indiretamente evidenciada pelos resultados obtidos em uma pesquisa com vários grupos sociais. As diferenças nas avaliações dos mesmos valores por homens e mulheres atingem limites estatisticamente significativos para 12 dos 18 valores terminais e para 8 instrumentais.

Leontiev, D.A. Metodologia para estudar orientações de valor. - M.: Smysl, 1992. - 17 p.

Fantalova E.B. Sobre uma abordagem metodológica para o estudo da motivação e dos conflitos internos // Psychological Journal, vol.13, 1992, N 1. pp.

Metodologia “Livre escolha de valores” de Fantalova E.B.

A técnica de “Livre Escolha de Valores” é parte integrante do sistema orientado a valores do autor “Diagnóstico de Conflito Interno” (DVK).

Nesta técnica, E.B. Fantalova ampliou a lista de valores de 12 para 72. Porém, o autor não verificou a confiabilidade dessa estrutura de valores e sua validade.

Fantalova E.B. Diagnóstico e psicoterapia de conflitos internos. Samara, 2001.

Espero que este artigo o ajude a escrever um artigo de psicologia por conta própria. Se precisar de ajuda, entre em contato conosco (todos os tipos de trabalhos em psicologia; cálculos estatísticos).