quinta-feira, 22 de julho de 2021

Exames que não servem para nada

 Texto de Carlos Portela e Maria João Varela:

O IAVE determinou que as provas de exame nacional de Física e Química A (FQA), aplicadas em 2020, contivessem dois conjuntos diferenciados de itens: um conjunto de 8 itens cujas respostas contribuíam obrigatoriamente para a classificação final da prova, e um outro  conjunto de 18 itens dos quais apenas contribuíam para a classificação final os 12 itens cujas respostas obtivessem melhor pontuação.

Sendo o Perfil dos Alunos à Saída da Escolaridade Obrigatória e as Aprendizagens Essenciais da disciplina os documentos de referência na conceção das provas de avaliação externa, não é congruente admitir-se  que as provas incluam itens que não avaliem aprendizagens essenciais. Do ponto de vista das aprendizagens avaliadas, não existiam assim diferenças entre o primeiro e o segundo daqueles conjuntos -  todos os itens, quer se incluíssem no primeiro conjunto ou no segundo, avaliavam aprendizagens significativas e essenciais.

Todos os itens incluídos em qualquer um daqueles conjuntos também não se distinguiam pela sua cotação (todos tinham cotação de 10 pontos).

A opção de um ratio de 1:1 nas cotações dos itens de uma prova foi uma inovação introduzida pelo IAVE nas provas de Física e Química A em 2020, e repetida agora em 2021, que nunca foi explicada. Porque é que todos os itens de uma prova, independentemente do tempo médio esperado de resposta associado a cada um deles (itens cujas respostas são obtidas em 1 ou 2 minutos têm a mesma cotação de itens cujas respostas necessitam de mais de 15 minutos) ou da sua tipologia, têm todos a mesma cotação? Esta opção é tecnicamente muitíssimo discutível, muito raramente utilizada pelos professores na sua prática e nem sequer é utilizada pelo IAVE na generalidade das provas…

Todos os itens de uma prova serão assim, à partida, indistinguíveis, quer do ponto de vista da relevância das aprendizagens que pretendem avaliar, quer do ponto de vista da sua cotação, não parecendo existir qualquer rationale para a inclusão de um determinado item no primeiro conjunto (itens ditos obrigatórios) ou no segundo (itens não obrigatórios).

Com base neste pressuposto, considerem-se dois casos.

Num primeiro caso, um aluno A acerta os 8 itens obrigatórios e acerta ainda os 18 itens não obrigatórios, sendo-lhe contabilizados os 12 melhores deste último conjunto. Um aluno B acerta também os 8 itens obrigatórios  mas, dos não obrigatórios, erra ou não responde a 6.  Ambos os alunos têm 200 pontos.

Num segundo  caso, um aluno A erra 4 itens obrigatórios e acerta os restantes – o aluno A terá obtido 160 pontos. Um aluno B erra ou não responde a 6 itens, mas dos não obrigatórios, acertando os restantes  – o aluno B terá obtido 200 pontos.

Fácil será concluir que, num universo de cerca de 40 mil alunos que realizaram a prova da 1.ª fase do exame nacional de FQA em 2020, foram atribuídas classificações idênticas a provas com desempenhos muito diferentes (em 2020, isso sucedeu num espectro largo que incluiu diferenças de desempenho até cerca de 25% do total de itens da prova), e foram  atribuídas classificações mais baixas a provas com melhores desempenhos (esta situação sucede quando as falhas são, fundamentalmente, nos itens ditos obrigatórios).

Fazendo corresponder desempenhos diferentes a classificações iguais ou, em casos ainda mais absurdos, fazendo corresponder desempenhos melhores a classificações mais baixas, é violado o mais elementar princípio que deve estar na base de uma avaliação justa e séria: a correspondência entre o desempenho do aluno e a respetiva classificação. A validade das provas de exame nacional de FQA de 2020 enquanto instrumento de avaliação que se pretendia rigoroso ficou assim seriamente comprometida.

Acresce ainda que esta solução, na qual a classificação depende da escolha das melhores respostas, é mais penalizadora para os examinandos com mais dificuldades ou que não lecionaram parte do programa, dado que esses examinandos não podem obviamente usufruir dessa escolha por não estarem em condições de responderem a todos os itens.

Para ilustrar a total falta de credibilidade e validade do modelo adotado pelo IAVE, na prova de exame nacional de Física e Química A (1.ª Fase) de 2020, analisam-se os resultados desta prova que foi realizada por 39 444 examinandos (a diferença do número total de alunos que realizaram a prova, em relação a 2019, é inferior a 5%, pelo que o argumento que procura justificar a variação dos resultados com o facto de apenas terem realizado o exame os alunos que necessitavam da prova para acesso ao ensino superior é falso).

Na figura seguinte, apresenta-se num histograma o número de classificações, de 0 a 20 valores, na prova realizada em 2020, e num gráfico de linhas o número de classificações, também de 0 a 20 valores, na prova realizada em 2019.



A distribuição de classificações relativa a 2020, além de completamente anómala quando comparada com a distribuição relativa a 2019 (e também com distribuições de anos anteriores) traduz resultados totalmente implausíveis.

Salientam-se os seguintes aspetos relativos à distribuição de classificações de 2020:

    o número de classificações tende a aumentar no intervalo de 0 a 18 valores;

    42,7% dos examinandos obtiveram 16 ou mais valores;

    10,8% dos examinandos obteve a classificação mais frequente que foi 18 valores (em 2019, apenas 2,9% das provas foram classificadas com 18 valores);

    14,5% das provas foram classificadas com 19 ou 20 valores (um aumento de mais de 10 vezes em relação a 2019, em que 1,4% das provas foram classificadas com 19 ou 20 valores);

    5,2% das provas foram classificadas com 20 valores (um aumento de mais de 10 vezes em relação a 2019, em que 0,46% das provas foram classificadas com 20 valores).

Uma vez que a prova de exame nacional da 1.ª fase de 2020 estava alinhada com as provas de anos anteriores, as completas anomalias e distorções que se verificaram nos resultados só podem ser atribuídas ao modelo adotado pelo IAVE e, em particular, à possibilidade de ter sido possível descartar 6 itens de um total de 26, sem que isso acarretasse, só por si, qualquer penalização - o modelo adotado permitiu que tenha havido provas com classificações de 18, 19 e 20 valores, mas, apesar disso, com falhas que puderam ir até 31%, 27% e 23%, respetivamente, do total de itens da prova.

 

Os resultados do exame final nacional de Física e Química A em 2020 mostram que o modelo adotado pelo IAVE não permitiu a avaliação do mérito relativo (uma análise semelhante poderia ser feita para provas de outras discipinas). Não foi assim cumprido o único objetivo definido em 2020 para o exame nacional de FQA:  seriar os alunos no acesso ao ensino superior.

O completo falhanço do modelo adotado em 2020 nunca foi assumido publicamente pelo IAVE, e também nenhuma entidade exterior ao IAVE quis pôr o dedo na ferida, denunciando o completo atropelo verificado no acesso ao Ensino Superior em 2020 (no qual as provas de exame de FQA assumem importância relevante). O IAVE pretende agora, em 2021, fazer a gestão dos estragos, tendo aumentado drasticamente o número de itens cujas respostas contribuem obrigatoriamente para a classificação final da prova (8 itens em 2020, 16 itens em 2021!).

O aumento do número de itens ditos obrigatórios poderá contribuir para a diminuição da amplitude do enviesamento das classificações subjacente ao modelo adotado em 2020, mas não resolve, de modo algum, o problema estrutural da solução adotada: a ausência de correspondência entre o desempenho do aluno na prova e a classificação obtida.

Ainda em relação ao aumento do número de itens ditos obrigatórios em 2021, é de sublinhar a forte injustiça daqui decorrente para os alunos que fizeram agora exame e que se deparam com regras mais uma vez arbitrariamente modificadas (se correu tudo tão bem em 2020, porque vão mais uma vez alterar as regras?...). Embora estes alunos tenham sido, seguramente, mais penalizados pelas condições excecionais de ensino e de aprendizagem, decorrentes da pandemia de COVID-19,  foram confrontados com um modelo de exame mais desfavorável em termos da probabilidade de obtenção de classificações elevadas.

Se a comparação dos resultados de 2020 com os resultados de 2019 não permite tirar qualquer conclusão sobre a evolução/regressão das aprendizagens dos alunos no domínio da disciplina de FQA, também a comparação dos resultados de 2020 com os de 2021 não terá qualquer significado, não permitindo também obter qualquer conclusão.

Resta a resposta confrangedora a uma pergunta muito simples. Para que servem então estes exames? Para nada.

 

Carlos Portela e Maria José Varela

(professores de física e de química do ensino secundário)

Sem comentários:

O corpo e a mente

 Por A. Galopim de Carvalho   Eu não quero acreditar que sou velho, mas o espelho, todas as manhãs, diz-me que sim. Quando dou uma aula, ai...