quarta-feira, 30 de julho de 2014

O mistério dos árbitros desaparecidos

Mais um artigo do investigador no estrangeiro devidamente identificado, que nos pediu o anonimato:

Num artigo de opinião publicado recentemente no jornal Público, a Professora Maria de Sousa afirma que ninguém poderia esperar uma avaliação como esta da parte da European Science Foundation (ESF), referindo-se em particular à grande disparidade de classificações encontrada.

Antes de avançarmos para as razões pelas quais a primeira fase da avaliação correu como já todos sabemos, e tentar elucidar a questão levantada acima, convém apontar que a ESF ficou ferida, se não de morte, pelo menos muito próximo disso, com uma das gestões que teve na última década. Um aumento de custos administrativos, juntamente (como consequência?) com o abandono do financiamento de novos projectos de redes europeias de investigação, fez com que tivesse de procurar outras razões de existir. Não sabemos (nem é particularmente relevante para esta análise) se foi nessa altura que decidiu auto-intitular-se de especialista em avaliações, mas o que é um facto é que alguns dos textos que podemos ler na sua página web sobre o seu papel nesse campo soam a auto-promoção do tipo da que é possível encontrar na publicidade das empressas de consultoria.

Mas tem, de facto, razão a Professora Maria de Sousa ao questionar-se sobre como é possível encontrar tantos erros básicos numa avaliação a este nível, quando (praticamente) qualquer um de nós os consegue ver imediatamente.

Um dos problemas que vários investigadores têm apontado prende-se com a não existência de um conjunto suficientemente alargado de peritos em cada área científica por forma a cobrir apropriadamente todas as sub-áreas existentes, e que em simultâneo tenha uma visão global de todas as propostas a concurso nessa área. O envio para avaliadores remotos resolveria, de acordo com o tandem ESF/FCT, o primeiro problema. Isto não é correcto, porque a questão de ter todas as sub-áreas representadas no painel não é apenas puramente científica, destinando-se também, e de forma igualmente ou até mais importante, a equilibrar as decisões, corrigindo enviezamentos que possam ser introduzidos por um painel extremamente reduzido e focado em poucas sub-áreas.

Isto está presente de forma exemplar no modo como os relatórios de consenso foram elaborados em muitos dos casos em que o painel divergiu da opinião dos árbitros externos. Como várias das unidades afastadas da segunda fase nestas condições poderão verificar na informação que lhes foi enviada pela FCT, o relatório de consenso consistiu em fazer um pouco de cherry picking dos três relatórios apresentados, retirando apenas os conteúdos que serviam o propósito pretendido. Nalguns casos, essa escolha resumiu-se mesmo ao copy-paste de partes dos relatórios, excluindo frases que não davam jeito e, pelo menos nalgumas situações, excluindo completamente o árbitro externo que tinha atribuído a nota mais elevada.

As regras iniciais

Como é que foi possível que os membros do painel pudessem, de facto, ignorar um ou até mesmo os dois relatórios externos sem que ninguém tivesse dado por isso até à publicação dos resultados? O processo de avaliação proposto pela ESF era tão deficiente que não pressuponha um controlo de qualidade a este nível? Como já escrevemos aqui, o papel da ESF nesse capítulo pareceu reduzir-se à recolha dos relatórios. Será que isso é possível?

Consultemos mais uma vez o contrato para ver em que termos é que a ESF se comprometeu a fazer a avaliação. O anexo B consiste, de facto, no Guião de Avaliação datado de 31 de julho de 2013, é o mesmo que pode ser encontrado na página da FCT, e foi o que estava em vigor tanto quando encerrou a entrega de candidaturas como quando o contrato foi assinado (7 de Abril pelo Chefe Executivo da ESF, 10 de Abril pelo Presidente da FCT – estas datas são relevantes no que se segue).

No topo da página 13 desse guião é indicado que

Up to 5 individual reviews will be remotely prepared for each application, according to the evaluation criteria of the 1st stage of the evaluation (see section 3. “Evaluation Criteria and Scoring System”).”

Estaremos a falar da mesma avaliação? No mínimo, e a não ser que tenha havido uma adenda ao contrato, a FCT pode reclamar uma redução nos custos, já que em todos os casos o número de árbitros remotos foi apenas de dois e, se contarmos o relatório interno, três.

Com 5 relatórios de árbitros minimamente conceituados já se consegue atingir um certo grau de fiabilidade para construir uma ideia realista da unidade a ser avaliada. É também possível começar a perceber o que é um outlier, caso existam, e qual a opinião consensual sobre essa unidade.

Aliás, damos aqui a palavra ao actual Secretário de Estado do Ensino Superior. Numa intervenção a propósito do processo de avaliação, que teve lugar no Teatro Thalia a 11 de Abril deste ano no encontro “Indicadores de Desempenho para a Ciência e Ensino Superior”, José Ferreira Gomes afirmou que (transcrição livre)

“A avaliação por pares tem problemas muito complicados. Para começar o primeiro é um problema de consistência. Uma avaliação por um par não chega a ser par. Muitas vezes faz-se a avaliação por duas pessoas, por dois pares, e é o mínimo que se costuma fazer, mas todos os estudos académicos mostram que antes de chegar a 5 ou 6 avaliadores e tratar estatisticamente os resultados de 5 ou 6 pares, que os resultados são muito imprevisíveis, muito aleatórios.

Podera haver algumas variações nas palavras exactas, mas quem quiser pode ver toda a intervenção, na terceira parte, entre os minutos 10:00 e 11:55.

O Secretário de Estado também afirmou que

“E nenhum sistema no mundo utiliza sistematicamente 5 ou 6. Todos os sistemas sabem que têm de trabalhar no fio da navalha, com a incerteza (quase ninguém usa sistematicamente 5 ou mais avaliadores). Esta incerteza é muito grave quando se trata de avaliações individuais (projecto, investigador). É de admitir que seja muitíssimo menos grave quando se trata de avaliação de grandes grupos.”

Não podemos deixar de notar que a única parte em que refere estudos, estes aconselham a utilização de mais de 5 ou 6 avaliadores. Não só o resto parece ser apenas uma opinião não substanciada, como não se percebe porque é que para grupos grandes se pode ter menos avaliadores nem porque é menos grave. A dizermos alguma coisa, seria precisamente o contrário, ou seja, que para grupos grandes deveria ser importante haver mais especialistas uma vez que há mais tópicos a cobrir. Quanto a ninguém usar sistematicamente 5 ou mais avaliadores, temos pelo menos o caso da FCT nas avaliações anteriores.

Confessamos ter dificuldades em não reparar na data da intervenção e nos números escolhidos, embora aceitemos que se possa tratar apenas de coincidências.

Voltando à situação presente, o que está proposto no que ficou contratualizado com a ESF, embora não resolvendo o problema do facto do poder de decisão final estar concentrado num grupo restrito, poderia pelo menos contribuir para uma certa estabilidade.

Mas a ESF propunha ainda outra medida para um controlo do processo. Esta medida pode ser encontrada na mesma página 13, na descrição sobre os Relatórios de Consenso:

“One member of the workgroup will be designated the coordinator of the workgroup, while the remaining three members will be designated to elaborate the consensus reports for a given number of applications (the experts suggested by each R&D Unit will not coordinate nor write the consensus reports, but should also take part in the discussions).”

Mais uma vez, é possível reconhecer aqui o que de facto se passou na avaliação? Terão os peritos sugeridos pelas unidades tomado parte na discussão que levou à elaboração dos relatórios finais de consenso que decidem se as unidades passam ou não à segunda fase?

Na maior parte, se não na totalidade dos casos, as unidades terão proposto como árbitro pessoas que não só eram especialistas na área em causa como conheciam bem o seu trabalho. Alguém da sua comissão de acompanhamento, por exemplo. Ao participar na discussão com vista à preparação do relatório de consenso, este investigador teria um papel fundamental para credibilizar a avaliação e para esclarecer pontos que fossem menos claros. Seria o garante do controlo de qualidade do processo. Ao excluí-lo, deixou-se o sistema em cadeia aberta.

A mudança das regras no fim do jogo

Como é que se explicam estas discrepâncias entre as regras descritas no contrato e no guião de avaliação, o qual, recordamos, era o que estava em vigor aquando da submissão de candidaturas? E o qual, recordamos também, foi o que resultou da discussão com as unidades e que todos assumimos determinar as regras a ser seguidas aquando das candidaturas?

A resposta é muito simples: a 29 de abril de 2014, ou seja, já depois dos painéis estarem a desenvolver o seu trabalho, e apenas um dia antes de terminar o prazo para a comunicação dos textos dos árbitros remotos ao painel (Contrato, página 8 do Anexo A), a FCT publicou aquilo que chamou de Additional Information (?) e onde partes do processo de avaliação e, em particular, a referência ao número máximo de relatórios remotos foi suprimida e a descrição da elaboração dos relatórios de consenso foi re-escrita!

Deixou de haver qualquer menção aos cinco árbitros, sendo o texto agora o seguinte (página 3):

“Two external referees (subject-specific review)
For each application, two external referees will be identified and appointed by the European Science Foundation; one of these may be suggested by the research unit itself (when absence of conflicts of interest and appropriate expertise have been acknowledged). These experts should complement each other and hold detailed expertise that allows thoroughly considering the science put forward in the application. They should also have some experience in management of science teams/units. The external referees will provide their assessment online and will not participate to any face-toface meeting.”

É verdade que dois árbitros satisfazem a condição de serem menos do que quatro, e isto assumindo que os cinco já incluiam à partida um dos relatórios elaborado por um elemento do painel. Mas no mínimo poder-se-ia classificar o que estava no contrato e no guião como uma espécie de publicidade enganosa – uma agência de financiamento pública não se pode dar a esse luxo.

E o que sucede com os chamados relatórios de consenso? Ficam reduzidos a uma discussão presencial de membros do painel, para depois o chamado lead rapporteur poder elaborar o relatório de consenso:

“The Review panels will meet physically, discuss each application and reach consensus […]. After the discussion, the lead rapporteur will produce the final consensus report.”

Desapareceu toda e qualquer menção à participação do árbitro indicado pela unidade, mesmo que remotamente, na discussão que levaria à elaboração do relatório de consenso, o qual por sua vez e como já sabemos, determina ou não o afastamento da segunda fase.

Ao ter alterado as regras do jogo depois da fase das candidaturas, depois da elaboração dos relatórios, depois da assinatura do contrato de prestação de serviços, o tandem ESF/FCT não só quebrou de forma inaceitável tudo o que é expectável num processo desta natureza, como, na prática, retirou ao processo a possibilidade de auto-correcção antes da publicação dos resultados e de produzir uma avaliação minimamente estável.

Só que essa avaliação não seria nunca compatível com o resultado que a actual direcção da FCT pretendia obter: que 50% das unidades a concurso deviam ser eliminadas. Tudo o que se seguiu é consequência dessa ideia fixa que pretende que é possível dividir os investigadores de um país num grupo superior e noutro que é, pura e simplesmente, mediocre, com a agravante (se fosse preciso), de pressupor ainda que os primeiros e os segundos estão em unidades de investigação distintas.

A solução

Pensamos que a resposta a dar à Professora Maria de Sousa passa pela reformulação da pergunta. A surpresa é como é que a ESF permitiu à FCT a alteração das regras, em plena avaliação, com os painéis já a trabalhar e a cerca de dois meses da publicação dos resultados da primeira fase. E como é que os painéis aceitaram participar nesta farsa, embora se deva dizer que, provavelmente, a maioria dos membros dos painéis não tem uma visão global do processo.

As grandes diferenças entre classificações, por exemplo, são apenas um sintoma. Se tivesse havido um máximo de 5 relatórios como previsto à partida, poderia ter havido conjuntos de classificações com variações com a mesma amplitude que tivemos, sem que isso causasse grande espanto – sim, o número de relatórios era até 5, mas o deixar aberto poder ir até esse número era precisamente para evitar ter de resolver situações como uma sequência 19-17-11 de forma ad hoc. Se o objectivo fosse fazer uma avaliação competente, pedia-se mais dois relatórios nos casos mais complicados. A questão a levantar aqui não será tanto como é que é possível haver uma discrepância tão grande, mas sim saber onde é que estão as outras duas notas.

Um grupo de classificações como 19-17-11-18-16 já não causaria muito espanto, apesar de a variação entre as notas mais alta e mais baixa ser a mesma. Dever-se-ia, obviamente, ver o que o árbitro que tinha dado 11 tinha a apontar de tão negativo, mas apareceria logo à partida como um outlier. As suas razões poderiam ser tidas em conta para não dar uma média (arredondada) de 18 (as das restantes quatro notas), mas também não devia ser considerado para dar uma média final de 16, o que sucederia se se considerassem em pé de igualdades as cinco notas – para já não falar em dar uma classificação de 14. Obviamente que nada disto se aplica se as classificações forem apenas 19-17-11, por exemplo, em que podemos ficar na dúvida. Com a agravante que já sabemos que aquele último 11 é artificial.


Ao fixar quotas, a FCT alterou o propósito de todo o processo. Em vez de uma avaliação independente para determinar quais as unidades competitivas, o objectivo principal de cada painel passou, a partir de certa altura, a ser como determinar os 50% de centros a eliminar. E esse objectivo era incompatível com as regras fixadas inicialmente, pelo que estas tiveram de ser alteradas.

2 comentários:

Anónimo disse...

Excelente análise! Espero que seja o próximo presidente da FCT!

Anónimo disse...

Seria muito bem escolhido, apoiado!

O corpo e a mente

 Por A. Galopim de Carvalho   Eu não quero acreditar que sou velho, mas o espelho, todas as manhãs, diz-me que sim. Quando dou uma aula, ai...