Num artigo
de opinião publicado recentemente no jornal Público, a Professora
Maria de Sousa afirma que ninguém poderia esperar uma avaliação
como esta da parte da European Science Foundation (ESF), referindo-se
em particular à grande disparidade de classificações encontrada.
Antes de
avançarmos para as razões pelas quais a primeira fase da avaliação
correu como já todos sabemos, e tentar elucidar a questão levantada
acima, convém apontar que a ESF ficou ferida, se não de morte, pelo
menos muito próximo disso, com uma das gestões que teve na última
década. Um aumento de custos administrativos, juntamente (como
consequência?) com o abandono do financiamento de novos projectos de
redes europeias de investigação, fez com que tivesse de procurar
outras razões de existir. Não sabemos (nem é particularmente
relevante para esta análise) se foi nessa altura que decidiu
auto-intitular-se de especialista em avaliações, mas o que é um
facto é que alguns dos textos que podemos ler na sua página web
sobre o seu papel nesse campo soam a auto-promoção do tipo da que é
possível encontrar na publicidade das empressas de consultoria.
Mas tem, de
facto, razão a Professora Maria de Sousa ao questionar-se sobre como
é possível encontrar tantos erros básicos numa avaliação a este
nível, quando (praticamente) qualquer um de nós os consegue ver
imediatamente.
Um dos
problemas que vários investigadores têm apontado prende-se com a
não existência de um conjunto suficientemente alargado de peritos
em cada área científica por forma a cobrir apropriadamente todas as
sub-áreas existentes, e que em simultâneo tenha uma visão global
de todas as propostas a concurso nessa área. O envio para
avaliadores remotos resolveria, de acordo com o tandem ESF/FCT, o
primeiro problema. Isto não é correcto, porque a questão de ter
todas as sub-áreas representadas no painel não é apenas puramente
científica, destinando-se também, e de forma igualmente ou até
mais importante, a equilibrar as decisões, corrigindo enviezamentos
que possam ser introduzidos por um painel extremamente reduzido e
focado em poucas sub-áreas.
Isto está
presente de forma exemplar no modo como os relatórios de consenso
foram elaborados em muitos dos casos em que o painel divergiu da
opinião dos árbitros externos. Como várias das unidades afastadas
da segunda fase nestas condições poderão verificar na informação
que lhes foi enviada pela FCT, o relatório de consenso consistiu em
fazer um pouco de cherry picking dos três relatórios
apresentados, retirando apenas os conteúdos que serviam o propósito
pretendido. Nalguns casos, essa escolha resumiu-se mesmo ao
copy-paste de partes dos relatórios, excluindo frases que não davam
jeito e, pelo menos nalgumas situações, excluindo completamente o
árbitro externo que tinha atribuído a nota mais elevada.
As regras
iniciais
Como é que
foi possível que os membros do painel pudessem, de facto, ignorar um
ou até mesmo os dois relatórios externos sem que ninguém tivesse
dado por isso até à publicação dos resultados? O processo de
avaliação proposto pela ESF era tão deficiente que não
pressuponha um controlo de qualidade a este nível? Como já
escrevemos
aqui,
o papel da ESF nesse capítulo pareceu reduzir-se à recolha dos
relatórios. Será que isso é possível?
Consultemos
mais uma vez o contrato para ver em que termos é que a ESF se
comprometeu a fazer a avaliação. O anexo B consiste, de facto, no
Guião de Avaliação datado de 31 de julho de 2013, é o mesmo que
pode ser encontrado na página da FCT, e foi o que estava em vigor
tanto quando encerrou a entrega de candidaturas como quando o
contrato foi assinado (7 de Abril pelo Chefe Executivo da ESF, 10 de
Abril pelo Presidente da FCT – estas datas são relevantes no que
se segue).
No topo da
página 13 desse guião é indicado que
“Up to 5 individual reviews will be remotely prepared for each
application, according to the evaluation criteria of the 1st
stage of the evaluation (see section 3. “Evaluation Criteria and
Scoring System”).”
Estaremos a
falar da mesma avaliação? No mínimo, e a não ser que tenha havido
uma adenda ao contrato, a FCT pode reclamar uma redução nos custos,
já que em todos os casos o número de árbitros remotos foi apenas
de dois e, se contarmos o relatório interno, três.
Com 5
relatórios de árbitros minimamente conceituados já se consegue
atingir um certo grau de fiabilidade para construir uma ideia
realista da unidade a ser avaliada. É também possível começar a
perceber o que é um outlier, caso existam, e qual a opinião
consensual sobre essa unidade.
Aliás,
damos aqui a palavra ao actual Secretário de Estado do Ensino
Superior. Numa intervenção a propósito do processo de avaliação,
que teve lugar no Teatro Thalia a 11 de Abril deste ano no encontro
“Indicadores de Desempenho para a Ciência e Ensino Superior”,
José Ferreira Gomes afirmou que (transcrição livre)
“A avaliação por pares tem problemas muito complicados. Para
começar o primeiro é um problema de consistência. Uma avaliação
por um par não chega a ser par. Muitas vezes faz-se a avaliação
por duas pessoas, por dois pares, e é o mínimo que se costuma
fazer, mas todos os estudos académicos mostram que
antes de chegar a 5 ou 6 avaliadores e tratar
estatisticamente os resultados de 5 ou 6 pares, que os
resultados são muito imprevisíveis, muito
aleatórios.”
O Secretário de Estado também afirmou que
“E nenhum sistema no mundo utiliza sistematicamente 5 ou 6. Todos
os sistemas sabem que têm de trabalhar no fio da navalha, com a
incerteza (quase ninguém usa sistematicamente 5 ou mais
avaliadores). Esta incerteza é muito grave quando se trata de
avaliações individuais (projecto, investigador). É de admitir que
seja muitíssimo menos grave quando se trata de avaliação de
grandes grupos.”
Não podemos
deixar de notar que a única parte em que refere estudos, estes
aconselham a utilização de mais de 5 ou 6 avaliadores. Não só o
resto parece ser apenas uma opinião não substanciada, como não se
percebe porque é que para grupos grandes se pode ter menos
avaliadores nem porque é menos grave. A dizermos alguma coisa, seria
precisamente o contrário, ou seja, que para grupos grandes deveria
ser importante haver mais especialistas uma vez que há mais tópicos
a cobrir. Quanto a ninguém usar sistematicamente 5 ou mais
avaliadores, temos pelo menos o caso da FCT nas avaliações
anteriores.
Confessamos
ter dificuldades em não reparar na data da intervenção e nos
números escolhidos, embora aceitemos que se possa tratar apenas de
coincidências.
Voltando à
situação presente, o que está proposto no que ficou
contratualizado com a ESF, embora não resolvendo o problema do facto
do poder de decisão final estar concentrado num grupo restrito,
poderia pelo menos contribuir para uma certa estabilidade.
Mas a ESF
propunha ainda outra medida para um controlo do processo. Esta medida
pode ser encontrada na mesma página 13, na descrição sobre os
Relatórios de Consenso:
“One member of the workgroup will be designated the coordinator of
the workgroup, while the remaining three members will be designated
to elaborate the consensus reports for a given number of applications
(the experts suggested by each R&D Unit will not coordinate
nor write the consensus reports, but should also take part in the
discussions).”
Mais uma
vez, é possível reconhecer aqui o que de facto se passou na
avaliação? Terão os peritos sugeridos pelas unidades tomado parte
na discussão que levou à elaboração dos relatórios finais de
consenso que decidem se as unidades passam ou não à segunda
fase?
Na maior
parte, se não na totalidade dos casos, as unidades terão proposto
como árbitro pessoas que não só eram especialistas na área em
causa como conheciam bem o seu trabalho. Alguém da sua comissão de
acompanhamento, por exemplo. Ao participar na discussão com vista à
preparação do relatório de consenso, este investigador teria um
papel fundamental para credibilizar a avaliação e para esclarecer
pontos que fossem menos claros. Seria o garante do controlo de
qualidade do processo. Ao excluí-lo, deixou-se o sistema em cadeia
aberta.
A mudança
das regras no fim do jogo
Como é que
se explicam estas discrepâncias entre as regras descritas no
contrato e no guião de avaliação, o qual, recordamos, era o que
estava em vigor aquando da submissão de candidaturas? E o qual,
recordamos também, foi o que resultou da discussão com as unidades
e que todos assumimos determinar as regras a ser seguidas aquando das
candidaturas?
A resposta é
muito simples: a 29 de abril de 2014, ou seja, já depois dos
painéis estarem a desenvolver o seu trabalho, e apenas um dia antes
de terminar o prazo para a comunicação dos textos dos árbitros
remotos ao painel (Contrato, página 8 do Anexo A), a FCT publicou
aquilo que chamou de Additional Information
(?) e onde partes do
processo de avaliação e, em particular, a
referência ao número máximo de relatórios remotos foi
suprimida e a descrição da elaboração
dos relatórios de consenso foi re-escrita!
Deixou
de haver qualquer menção aos
cinco árbitros,
sendo o texto agora o seguinte (página
3):
“Two external referees (subject-specific review)
For each application, two external referees will be identified
and appointed by the European Science Foundation; one of these may be
suggested by the research unit itself (when absence of conflicts of
interest and appropriate expertise have been acknowledged). These
experts should complement each other and hold detailed expertise that
allows thoroughly considering the science put forward in the
application. They should also have some experience in management of
science teams/units. The external referees will provide their
assessment online and will not participate to any face-toface
meeting.”
É
verdade que dois árbitros satisfazem a condição de serem menos do
que quatro,
e isto assumindo que os
cinco já incluiam à partida um dos relatórios elaborado por um
elemento do painel. Mas
no mínimo poder-se-ia classificar o que estava no contrato e no
guião como uma espécie de
publicidade enganosa – uma agência de financiamento pública não
se pode dar a esse luxo.
E
o que sucede com os
chamados relatórios de consenso? Ficam reduzidos a uma discussão
presencial de membros do painel, para depois o chamado lead
rapporteur poder
elaborar o relatório de consenso:
“The Review panels will meet physically, discuss each application
and reach consensus […]. After the discussion, the lead rapporteur
will produce the final consensus report.”
Desapareceu
toda e qualquer menção à participação do árbitro indicado pela
unidade, mesmo que remotamente, na discussão que levaria à
elaboração do relatório de consenso, o qual por sua vez e como já
sabemos, determina ou não o afastamento da segunda fase.
Ao ter
alterado as regras do jogo depois da fase das candidaturas, depois da
elaboração dos relatórios, depois da assinatura do contrato de
prestação de serviços, o tandem ESF/FCT não só quebrou de forma
inaceitável tudo o que é expectável num processo desta natureza,
como, na prática, retirou ao processo a possibilidade de auto-correcção antes da publicação dos resultados e de produzir uma
avaliação minimamente estável.
Só que essa
avaliação não seria nunca compatível com o resultado que a actual
direcção da FCT pretendia obter: que 50% das unidades a concurso
deviam ser eliminadas. Tudo o que se seguiu é consequência dessa
ideia fixa que pretende que é possível dividir os investigadores de
um país num grupo superior e noutro que é, pura e simplesmente,
mediocre, com a agravante (se fosse preciso), de pressupor ainda que
os primeiros e os segundos estão em unidades de investigação
distintas.
A solução
Pensamos que
a resposta a dar à Professora Maria de Sousa passa pela reformulação
da pergunta. A surpresa é como é que a ESF permitiu à FCT a
alteração das regras, em plena avaliação, com os painéis já a
trabalhar e a cerca de dois meses da publicação dos resultados da
primeira fase. E como é que os painéis aceitaram participar nesta
farsa, embora se deva dizer que, provavelmente, a maioria dos membros
dos painéis não tem uma visão global do processo.
As grandes
diferenças entre classificações, por exemplo, são apenas um
sintoma. Se tivesse havido um máximo de 5 relatórios como previsto
à partida, poderia ter havido conjuntos de classificações com
variações com a mesma amplitude que tivemos, sem que isso causasse
grande espanto – sim, o número de relatórios era até 5, mas o
deixar aberto poder ir até esse número era precisamente para evitar
ter de resolver situações como uma sequência 19-17-11 de forma ad
hoc. Se o objectivo fosse fazer uma avaliação competente,
pedia-se mais dois relatórios nos casos mais complicados. A questão
a levantar aqui não será tanto como é que é possível haver uma
discrepância tão grande, mas sim saber onde é que estão as outras
duas notas.
Um grupo de
classificações como 19-17-11-18-16 já não causaria muito espanto,
apesar de a variação entre as notas mais alta e mais baixa ser a
mesma. Dever-se-ia, obviamente, ver o que o árbitro que tinha dado
11 tinha a apontar de tão negativo, mas apareceria logo à partida
como um outlier. As suas razões poderiam ser tidas em conta para não
dar uma média (arredondada) de 18 (as das restantes quatro notas),
mas também não devia ser considerado para dar uma média final de
16, o que sucederia se se considerassem em pé de igualdades as cinco
notas – para já não falar em dar uma classificação de 14.
Obviamente que nada disto se aplica se as classificações forem
apenas 19-17-11, por exemplo, em que podemos ficar na dúvida. Com a
agravante que já sabemos que aquele último 11 é artificial.
Ao fixar
quotas, a FCT alterou o propósito de todo o processo. Em vez de uma
avaliação independente para determinar quais as unidades
competitivas, o objectivo principal de cada painel passou, a partir
de certa altura, a ser como determinar os 50% de centros a eliminar.
E esse objectivo era incompatível com as regras fixadas
inicialmente, pelo que estas tiveram de ser alteradas.