segunda-feira, 21 de julho de 2014

A já-não-tão-misteriosa avaliação da FCT

Texto de análise da avaliação da FCT recebido de investigador português no estrangeiro, na sequência de outro anterior, que nos pediu para manter o aninimato.

1. A experiência quotaminada

No post anterior mostrámos a existência de quotas na avaliação das unidades de investigação em curso. Mais precisamente, que a direcção da FCT decidiu, a priori, que esta avaliação serviria para eliminar cerca de 50% dos centros, independentemente da qualidade que a avaliação viesse a demonstrar existir. Este facto, conhecido por vários investigadores mas inicialmente negado pela FCT, era possível de deduzir da (pouca) informação disponível e foi agora confirmado pelo contrato estabelecido entre a FCT e a ESF.

A direcção da FCT afirma que se tratava apenas de uma estimativa baseada nos resultados de 2007, o que quer dizer que não admite que em 6-7 anos tivesse havido melhorias globais substanciais no sistema, para já não falar nas alterações resultantes das junções e separações de unidades, etc. O resultado prático foi que a ESF seguiu à risca essas instruções. No entanto, a FCT afirma que o exercício está a decorrer normalmente, não achando estranho que, na hipótese remota de não ter havido uma melhoria global no sistema, o número de trocas de classificação entre unidades tenha sido precisamente aquele que garantiu que a percentagem se mantivesse. Uma espécie de lei de conservação que actuou para garantir que a percentagem de centros com Muito Bom ou mais ficou na mesma. E com a agravante que é ainda necessário adicionar a isto uma alteração na escala de classificações. Ou seja, a opção que a FCT tomou é completamente desprovida de sentido.

Além disso, para a ESF garantir a selecção de um número de centros pré-definido, complementou a restrição da FCT com a sua imposição área a área, pois caso contrário teria em mãos uma guerra entre painéis com consequências imprevisíveis. Talvez por isso, no meio de tantos dados apresentados não foram divulgados os números que seriam dos mais naturais, ou seja, a percentagem de centros que passaram à segunda fase em cada painel. Afinal de contas, estes dados deveriam dar um panorama da tal excelência por área (71% na área A, 47% na área B, etc.). O problema é que em vez disso apresentariam uma distribuição quase uniforme nos 50% e, nalguns casos, mesmo dentro de cada uma das áreas que compunham o painel. Isto porque os painéis, precisamente para evitar uma comparação entre unidades de áreas diferentes, que sabem ser um processo praticamente impossível, fizeram um acordo à partida em que cada um também utilizaria a quota de 50%. O baralhar da informação para que só se pudesse chegar lá por estimativas não nos deixa grande margem para interpretações sobre o que se está a passar.

A questão fundamental é que era impossível saber à partida que o número mágico de 50% se aplicaria a todas as 6 grandes áreas mais uma multidisciplinar em que a ESF dividiu a avaliação – o painel multidisciplinar, composto por membros dos outros paineis, pode ter também servido para resolver alguns problemas delicados dentro de cada um dos outros painéis. De facto, não só era impossível saber que seriam 50%, como era impossível que assim fosse. A escolha a priori de uma percentagem mostra uma total ausência de espírito científico, de alguém que quer influenciar a experiência com base em ideias pré-concebidas ou, pior, que quer manipular a realização da experiência com vista à obtenção de um dado resultado.

É preciso que fique bem claro que este número de 50% é a chave de tudo o que se passou, e inquinou todo o exercício de avaliação mesmo antes do seu início. Pensamos que qualquer cientista concluiria rapidamente que a experiência se encontrava contaminada, admitiria o erro, mandava esterilizar o laboratório e começava de novo. Explica também muitas das incongruências entre as notas dos avaliadores, os comentários surrealistas, e todas as outras curiosidades que têm vindo à superfície nas últimas semanas. Em relação aos comentários, é bem possível que alguns dos mais idiotas ou ofensivos tenham sido feitos ou por avaliadores que a partir de certa altura se cansaram de ter de justificar o injustificável, ou propositadamente por avaliadores que se encontraram numa situação que não esperavam e com a qual não concordavam, para minar uma avaliação com regras que teimosamente as duas instituições insistiram em impor. Por um lado, e embora a comunidade científica internacional possa ter (e tem), muitos defeitos, tem também uma coisa que os une: o desrespeito e a rejeição por avaliações como esta, que de científico tem muito pouco.

Acresce ainda um ponto. Uma coisa é encomendar uma avaliação por pares em que os painéis são formados por cientistas residentes no estrangeiro. Isso não só é perfeitamente natural num país com a dimensão de Portugal como é fundamental – e foi sempre o caso nas anteriores avaliações da FCT. Outra coisa é indicar que há quotas, o que imediatamente nos transforma num país menor do ponto de vista científico e nos fez perder o respeito de pelo menos uma parte dos membros do painel. Por outras palavras, ao tomar esta opção, a FCT fez também um péssimo serviço à imagem externa do país.

2. Outras falhas na avaliação: os pares e a robustez

A ciência portuguesa está numa fase em que pode ser, de facto, importante separar o trigo do joio. Mas para além de haver (ainda mais) um erro fundamental na abordagem escolhida – o trigo e o joio não estão concentrados em separado em unidades diferentes, mas coexistem em cada unidade, por muito boa que esta seja – uma avaliação com esse fim tem de ser feita de forma independente, por pares, e ser extremamente robusta. A existência de quotas por painel mostra que ela não é independente e que uma parte dos resultados estava determinada à partida. Repetimos que isto por si só deveria ser suficiente para terminar o processo imediatamente. Mas para o caso de restarem algumas dúvidas, vamos agora ver que não podemos considerar que a avaliação tenha sido feita por pares nem que seja robusta.

Ao adoptar um sistema de três árbitros anónimos a ESF está a efectuar uma abordagem semelhante à utilizada por uma revista para a aceitação ou rejeição de artigos, em que o editor, com base nos relatórios, toma a decisão final. Em muitas áreas, e tal como foi o caso aqui, as revistas permitem um sistema de rebuttal. Só que enquanto no caso de um artigo rejeitado este pode ser revisto e re-submetido a outra revista, aqui estamos perante efeitos a longo prazo para a ciência de todo um país. Só isso seria suficiente para se pensar duas vezes se um sistema deste tipo é razoável para o fim proposto. Mas, para além disso, será que os árbitros remotos tiveram um verdadeiro papel no processo? De acordo com a FCT e a ESF, estes peritos têm um papel fundamental na avaliação, colmatando as lacunas que os painéis possam ter dentro das diferentes áreas.

Num rasgo de transparência pouco usual em tudo isto, a FCT indicou no guia de avaliação que um dos árbitros seria do painel. Mais precisamente, que haveria um relator secundário que produziria um relatório em paralelo com os outros dois árbitros remotos. Uma vez que mesmo assim a ESF é uma instituição bastante mais transparente que a actual FCT, os códigos numéricos dos três árbitros foram divulgados a cada centro e parecem indicar que os 8xxxx ou 9xxxx dizem respeito aos árbitros externos e os 1xxx ou 2xxx aos internos, do painel.

Estes dados, combinados com o facto de a ESF ter anunciado orgulhosamente que utilizou 659 peritos internacionais de 46 países na avaliação deviam ser suficientes para nos alertar que algo não está bem. É que só foram avaliadas 322 unidades, o que quer dizer que, depois de excluirmos os 73 membros dos painéis, com grande probabilidade,  não houve um mesmo árbitro a ter conhecimento de duas unidades, quanto mais do panorama geral – aliás, a ESF também refere isso na sua página. E que todas notas iguais que foram dadas nessas condições podem, afinal, ter significados diferentes e vice-versa. Mas como veremos a situação é orwelliana e umas notas são mais iguais que outras.

No caso de uma revista, os árbitros têm uma noção clara do nível esperado dos artigos que são publicados nessa revista e harmonizam a sua avaliação com essa expectativa. Por muito relevante que seja, é pouco provável que um artigo muito técnico e específico destinado principalmente a especialistas seja aceite numa revista generalista, por exemplo. Ou que um artigo que não contém uma contribuição considerada fundamental seja aceite numa revista de topo – mas poderá, por outro lado, ser aceite numa outra revista de grande qualidade dessa mesma área. Também aí diferentes árbitros terão diferentes opiniões e muitas vezes a aceitação ou rejeição, em casos de competição feroz, apresenta um elevado nível de instabilidade dependendo, em particular, dos interesses científicos do editor que toma a decisão (queremos com isto apenas dizer que é natural que um editor tenha uma maior simpatia por assuntos que conhece melhor, nada mais). Enquanto que numa revista isso pode ser aceitável/inevitável, não o é certamente na avaliação em curso. Aqui o que está em jogo é de tal forma importante que não nos podemos dar ao luxo de ter um nível de instabilidade, por muito pequeno que ele seja. Ao escolher árbitros diferentes para praticamente a totalidade das unidades a ESF está a abandonar, a este nível, a garantia que neste tipo de avaliações é normalmente dada por um painel de pares com uma dimensão suficiente para ter uma visão global do que estão a avaliar e que poderão, em caso de dúvida, pedir opiniões externas sobre um dado ponto específico. O que nos faz voltar ao painel, que devia ser responsável pela garantia de estabilidade neste processo, aos árbitros e aos seus códigos.

Seria útil ter a lista global dos códigos dos árbitros e as respectivas classificações que atribuíram a cada centro. Mais uma vez nem a FCT nem a ESF disponibilizam essa informação, pelo que é necessário obtê-la por outros meios, e estará sempre incompleta – quem chegou até aqui, poderá enviar para este blog mais exemplos de que tenha conhecimento. Vejamos alguns casos – para não divulgar explicitamente informação respeitante a cada unidade, estas estão identificadas por letras.

Unidade
Árbitros e respectivas notas
2ª fase
A
9xxxx:  19
9xxxx:  15
1xxx:  11
N
B
8xxxx:  19
8xxxx:  14
2xxx:  10
N
C
9xxxx:  11
9xxxx:  14
1xxx:  15
S
D
9xxxx:  12
9xxxx:  17
2xxx:  20
S
E
9xxxx:  19
9xxxx:  16
1xxx:  11
N
F
9xxxx:  18
9xxxx:  17
2xxx:  11
N
G
9xxxx:  20
9xxxx:  14
1xxx:  10
N
H
9xxxx:  16
9xxxx:  17
2xxx:  11
N
I
9xxxx:  16
9xxxx:  16
2xxx:  11
N

O aspecto que salta aos olhos em primeiro lugar é a variação apresentada para a mesma unidade que, para os casos A,B,D,E,F e G varia entre 7 pontos (F) e 10 pontos (G). Embora não seja aceitável, e seja um reflexo do curioso processo utilizado, esse factor não será provavelmente tão relevante e numa visão global de todas as unidades até pode acontecer que seja negligenciável. O que é muitíssimo mais grave é que, como se pode ver da tabela, em todos estes casos foi o árbitro do painel quem de facto determinou a passagem ou não à segunda fase, ajustando a sua nota de forma necessária para que isso sucedesse. E isto aconteceu tanto em casos onde o centro passou (C,D) como nos casos em que não passou (A,B,E,F,G,H,I).

Uma primeira questão é sobre o que a FCT entende por “em paralelo”. Torna-se difícil acreditar que a terceira nota foi dada sem o conhecimento das outras duas. Mas demos o benefício da dúvida à avaliação neste ponto, ou seja, admitamos que a terceira nota foi atribuída de forma independente. O que se verifica é que o papel dos relatores do painel ao escreverem o relatório final foi apenas o de reforçar o efeito deste terceiro árbitro por forma a impedir ou promover a passagem da unidade de acordo com o que aquele tinha indicado.

Na prática, isto significa que a avaliação que decide o financiamento da ciência em Portugal foi, em cada área científica (por oposição aos 6+1 aglomerados utilizados pela ESF), determinada por duas ou três pessoas – sim, os painéis tinham mais investigadores, mas esta é a hipótese menos má; a alternativa implica que tivemos Engenheiros Químicos a avaliar Engenheiros Civis, Matemáticos a avaliar Químicos, peritos em Saúde Pública a avaliar Biologia Experimental, Historiadores a avaliar Psicólogos, Economistas a avaliar Antropólogos, Ciências do Mar a avaliar Ciências Florestais, ou outra qualquer combinação que a salada de frutas que são os painéis da ESF permite.

Vejamos ainda alguns casos, indicados na tabela seguinte, em que as diferenças entre as notas mais alta e mais baixa foram relativamente grandes, chegando a atingir 11 valores! Mas mais uma vez esse não é o lado pior. O que é curioso aqui é que em todos os casos a nota mais baixa foi dada por um dos árbitros externos (8xxxx ou 9xxxx). Uma vez que todos os centros em causa passaram à segunda fase, a única conclusão possível é que essa nota foi, nestes casos, completamente ignorada.

Unidade
Nota mais baixa
Nota mais alta
Diferença
2ª fase
J
12
18
6
S
K
14
20
6
S
L
12
20
8
S
M
10
20
10
S
N
8
19
11
S

Por muito competentes que sejam na sua especialidade e muita experiência que tenham (que nem sempre é o caso, como se pode ver analisando a lista fornecida pela ESF), não é credível que os resultados produzidos por esses avaliadores sejam estáveis, no sentido em que três outros de subáreas diferentes produzissem necessariamente a mesma avaliação. Principalmente quando nos situamos na zona onde a FCT quis fazer a separação, que é provavelmente aquela onde há mais ruído. Ou seja, está-se a querer meter as unidades em gavetas diferentes com consequências drásticas (passagem ou não à segunda fase) em casos em que a diferença de qualidade entre elas é mínima e claramente não justifica que uma tenha financiamento e a outra não (para todos os efeitos práticos).

Também não é uma avaliação por pares, uma vez que estes dois ou três elementos não podiam cobrir, nem cobriam, todas as subáreas necessárias sobre as quais tomaram decisões. Qualquer revista tem um número de editores bastante superior ao que a ESF utilizou para cada área científica em cada painel, por forma a poder garantir que cobre competentemente tudo aquilo que se propõe publicar. E, como o caso do centro de Estatística da Universidade de Lisboa já mostrou, os membros dos painéis emitiram julgamentos sobre áreas nas quais não são peritos, sobrepondo-se aos dos árbitros remotos os quais, por sua vez, foram escolhidos precisamente na sua qualidade de especialistas.

3. E agora?

A exclusão de uma unidade do sistema público de financiamento do qual faz parte, quer no sentido estrito, quer atribuindo-lhe um financiamento irrisório, só poderá ser feita se for possível garantir, para além de qualquer dúvida razoável, que de facto a unidade não tem condições para produzir o que é esperado dela e com um nível de qualidade elevado. Caso contrário, podem-se estar a cometer erros que terão consequências muito graves. E convém estarmos conscientes que, a ser levada a cabo, uma avaliação destas terá repercussões para lá de 2020.

Em simultâneo com a publicação do contrato da FCT com a ESF confirmando a decisão a priori de eliminar um certo número de centros, tivemos também um desmentido que isso tivesse correspondido a uma influência da FCT na avaliação. Na melhor das hipóteses, conclui-se que a actual direcção da FCT não percebe o alcance e a consequência das suas próprias acções e perdeu toda a credibilidade para prosseguir este (ou outro qualquer) exercício de avaliação – aliás, vários dos problemas existentes aqui já estiveram presentes na avaliação de projectos efectuada em 2012. O facto de na altura não se ter tomado uma posição conjunta faz com que agora nos encontremos nesta situação.

Cabe neste momento à comunidade científica tomar a iniciativa e mostrar que é suficientemente forte para se negar a participar em semelhante processo, exigindo que se comece tudo do zero. Até porque continuamos sem conhecer o modo como a segunda fase se irá desenrolar, sabendo-se apenas que as unidades apuradas passaram a fazer parte de uma shortlist para uma avaliação que será coordenada e implementada pela FCT, com o apoio da ESF. Porque é que um processo que até ao momento não deu provas nenhumas de poder cumprir os seus objectivos irá de repente transformar-se e ser independente, por pares (no verdadeiro sentido da expressão) e robusto?  Pelo que é possível descortinar, continuaremos, por exemplo, sem painéis que contenham um número mínimo de elementos que garanta a estabilidade do processo, já que cada visita contará com os dois relatores do painel para esse centro e dois outros peritos escolhidos pela FCT.

Enquanto não se admitir que é necessária a utilização de painéis dedicados a cada uma das áreas científicas que compõem o sistema científico nacional, os quais têm de ter um número de especialistas que permita uma cobertura razoável das sub-áreas existentes, não será possível fazer uma avaliação credível e de acordo com os melhores padrões internacionais.

Investigador identificado pelo blogue


6 comentários:

Anónimo disse...

Não saímos do mesmo. No final - espera-se - cerca de metade das unidades de investigação vão ter uma classificação de "muito bom" ou mais. Não diminui relativamente à última avaliação, panorama muitíssimo diferente das bolsas e projectos, onde a taxa de aprovação caiu a pique (e, no entanto, não teve tanto alarido). Por outro lado, será que muito mais de metade dos centros em Portugal são de nível "muito bom" ou mais? Será que é melhor ter uma avaliação onde, por vezes, os avaliadores eram consultores de alguns centros ou pelo menos bem conhecidos dos investigadores dos centros avaliados? Será que em Portugal, actualmente, faz sentido ter mais de três centenas de centros de investigação? Há realmente massa crítica para tantos centros ou alguns centros são apenas o resultado de regionalismos (a física de Coimbra versus a física de Lisboa, por exemplo, com todo o ridículo que lhe está inerente) ou de divergências pessoais? E qual é a vossa proposta? Anular todo o concurso, e tudo fique como está, ou querem apenas que a FCT suba em alta as avaliações de alguns centros (escolhidos a dedo)?

Teresa Marques disse...

Parabéns pelo artigo. Agora igual, mas em inglês :-)

Anónimo disse...

Muito bom o artigo. De facto este processo de "avaliação" não tem ponta por onde se pegue e mostra bem o amadorismo gritante por parte da actual direcção da FCT no que se trata de elaborar concursos públicos.

Anónimo disse...

artigo muito bom. Fica claro em todo este processo que a ESF foi contratada para legitimar uma decisão política... fui ver os reviwers ID da unidade de investigação que pertenço e confirma-se 9xxxx 20; 9xxxx 17; 2xxx 11 não passou à segunda fase

Anónimo disse...

Excelente artigo. Apesar de concordar com o conteúdo, gostaria de notar que muitos Centros têm um número considerável de membros que não fazem nada que mereça financiamento (recomendo a propósito o prefácio do pequeno livro do Jorge Buescu, desconcertante mas verdadeiro). É que nos esquecemos frequentemente que não são os Centros que importam mas sobretudo os (bons) investigadores (sendo mais claro: não são nunca os Centros que são bons ou maus, mas apenas os investigadores). Não tenho a solução para o problema mas não se resolve muito anulando esta avaliação: muitos Centros com muitos investigadores bons continuarão com muitos investigadores maus.

Anónimo disse...

Do texto: "o trigo e o joio não estão concentrados em separado em unidades diferentes, mas coexistem em cada unidade, por muito boa que esta seja".

Sabemos isso, mas não é certamente nesta avaliação que esse problema vai ser resolvido: uma vez que a FCT deixou passar casos desses na mesma - há centros que submeteram propostas com investigadores nessas condições, e o mais que o painel fez nalguns casos foi dizer que havia coisas que não batiam certo com a bibliometria, tendo depois arranjado uma desculpa (esfarrapada) para explicar isso.

Há maneiras simples de dar a volta a esse problema, e falaremos desse assunto quando começarmos a ver a luz ao fim do túnel, ou seja, quando tivermos a certeza da anulação desta avaliação.

O BRASIL JUNTA-SE AOS PAÍSES QUE PROÍBEM OU RESTRINGEM OS TELEMÓVEIS NA SALA DE AULA E NA ESCOLA

A notícia é da Agência Lusa. Encontrei-a no jornal Expresso (ver aqui ). É, felizmente, quase igual a outras que temos registado no De Rerum...