Texto de análise da avaliação da FCT recebido de investigador português no estrangeiro, na sequência de outro anterior, que nos pediu para manter o aninimato.
1. A experiência quotaminada
No post anterior
mostrámos a existência de quotas na avaliação das unidades de investigação em
curso. Mais precisamente, que a direcção da FCT decidiu, a priori, que esta
avaliação serviria para eliminar cerca de 50% dos centros, independentemente da
qualidade que a avaliação viesse a demonstrar existir. Este facto, conhecido
por vários investigadores mas inicialmente negado pela FCT, era possível de
deduzir da (pouca) informação disponível e foi agora confirmado pelo contrato
estabelecido entre a FCT e a ESF.
A direcção da FCT afirma que se
tratava apenas de uma estimativa baseada nos resultados de 2007, o que quer dizer
que não admite que em 6-7 anos tivesse havido melhorias globais substanciais no
sistema, para já não falar nas alterações resultantes das junções e separações
de unidades, etc. O resultado prático foi que a ESF seguiu à risca essas
instruções. No entanto, a FCT afirma que o exercício está a decorrer
normalmente, não achando estranho que, na hipótese remota de não ter havido uma
melhoria global no sistema, o número de trocas de classificação entre unidades
tenha sido precisamente aquele que garantiu que a percentagem se mantivesse.
Uma espécie de lei de conservação que actuou para garantir que a percentagem de
centros com Muito Bom ou mais ficou na mesma. E com a agravante que é ainda
necessário adicionar a isto uma alteração na escala de classificações. Ou seja,
a opção que a FCT tomou é completamente desprovida de sentido.
Além disso, para a ESF garantir a
selecção de um número de centros pré-definido, complementou a restrição da FCT
com a sua imposição área a área, pois caso contrário teria em mãos uma guerra
entre painéis com consequências imprevisíveis. Talvez por isso, no meio de
tantos dados apresentados não foram divulgados os números que seriam dos mais
naturais, ou seja, a percentagem de centros que passaram à segunda fase em cada
painel. Afinal de contas, estes dados deveriam dar um panorama da tal
excelência por área (71% na área A, 47% na área B, etc.). O problema é que em
vez disso apresentariam uma distribuição quase uniforme nos 50% e, nalguns
casos, mesmo dentro de cada uma das áreas que compunham o painel. Isto porque
os painéis, precisamente para evitar uma comparação entre unidades de áreas
diferentes, que sabem ser um processo praticamente impossível, fizeram um
acordo à partida em que cada um também utilizaria a quota de 50%. O baralhar da
informação para que só se pudesse chegar lá por estimativas não nos deixa
grande margem para interpretações sobre o que se está a passar.
A questão fundamental é que era
impossível saber à partida que o número mágico de 50% se aplicaria a todas as 6
grandes áreas mais uma multidisciplinar em que a ESF dividiu a avaliação – o
painel multidisciplinar, composto por membros dos outros paineis, pode ter
também servido para resolver alguns problemas delicados dentro de cada um dos
outros painéis. De facto, não só era impossível saber que seriam 50%, como era
impossível que assim fosse. A escolha a priori de uma percentagem mostra uma
total ausência de espírito científico, de alguém que quer influenciar a
experiência com base em ideias pré-concebidas ou, pior, que quer manipular a
realização da experiência com vista à obtenção de um dado resultado.
É preciso que fique bem claro que
este número de 50% é a chave de tudo o que se passou, e inquinou todo o
exercício de avaliação mesmo antes do seu início. Pensamos que qualquer
cientista concluiria rapidamente que a experiência se encontrava contaminada,
admitiria o erro, mandava esterilizar o laboratório e começava de novo. Explica
também muitas das incongruências entre as notas dos avaliadores, os comentários
surrealistas, e todas as outras curiosidades que têm vindo à superfície nas
últimas semanas. Em relação aos comentários, é bem possível que alguns dos mais
idiotas ou ofensivos tenham sido feitos ou por avaliadores que a partir de
certa altura se cansaram de ter de justificar o injustificável, ou
propositadamente por avaliadores que se encontraram numa situação que não
esperavam e com a qual não concordavam, para minar uma avaliação com regras que
teimosamente as duas instituições insistiram em impor. Por um lado, e embora a
comunidade científica internacional possa ter (e tem), muitos defeitos, tem
também uma coisa que os une: o desrespeito e a rejeição por avaliações como
esta, que de científico tem muito pouco.
Acresce ainda um ponto. Uma coisa
é encomendar uma avaliação por pares em que os painéis são formados por
cientistas residentes no estrangeiro. Isso não só é perfeitamente natural num
país com a dimensão de Portugal como é fundamental – e foi sempre o caso nas
anteriores avaliações da FCT. Outra coisa é indicar que há quotas, o que
imediatamente nos transforma num país menor do ponto de vista científico e nos
fez perder o respeito de pelo menos uma parte dos membros do painel. Por outras
palavras, ao tomar esta opção, a FCT fez também um péssimo serviço à imagem
externa do país.
2. Outras falhas na avaliação:
os pares e a robustez
A ciência portuguesa está numa
fase em que pode ser, de facto, importante separar o trigo do joio. Mas para além de haver (ainda
mais) um erro fundamental na abordagem escolhida – o trigo e o joio não estão
concentrados em separado em unidades diferentes, mas coexistem em cada unidade,
por muito boa que esta seja – uma avaliação com esse fim tem de ser feita de
forma independente, por pares, e ser extremamente robusta. A existência de
quotas por painel mostra que ela não é independente e que uma parte dos
resultados estava determinada à partida. Repetimos que isto por si só deveria
ser suficiente para terminar o processo imediatamente. Mas para o caso de
restarem algumas dúvidas, vamos agora ver que não podemos considerar que a
avaliação tenha sido feita por pares nem que seja robusta.
Ao adoptar um sistema de três
árbitros anónimos a ESF está a efectuar uma abordagem semelhante à utilizada
por uma revista para a aceitação ou rejeição de artigos, em que o editor, com
base nos relatórios, toma a decisão final. Em muitas áreas, e tal como foi o
caso aqui, as revistas permitem um sistema de rebuttal. Só que enquanto no caso
de um artigo rejeitado este pode ser revisto e re-submetido a outra revista,
aqui estamos perante efeitos a longo prazo para a ciência de todo um país. Só
isso seria suficiente para se pensar duas vezes se um sistema deste tipo é
razoável para o fim proposto. Mas, para além disso, será que os árbitros
remotos tiveram um verdadeiro papel no processo? De acordo com a FCT e a ESF,
estes peritos têm um papel fundamental na avaliação, colmatando as lacunas que
os painéis possam ter dentro das diferentes áreas.
Num rasgo de transparência pouco
usual em tudo isto, a FCT indicou no guia de avaliação que um dos árbitros
seria do painel. Mais precisamente, que haveria um relator secundário que
produziria um relatório em paralelo com os outros dois árbitros remotos. Uma
vez que mesmo assim a ESF é uma instituição bastante mais transparente que a
actual FCT, os códigos numéricos dos três árbitros foram divulgados a cada
centro e parecem indicar que os 8xxxx ou 9xxxx dizem respeito aos árbitros
externos e os 1xxx ou 2xxx aos internos, do painel.
Estes dados, combinados com o facto
de a ESF ter anunciado orgulhosamente que utilizou 659 peritos internacionais de
46 países na avaliação deviam ser suficientes para nos alertar que algo não
está bem. É que só foram avaliadas 322 unidades, o que quer dizer que, depois
de excluirmos os 73 membros dos painéis, com grande probabilidade, não houve um mesmo árbitro a ter conhecimento
de duas unidades, quanto mais do panorama geral – aliás, a ESF também refere
isso na sua página. E que todas notas iguais que foram dadas nessas condições
podem, afinal, ter significados diferentes e vice-versa. Mas como veremos a
situação é orwelliana e umas notas são mais iguais que outras.
No caso de uma revista, os
árbitros têm uma noção clara do nível esperado dos artigos que são publicados
nessa revista e harmonizam a sua avaliação com essa expectativa. Por muito
relevante que seja, é pouco provável que um artigo muito técnico e específico
destinado principalmente a especialistas seja aceite numa revista generalista,
por exemplo. Ou que um artigo que não contém uma contribuição considerada
fundamental seja aceite numa revista de topo – mas poderá, por outro lado, ser
aceite numa outra revista de grande qualidade dessa mesma área. Também aí
diferentes árbitros terão diferentes opiniões e muitas vezes a aceitação ou
rejeição, em casos de competição feroz, apresenta um elevado nível de
instabilidade dependendo, em particular, dos interesses científicos do editor
que toma a decisão (queremos com isto apenas dizer que é natural que um editor
tenha uma maior simpatia por assuntos que conhece melhor, nada mais). Enquanto
que numa revista isso pode ser aceitável/inevitável, não o é certamente na
avaliação em curso. Aqui o que está em jogo é de tal forma importante que não
nos podemos dar ao luxo de ter um nível de instabilidade, por muito pequeno que
ele seja. Ao escolher árbitros diferentes para praticamente a totalidade das
unidades a ESF está a abandonar, a este nível, a garantia que neste tipo de
avaliações é normalmente dada por um painel de pares com uma dimensão
suficiente para ter uma visão global do que estão a avaliar e que poderão, em
caso de dúvida, pedir opiniões externas sobre um dado ponto específico. O que
nos faz voltar ao painel, que devia ser responsável pela garantia de
estabilidade neste processo, aos árbitros e aos seus códigos.
Seria útil ter a lista global dos
códigos dos árbitros e as respectivas classificações que atribuíram a cada
centro. Mais uma vez nem a FCT nem a ESF disponibilizam essa informação, pelo
que é necessário obtê-la por outros meios, e estará sempre incompleta – quem
chegou até aqui, poderá enviar para este blog mais exemplos de que tenha
conhecimento. Vejamos alguns casos – para não divulgar explicitamente
informação respeitante a cada unidade, estas estão identificadas por letras.
Unidade
|
Árbitros e
respectivas notas
|
2ª fase
|
||
A
|
9xxxx: 19
|
9xxxx: 15
|
1xxx: 11
|
N
|
B
|
8xxxx: 19
|
8xxxx: 14
|
2xxx: 10
|
N
|
C
|
9xxxx: 11
|
9xxxx: 14
|
1xxx: 15
|
S
|
D
|
9xxxx: 12
|
9xxxx: 17
|
2xxx: 20
|
S
|
E
|
9xxxx: 19
|
9xxxx: 16
|
1xxx: 11
|
N
|
F
|
9xxxx: 18
|
9xxxx: 17
|
2xxx: 11
|
N
|
G
|
9xxxx: 20
|
9xxxx: 14
|
1xxx: 10
|
N
|
H
|
9xxxx: 16
|
9xxxx: 17
|
2xxx: 11
|
N
|
I
|
9xxxx: 16
|
9xxxx: 16
|
2xxx: 11
|
N
|
O aspecto que salta aos olhos em
primeiro lugar é a variação apresentada para a mesma unidade que, para os casos
A,B,D,E,F e G varia entre 7 pontos (F) e 10 pontos (G). Embora não seja
aceitável, e seja um reflexo do curioso processo utilizado, esse factor não
será provavelmente tão relevante e numa visão global de todas as unidades até
pode acontecer que seja negligenciável. O que é muitíssimo mais grave é que,
como se pode ver da tabela, em todos estes casos foi o árbitro do painel quem
de facto determinou a passagem ou não à segunda fase, ajustando a sua nota de
forma necessária para que isso sucedesse. E isto aconteceu tanto em casos onde
o centro passou (C,D) como nos casos em que não passou (A,B,E,F,G,H,I).
Uma primeira questão é sobre o que
a FCT entende por “em paralelo”. Torna-se difícil acreditar que a terceira nota
foi dada sem o conhecimento das outras duas. Mas demos o benefício da dúvida à
avaliação neste ponto, ou seja, admitamos que a terceira nota foi atribuída de
forma independente. O que se verifica é que o papel dos relatores do painel ao
escreverem o relatório final foi apenas o de reforçar o efeito deste terceiro
árbitro por forma a impedir ou promover a passagem da unidade de acordo com o
que aquele tinha indicado.
Na prática, isto significa que a
avaliação que decide o financiamento da ciência em Portugal foi, em cada área
científica (por oposição aos 6+1 aglomerados utilizados pela ESF), determinada
por duas ou três pessoas – sim, os painéis tinham mais investigadores, mas esta
é a hipótese menos má; a alternativa implica que tivemos Engenheiros Químicos a
avaliar Engenheiros Civis, Matemáticos a avaliar Químicos, peritos em Saúde
Pública a avaliar Biologia Experimental, Historiadores a avaliar Psicólogos,
Economistas a avaliar Antropólogos, Ciências do Mar a avaliar Ciências Florestais,
ou outra qualquer combinação que a salada de frutas que são os painéis da ESF
permite.
Vejamos ainda alguns casos,
indicados na tabela seguinte, em que as diferenças entre as notas mais alta e
mais baixa foram relativamente grandes, chegando a atingir 11 valores! Mas mais
uma vez esse não é o lado pior. O que é curioso aqui é que em todos os casos a
nota mais baixa foi dada por um dos árbitros externos (8xxxx ou 9xxxx). Uma vez
que todos os centros em causa passaram à segunda fase, a única conclusão possível
é que essa nota foi, nestes casos, completamente ignorada.
Unidade
|
Nota mais
baixa
|
Nota mais
alta
|
Diferença
|
2ª fase
|
J
|
12
|
18
|
6
|
S
|
K
|
14
|
20
|
6
|
S
|
L
|
12
|
20
|
8
|
S
|
M
|
10
|
20
|
10
|
S
|
N
|
8
|
19
|
11
|
S
|
Por muito competentes que sejam na
sua especialidade e muita experiência que tenham (que nem sempre é o caso, como
se pode ver analisando a lista fornecida pela ESF), não é credível que os
resultados produzidos por esses avaliadores sejam estáveis, no sentido em que
três outros de subáreas diferentes produzissem necessariamente a mesma
avaliação. Principalmente quando nos situamos na zona onde a FCT quis fazer a
separação, que é provavelmente aquela onde há mais ruído. Ou seja, está-se a
querer meter as unidades em gavetas diferentes com consequências drásticas (passagem
ou não à segunda fase) em casos em que a diferença de qualidade entre elas é
mínima e claramente não justifica que uma tenha financiamento e a outra não
(para todos os efeitos práticos).
Também não é uma avaliação por
pares, uma vez que estes dois ou três elementos não podiam cobrir, nem cobriam,
todas as subáreas necessárias sobre as quais tomaram decisões. Qualquer revista
tem um número de editores bastante superior ao que a ESF utilizou para cada
área científica em cada painel, por forma a poder garantir que cobre
competentemente tudo aquilo que se propõe publicar. E, como o caso do
centro de Estatística da Universidade de Lisboa já mostrou, os membros
dos painéis emitiram julgamentos sobre áreas nas quais não são peritos,
sobrepondo-se aos dos árbitros remotos os quais, por sua vez, foram escolhidos
precisamente na sua qualidade de especialistas.
3. E agora?
A exclusão de uma unidade do
sistema público de financiamento do qual faz parte, quer no sentido estrito,
quer atribuindo-lhe um financiamento irrisório, só poderá ser feita se for
possível garantir, para além de qualquer dúvida razoável, que de facto a
unidade não tem condições para produzir o que é esperado dela e com um nível de
qualidade elevado. Caso contrário, podem-se estar a cometer erros que terão
consequências muito graves. E convém estarmos conscientes que, a ser levada a
cabo, uma avaliação destas terá repercussões para lá de 2020.
Em simultâneo com a publicação do
contrato da FCT com a ESF confirmando a decisão a priori de eliminar um certo
número de centros, tivemos também um desmentido que isso tivesse correspondido
a uma influência da FCT na avaliação. Na melhor das hipóteses, conclui-se que a
actual direcção da FCT não percebe o alcance e a consequência das suas próprias
acções e perdeu toda a credibilidade para prosseguir este (ou outro qualquer)
exercício de avaliação – aliás, vários dos problemas existentes aqui já
estiveram presentes na avaliação de projectos efectuada em 2012. O facto de na
altura não se ter tomado uma posição conjunta faz com que agora nos encontremos
nesta situação.
Cabe neste momento à comunidade
científica tomar a iniciativa e mostrar que é suficientemente forte para se
negar a participar em semelhante processo, exigindo que se comece tudo do zero.
Até porque continuamos sem conhecer o modo como a segunda fase se irá
desenrolar, sabendo-se apenas que as unidades apuradas passaram a fazer parte
de uma shortlist para uma avaliação que será coordenada e implementada pela
FCT, com o apoio da ESF. Porque é que um processo que até ao momento não deu
provas nenhumas de poder cumprir os seus objectivos irá de repente
transformar-se e ser independente, por pares (no verdadeiro sentido da
expressão) e robusto? Pelo que é
possível descortinar, continuaremos, por exemplo, sem painéis que contenham um
número mínimo de elementos que garanta a estabilidade do processo, já que cada
visita contará com os dois relatores do painel para esse centro e dois outros
peritos escolhidos pela FCT.
Enquanto não se admitir que é
necessária a utilização de painéis dedicados a cada uma das áreas científicas
que compõem o sistema científico nacional, os quais têm de ter um número de
especialistas que permita uma cobertura razoável das sub-áreas existentes, não
será possível fazer uma avaliação credível e de acordo com os melhores padrões
internacionais.
Investigador identificado pelo blogue
6 comentários:
Não saímos do mesmo. No final - espera-se - cerca de metade das unidades de investigação vão ter uma classificação de "muito bom" ou mais. Não diminui relativamente à última avaliação, panorama muitíssimo diferente das bolsas e projectos, onde a taxa de aprovação caiu a pique (e, no entanto, não teve tanto alarido). Por outro lado, será que muito mais de metade dos centros em Portugal são de nível "muito bom" ou mais? Será que é melhor ter uma avaliação onde, por vezes, os avaliadores eram consultores de alguns centros ou pelo menos bem conhecidos dos investigadores dos centros avaliados? Será que em Portugal, actualmente, faz sentido ter mais de três centenas de centros de investigação? Há realmente massa crítica para tantos centros ou alguns centros são apenas o resultado de regionalismos (a física de Coimbra versus a física de Lisboa, por exemplo, com todo o ridículo que lhe está inerente) ou de divergências pessoais? E qual é a vossa proposta? Anular todo o concurso, e tudo fique como está, ou querem apenas que a FCT suba em alta as avaliações de alguns centros (escolhidos a dedo)?
Parabéns pelo artigo. Agora igual, mas em inglês :-)
Muito bom o artigo. De facto este processo de "avaliação" não tem ponta por onde se pegue e mostra bem o amadorismo gritante por parte da actual direcção da FCT no que se trata de elaborar concursos públicos.
artigo muito bom. Fica claro em todo este processo que a ESF foi contratada para legitimar uma decisão política... fui ver os reviwers ID da unidade de investigação que pertenço e confirma-se 9xxxx 20; 9xxxx 17; 2xxx 11 não passou à segunda fase
Excelente artigo. Apesar de concordar com o conteúdo, gostaria de notar que muitos Centros têm um número considerável de membros que não fazem nada que mereça financiamento (recomendo a propósito o prefácio do pequeno livro do Jorge Buescu, desconcertante mas verdadeiro). É que nos esquecemos frequentemente que não são os Centros que importam mas sobretudo os (bons) investigadores (sendo mais claro: não são nunca os Centros que são bons ou maus, mas apenas os investigadores). Não tenho a solução para o problema mas não se resolve muito anulando esta avaliação: muitos Centros com muitos investigadores bons continuarão com muitos investigadores maus.
Do texto: "o trigo e o joio não estão concentrados em separado em unidades diferentes, mas coexistem em cada unidade, por muito boa que esta seja".
Sabemos isso, mas não é certamente nesta avaliação que esse problema vai ser resolvido: uma vez que a FCT deixou passar casos desses na mesma - há centros que submeteram propostas com investigadores nessas condições, e o mais que o painel fez nalguns casos foi dizer que havia coisas que não batiam certo com a bibliometria, tendo depois arranjado uma desculpa (esfarrapada) para explicar isso.
Há maneiras simples de dar a volta a esse problema, e falaremos desse assunto quando começarmos a ver a luz ao fim do túnel, ou seja, quando tivermos a certeza da anulação desta avaliação.
Enviar um comentário