A articulação por trás da plataforma que reúne dados abertos de pesquisa
Iniciativa foi fundamental no enfrentamento da pandemia de Covid-19
Em dezembro de 2019, foi inaugurada na Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) uma rede de repositórios de dados abertos, unindo seis universidades públicas – de São Paulo (USP), Estadual de Campinas (Unicamp), Estadual Paulista (Unesp), Federal de São Paulo (Unifesp), Federal do ABC (UFABC) e Federal de São Carlos (UFSCar) – além do Instituto Tecnológico de Aeronáutica (ITA) e da Empresa Brasileira de Pesquisa Agropecuária (Embrapa).
A rede foi configurada como uma federação de repositórios independentes unidos por um nó central sediado na USP. Cada participante é autônomo, com políticas de gestão de dados, governança e pessoal próprios. Levou três anos para ser construída, e envolveu mais de 100 pessoas – entre profissionais de TI, bibliotecárias, pesquisadores em bancos de dados e em outras áreas, além de gestores universitários.
Foi construída visando expansibilidade e independência, e sua implementação enfrentou desafios de engenharia de dados, protocolos de comunicação de dados e sustentabilidade (principalmente dentro de cada instituição participante). Cada organização se esforçou para superar obstáculos internos, tornando disponíveis seus metadados para que pudessem ser agregados em um repositório único. Separamos os aspectos internos a cada instituição dos aspectos globais, como rede e comunicação de dados.
Do ponto de vista externo, o nó central é a interface da rede visível publicamente no site do Metabuscador de Dados de Pesquisa. O portal funciona como um agregador de informação, diariamente buscando em cada repositório os metadados dos arquivos de dados de pesquisa respectivos. A comunicação entre cada repositório institucional e o nó central é feita por meio do protocolo OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), em que cada repositório exporta diariamente alguns de seus metadados. O Metabuscador foi implementado para se conectar a sistemas que utilizam três tipos de plataforma de gestão de dados de pesquisa: DSpace, Dataverse ou CKAN.
Internamente, cada instituição criou seu próprio grupo de gestão de dados de pesquisa, composto por profissionais de TI, cientistas da computação, bibliotecários e pesquisadores que trabalham com grandes volumes de dados em várias áreas do conhecimento, como ciências da vida, engenharias, ciências humanas e ciências exatas.
Este grupo está normalmente associado às pro-reitorias de pesquisa ou coordenações de pesquisa das instituições participantes. Além disso, cada instituição estabeleceu uma série de normas e políticas para que seus pesquisadores pudessem publicar conjuntos de dados.
Como cada membro da federação é independente, os repositórios utilizam tipos diferentes de plataformas de gestão de dados de pesquisa e organizam seus dados de forma distinta. Todos, no entanto, são obrigados a seguir um padrão básico de oito atributos de metadados, estabelecido após vários estudos durante o projeto da rede.
A arquitetura federada foi escolhida após estudos de desempenho e por diferenças muito grandes de funcionamento entre as instituições participantes. A federação, além disso, facilmente permite a expansão da rede para novos membros, o que ocorreu em 2020 e 2022.
Graças ao cuidado do projeto e sua construção, qualquer instituição que tenha um repositório próprio de dados de pesquisa abertos sediado no estado de São Paulo pode facilmente aderir à rede, desde que siga certas regras operacionais básicas de funcionamento. A adesão é mediada pela diretoria científica da FAPESP e implementada computacionalmente com apoio da USP.
Um exemplo da característica aberta e extensível da implementação foi a inserção, em junho de 2020, do repositório de dados COVID-19 Data Sharing/BR. Agregando dados de cinco organizações de saúde (Instituto Fleury, Hospital Sírio-Libanês, Hospital Israelita Albert Einstein, Hospital das Clínicas da USP e Beneficência Portuguesa de São Paulo), trata-se de uma iniciativa da FAPESP em colaboração com a USP e as três primeiras instituições.
A rapidez da sua implantação só foi possível porque a rede de repositórios já estava em funcionamento no formato federado aqui descrito. Adicionalmente, em 2022, o Redape (repositório de dados de pesquisa da Embrapa) foi conectado à rede em menos de uma hora.
A construção da rede e sua operacionalização enfrentaram vários desafios computacionais e legais. Agora, o desafio é fazer com que pesquisadores publiquem seus dados abertamente. São várias as barreiras, tanto técnicas quanto culturais. Obediência à Lei Geral de Proteção de Dados (LGPD), aprovação de conselhos de ética locais e nacional, curadoria de dados e metadados, sustentabilidade em termos de hardware, software e recursos humanos são exemplos de questões tratadas pelos grupos gestores locais.
O importante é que, graças ao estabelecimento dessa rede de repositórios, a adesão ao movimento da ciência aberta foi acelerada e ampliada em todas as instituições participantes. Vale ressaltar que, quando a Organização das Nações Unidas para a Educação, a Ciência e a Cultura (Unesco) votou as recomendações para a Ciência Aberta em novembro de 2021, a rede já estava em pleno funcionamento.
Claudia Bauzer Medeiros é doutora em Computer Science pela University of Waterloo, Canadá. É professora titular do Instituto de Computação da Universidade Estadual de Campinas (Unicamp). Atua como membro da Coordenação do programa eScience e Data Science da FAPESP.
*Colaboraram:
Fátima L. S. Nunes – Doutora em Ciências pela Universidade de São Paulo (USP), é professora da Escola de Artes, Ciências e Humanidades (EACH) da USP.
João Eduardo Ferreira – Doutor em Física Computacional pela Universidade de São Paulo (USP), é professor do Departamento de Ciência da Computação do Instituto de Matemática e Estatística (IME) da USP.
Os artigos opinativos não refletem necessariamente a visão do Science Arena e do Einstein.
*
É permitida a republicação das reportagens e artigos em meios digitais de acordo com a licença Creative Commons CC-BY-NC-ND.
O texto não deve ser editado e a autoria deve ser atribuída, incluindo a fonte (Science Arena).