De facto, uma política de Gestão de Dados Científicos não pode ser elaborada sem alguns aspetos e critérios a ter em conta.
Primeiramente, surge a questão dos Metadados, que quando são descritivos são essenciais na utilização eficaz dos dados (Inter-university Consortium for Political and Social Research, 2012). Por norma, os metadados são o método de comunicação entre o produtor de dados e o analista secundário. Nesta ordem de ideias, estes devem ser abrangentes o suficiente para fornecer todas as informações relevantes para que a posterior análise seja precisa. Os metadados estruturados, no caso do XML do Data Documentation Initiative (DDI), são ideais para este tipo de política de Gestão de Dados Científicos, na medida em que, o XML presenteia agilidade na sua exibição, é permitida a preservação e acionável por máquina. Alguns exemplos de metadados são o título da coleção, o identificador persistente da coleção (DOI), o resumo da coleção, os autores e a data de publicação dos dados.
Seguidamente, surgem os Direitos de Propriedade Intelectual, que respondem à pergunta “quem detém esses mesmos direitos?”, ou seja, quem criou determinada informação para o projeto em questão, ou se vão ser transferidos dados para uma outra organização para distribuição e o arquivo de dados. Caso exista mais do que um investigador principal ou afiliações, a divisão de responsabilidades pelos dados deve ser igualmente descrita. Aqui também se menciona se serão utilizados dados que estejam protegidos por direitos autorais e, caso seja positivo, como é o que projeto irá obter permissão para utilizar os mesmos e divulgá-los (Inter-university Consortium for Political and Social Research, 2012).
Assim, com a finalidade de disseminar o conhecimento e os resultados de investigações, os arquivos necessitam de uma autorização prévia do produtor de quem é proprietário desses dados. Geralmente, a universidade do investigador principal, que elaborou um artigo ou um projeto de investigação, é considerada detentora dos direitos de propriedade intelectual desses dados. Todavia, alguns arquivos não solicitam a transferência dos direitos, apenas a permissão para preservar e distribuir os dados (Inter-university Consortium for Political and Social Research, 2012).
Relativamente à Ética e Privacidade, é de saber comum que a proteção dos seres humanos é um princípio essencial da pesquisa e uma obrigação ética bastante crucial no que toca a todos os envolvidos nos projetos de pesquisa. Desta forma, a divulgação das identidades quando se promete a privacidade, pode resultar num menor número de taxas de participação e constituir um impacto negativo na Ciência (Inter-university Consortium for Political and Social Research, 2012).
No que diz respeito ao Formato dos Dados, estes têm de ser concretamente especificados, seja para envio, distribuição ou preservação dos dados, e repositórios, que possam estar relacionados. Este aspeto é fundamental, pois o depósito dos dados e da documentação nos formatos de maior preferência para o repositório, possibilita um processamento e uma libertação dos dados mais rápida e eficiente. Os formatos de preservação não devem ser proprietários, nem dependentes da plataforma, visto que assim podem impossibilitar o acesso no futuro (Inter-university Consortium for Political and Social Research, 2012). Por conseguinte, também o tipo de dados está incluído neste aspeto, na medida em que é essencial descrever quais os dados que se espera recolher ou criar, como por exemplo o texto, as imagens, os filmes, o áudio, o software e algoritmos, os modelos, entre outros (Michener, 2015).
Neste contexto, que irá coincidir com o Arquivo e Preservação dos Dados, também é considerado um critério relevante para uma Política de Gestão de Dados Científicos. Deste modo, o principal objetivo é que os dados digitais sejam geridos ativamente ao longo do tempo, para que a garantia de que estão sempre disponíveis e prontos a ser utilizados seja maior. Consequentemente, a preservação da informação digital é a que requer uma atenção mais constante e contínua, visto que o depósito de recursos de dados num repositório digital confiável, permite que estes sejam selecionados e tratados de acordo com as boas práticas da preservação digital (Inter-university Consortium for Political and Social Research, 2012).
Por outro lado, emerge o Armazenamento e o Backup, que inclui o local onde os ficheiros estarão armazenados, bem como as diversas cópias em diferentes locais dos dados digitais, mantendo-os sincronizados, com a finalidade de salvaguardá-los para não correr o risco de os perder. Ainda dentro deste tema, é essencial a Segurança nos dados de pesquisa ao longo do ciclo de vida (recolha, limpeza e edição). Certamente que, os ambientes de trabalho e armazenamento seguros, incluem restrições de acesso, como senhas, criptografia, backup da fonte de alimentação e proteção contra vírus e intrusos (Inter-university Consortium for Political and Social Research, 2012). Ainda neste tema, ressalta-se a necessidade de implementar acessos restritos a determinados dados, pois existe informação que se considera sigilosa e apenas os indivíduos que detenham uma função, cargo ou responsabilidade, devem ter acesso à mesma.
Além de todos os aspetos referidos acima, a Audiência também não deixa de ser crucial numa Política de Gestão de Dados Científicos, na medida em que é imperioso descrever o público para os dados que serão produzidos. Note-se que a audiência pode influenciar o método da gestão e partilha dos dados, exemplificando, quando se fala em dados públicos, já que estes podem ser utilizados fora da comunidade académica (Inter-university Consortium for Political and Social Research, 2012).
Michener (2015) indica que outro critério a aludir é a definição da Organização dos Dados, ou seja, após a definição do tipo de dados a ser recolhidos, assim como o seu volume, é impreterível perceber como estes serão organizados e geridos. Na verdade, em alguns projetos, um pequeno número de tabelas serão geridas através de programas de código aberto, como o Excel e o OpenOffice Calc. Contudo, um maior volume de dados e determinadas restrições de utilização, poderão exigir o uso de sistemas de gestão de base de dados relacional (RDBMS). Com efeito, as ferramentas de software que serão utilizadas no projeto, devem ser descritas nas tarefas previstas. Adicionalmente, de acordo com o artigo “Serviços para suporte à gestão de dados científicos na UMINHO: plano de intervenção dos SDUM”, de Pedro Príncipe e Ricardo Saraiva, um dos aspetos que uma Política de Gestão de Dados Científicos também deve conter é relativo aos Serviços de Suporte à Gestão de Dados. Por esta razão, devem existir serviços de apoio e consultoria na gestão de dados científicos, que incluem planos de gestão de dados para projetos financiados e desenvolvimento de materiais informativos, bem como de guias formativos; serviços de curadoria para o ciclo de vida dos dados científicos, que apoiam os investigadores, seja individualmente ou em grupo, no ciclo de vida dos dados científicos (recolha, análise, armazenamento e publicação), fornecendo serviços de armazenamento, pesquisa e acesso; a promoção da referenciação e citação dos dados científicos, isto é, a promoção de uma correta citação dos dados, esclarecendo as regras a utilizar (Príncipe e Saraiva, 2015).
De acordo com Michener (2015), a Garantia da Qualidade e o Controlo da Qualidade estão intimamente ligados, visto que ambos se referem aos processos de medição, avaliação e melhoria na qualidade dos dados e, por exemplo, do software. Consequentemente, pode ser imperativo seguir determinadas diretrizes de GQ e CQ, conforme a natureza do estudo ou do patrocínio da pesquisa, para que os dados sejam efetivamente transparentes. Neste sentido, é importante que se descreva as medidas de GQ e CQ que se pretende aplicar no projeto, nomeadamente, os testes de calibração e de verificação de instrumentos, as abordagens estatísticas e de visualização para deteção de erros e anomalias no software e até abordagens mais simples de exploração de dados gráficos, como os de dispersão. Posto isto, este critério é elementar numa Política de Gestão de Dados Científicos, pois os dados de alta qualidade são essenciais no que toca ao avanço na Ciência.
Por conseguinte, Michener (2015) alega que é crucial definir as Funções e Responsabilidades numa Política de Gestão de Dados Científicos, pois o anterior abrange tanto as funções, como as responsabilidades de cada indivíduo e da organização que está associada ao projeto. Assim, as funções incluem a recolha de dados, a entrada de dados, o controlo da qualidade, a criação e gestão de metadados, o backup, a preparação e o envio de dados a um arquivo e, por último, a administração de sistemas. Atente-se nos níveis de conhecimento necessários para uma equipa: para projetos mais pequenos ou de médio porte, um aluno pode facilmente assumir o cargo da gestão dos dados. Todavia, projetos de maior grandeza, os diversos investigadores podem tirar benefício ao possuir uma equipa totalmente dedicada à gestão dos dados.
No que diz respeito aos Custos, numa Política de Gestão de Dados Científicos, a criação de dados e da documentação especialmente adequados ao arquivo, terão custos, e preparar um orçamento é importante para garantir que é realmente possível efetuar uma gestão dos dados. Segundo Michener (2015), a anterior carece de algum tempo e detém preços elevados em termos de software, hardware e de pessoal. Assim, rever o plano e verificar se as linhas de orçamento apoiam corretamente os gestores de dados, bem como o pagamento de hardware, software e serviços necessários é imprescindível para obter um feedback de qual será o custo. Por tudo isto, a verificação do repositório ideal onde se irá armazenar e gerir os dados, constitui também um passo crucial nesta política, visto que as taxas e serviços têm de ser orçamentados adequadamente às necessidades dos dados e dos potenciais interessados.
Por último, no que concerne à Reutilização dos Dados, esta abarca mais do que um elemento, como é o caso do Acesso, Divulgação e Partilha de dados. Deste modo, é imprescindível que se designe como será realizado o arquivo e a partilha dos dados, justificando a escolha da opção pretendida. Assim, as opções de escolha passam pelos mecanismos de arquivo e partilha, nomeadamente:
- Auto-divulgação, através de um website criado pela equipa de pesquisa. Se esta for a opção escolhida, é recomendável que o produtor dos dados providencie o arquivo final dos dados, após o período de auto-divulgação terminar, bem como especificar a programação da partilha de dados no pedido de concessão;
- Preservação com disseminação atrasada. Se esta for a opção pretendida, o produtor de dados terá de fazer um acordo com um repositório de dados público, permitindo que, a preservação de arquivos com disseminação da informação, ocorra numa data posterior, geralmente passado um ano;
- Repositórios institucionais. Se esta for a opção que se pretenda escolher, é importante ter em conta que os RI das instituições académicas têm o objetivo primordial de preservar e disponibilizar parte do trabalho académico e científico dos alunos, professores e funcionários, possibilitando também a disseminação de conhecimento (Inter-university Consortium for Political and Social Research, 2012).
Nesta ordem de ideias, reitera-se a importância da partilha de dados, visto que promove a Ciência e maximiza o investimento na pesquisa da informação. Atente-se que, quando os dados são partilhados através de um arquivo, a produtividade da pesquisa aumenta consideravelmente e, muitas vezes, resulta num maior número de publicações, contrariamente aos dados que não são partilhados (Inter-university Consortium for Political and Social Research, 2012).
Referências Bibliográficas:
- Inter-university Consortium for Political and Social Research – Guidelines for Effective Data Management Plans. [Em linha]. Ann Arbor, MI: Institute for Social Research University of Michigan, 2012. [Consult. 17 abril 2020]. Disponível em WWW:<URL: https://www.icpsr.umich.edu/files/datamanagement/DataManagementPlans-All.pdf>.
- MICHENER, William K. – Ten Simple Rules for Creating a Good Data Management Plan [Em linha]. PLOS, 2015. [Consult. 27 fev. 2020]. Disponível em WWW:<URL: https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004525 >.
- PRÍNCIPE, Pedro; SARAIVA, Ricardo – Serviços para suporte à gestão de dados científicos na UMINHO: plano de intervenção dos SDUM. Actas do Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas. [Em linha]. Nº12 (2015). [Consult. 17 abril 2020]. Disponível em WWW:<URL: https://www.bad.pt/publicacoes/index.php/congressosbad/article/view/1362>.
