PGDC aplicada ao CEOS.PP

Resumo

                Numa primeira instância, é crucial compreender o que é uma política de gestão de dados científicos. Esta é um documento que descreve a forma como os dados são tratados durante um projeto de investigação e o que acontece com os dados após finalizar a pesquisa (Michener, 2015 cit. por Guandalini, Furnival; Arakaki, 2019).

Este documento orientador estabelece a política a ser seguida e cumprida para a correta gestão dos dados científicos do Instituto Superior de Contabilidade e Administração do Porto (ISCAP), devendo entrar em vigor no início do próximo ano letivo, ou seja, em setembro de 2020.

De facto, as políticas representam um papel fulcral, no que concerne à segurança e organização adequada dos dados científicos. É pertinente a criação de uma política de gestão de dados no ISCAP, para uma melhor gestão dos dados científicos, tanto para os docentes, como para estudantes.

Posteriormente, é imprescindível que se proceda a uma organização responsável e competente, com o intuito de se obter uma correta gestão dos dados no ISCAP. O responsável nesta matéria é o CEOS.PP (Centro de Estudos Organizacionais e Sociais do Politécnico do Porto), fundado em 2017, é constituído por um Conselho Diretivo, um Conselho Científico, e uma Comissão Coordenadora do Conselho Científico. O mesmo tem como principal missão a promoção de atividades de I&D inter e multidisciplinares, a promoção de consultoria altamente especializada, bem como a formação avançada inovadora na área da gestão e tecnologias de sistemas de informação.

Os dados pessoais estão cada vez mais expostos ao mundo exterior e de uma forma muito mais célere.  Por outras palavras, nos dias de hoje, o mundo encontra-se cada vez mais interconectado. Assim, os dados dos utilizadores representam extrema importância para as instituições, detendo um enorme valor.

É claramente evidente que a criação de uma política de dados representa um ponto essencial e importantíssimo, a que todas as instituições deviam atender como uma das primeiras iniciativas/tarefas. Na verdade, uma incorreta gestão dos dados pode ser prejudicial à reputação de qualquer outra instituição, trazendo consequências devastadoras e na maior parte das vezes irrecuperáveis.

De modo a evitar esta situação, segue-se a elaboração de um documento orientador para uma política de Gestão de Dados Científicos, incluindo catorze critérios. Estes foram os critérios que demonstraram ser mais significativos e adequados ao meio em questão.

Os critérios que constam na política de Gestão de Dados Científicos são, mais especificamente, a Audiência e Público-alvo; as Funções e Responsabilidades; a Ética e Privacidade; o Direito de Propriedade Intelectual; o Backup, Armazenamento e Segurança dos Dados; os Custos; os Metadados; o Formato dos Dados; a Organização dos Dados e os Serviços de Suporte à Gestão dos Dados; a Garantia da Qualidade; a Preservação dos Dados e a Reutilização de Dados.

Além disso, todos os critérios estão interligados entre si, como é o caso particular do Backup, o Armazenamento, a Segurança, o Arquivo e a Preservação de dados, os quais se encontram intimamente relacionados.

Critérios orientadores da Política de Gestão de Dados Científicos aplicada ao CEOS.PP

Audiência / Público-Alvo

Em primeiro lugar, cabe sublinhar que a presente política foi criada essencialmente para os docentes e investigadores do Instituto Superior de Contabilidade e Administração do Porto. Por esta razão, é importante referir que os Data Users correspondem a toda a comunidade deste instituto, que pretenda usufruir da investigação realizada pelos estudantes e docentes. Assim, a investigação poderá ter um maior impacto, beneficiando da formação e da inserção profissional dos Data Users. O público-alvo também pode incluir todos os profissionais externos que tenham contribuído para o ISCAP, especialmente com palestras, eventos e/ou workshops.

Os Data Users com maior interesse neste tipo de dados são aqueles que estão a finalizar as suas licenciaturas, bem como os estudantes de mestrado e de doutoramento.

A política em causa também se destina à comunidade científica externa ao ISCAP, permitindo-se o livre acesso aos dados científicos, onde apenas são aplicadas restrições aos dados sensíveis dos utilizadores e da organização. 

Funções e Responsabilidades

Para assegurar o correto funcionamento de um sistema de gestão de dados científicos, é necessário que haja profissionais com responsabilidades definidas nesta matéria.

Face ao exposto, é oportuno salientar que o CEOS.PP é responsável por toda a área de controlo e gestão dos dados científicos da instituição.

Num primeiro momento, é importante enfatizar que cada indivíduo detém responsabilidades específicas, tais como, compreender os dados e ter atenção para que estes não sejam mal-interpretados e, deste modo, cumprir com as regras estipuladas pela divisão académica do ISCAP. Não menos importante, é o facto de transmitir e comunicar ao CEOS.PP, se porventura algum documento não lhe parecer fiável, ou caso não esteja devidamente indexado, pois pode ocorrer algum erro por parte dos gestores (Araujo, Finamor, 2017).

Segundo Araujo, Finamor (2017), é impreterível averiguar se todas as regras estipuladas estão a ser devidamente cumpridas; ter cuidado para não duplicar os dados; colocar os dados por ordem de relevância, tornando os dados mais importantes facilmente visíveis.

É importante dar destaque aos “Data Stewards” ou administradores dos dados, estes desempenham uma função primordial na gestão do repositório científico, formando uma equipa institucional responsável pela segurança e qualidade dos dados do CEOS.PP e têm como função o controlo dos responsáveis pela custódia dos dados. Os Data Stewards possuem responsabilidades dentro do conjunto de dados, designado para gerir os seus dados, no entanto, estes podem confiar algumas dessas responsabilidades a um responsável pela custódia dos dados (Data management policy, [s.d.]).

Neste sentido, os Data Stewards são responsáveis pelo conjunto de todos os dados e por assegurar que os processos adequados são seguidos, além de estabelecerem ligações com os utilizadores dos dados fornecendo-lhes suporte e orientação. Também aprovam o acesso aos dados, elaboram relatórios mensais à divisão académica para provar que a informação contida na política está a ser respeitada e proporcionam conselhos e suporte às equipas de trabalho (Data management policy, [s.d.]).

Os responsáveis pela custódia dos dados são nomeados por um Data Stewards para ajudar nas atividades de administração de dados, tendo assim responsabilidades específicas para uma ou mais subáreas supervisionadas pelos seus Data Stewards. A esta função são atribuídas responsabilidades como a captura, a disseminação e o armazenamento dos dados pertencentes ao ISCAP.

Desta forma, os responsáveis pela custódia dos dados estão encarregues pela manutenção e proteção dos dados em sua subárea de responsabilidade, onde pode estar incluído o acesso, indicando procedimentos que satisfaçam as necessidades de segurança da informação e a coordenação para assegurar que os dados sejam transmitidos de modo eficiente e seguro entre as diversas áreas. Neste ponto, importa referir que estes têm de enviar o inventário com os dados para os Data Stewards.  Aos responsáveis pela custódia dos dados também lhes compete a recolha e manutenção de dados que é um tópico essencial, onde estes garantem a recolha dos dados de forma completa e apropriada. De facto, relativamente a este ponto a segurança dos dados é fundamental, pois os responsáveis pela custódia dos dados têm como missão assegurar que o acesso dos dados seja monitorizado e que as violações sejam comunicadas de forma adequada. Por último, é necessário dar ênfase à documentação,onde os responsáveis pela custódia dos dados garantem a documentação para os dados sob a sua responsabilidade (Data management policy, [s.d.]).

Por fim, os Data Users apresentam responsabilidades como o desenvolvimento de propostas de projetos que melhorem o uso do conjunto de dados; a colaboração com  o CEOS.PP e os responsáveis pelo fornecimento de dados para obter aprovação dos projetos; a celebração de acordos com o CEOS.PP para garantir a gestão e o uso seguro dos conjuntos de dados; a utilização dos dados apenas para a finalidade pretendida acordada com os Data Stewards; a utilização dos dados a que acedem de forma adequada e a garantia que cumprem com as regras estipuladas nesta politica (Data management policy, [s.d.]).

Ética e Privacidade

É relevante ter em conta os aspetos intrínsecos à ética e privacidade, uma vez que a proteção dos indivíduos é um princípio essencial da investigação científica.

Relativamente à privacidade, que corresponde aos direitos e às obrigações dos indivíduos e organizações, esta engloba a recolha, a reutilização e a divulgação de dados pessoais, ao longo de um ciclo de vida, onde é confiada a responsabilidade e transparência por parte da organização (Macedo, 2015).

Efetivamente, é importante que, quando as pesquisas necessitam de obter dados pessoais e confidenciais, o investigador possua um comportamento rigoroso e ético, que vá de encontro aos padrões recomendados pela organização (Sayão, Sales, 2015).

Por conseguinte, é pertinente referir os quatro princípios chave da ética na investigação a ter em conta no arquivo e partilha de dados.  Segundo Sayão e Sales (2015, p.70), estes são:

  • A confidencialidade com os informantes e participantes;
  • O dever de proteção dos participantes contra eventuais ofensas, sendo importante ter cuidado para não divulgar informações sensíveis, como a raça, a origem étnica, a religião, entre outros;
  • O dever de tratar os investigadores como seres humanos inteligentes e aptos para tomar as suas decisões acerca dos dados por eles produzidos e o modo como a informação deve ser utilizada e partilhada;
  • A necessidade de informar os investigadores acerca da forma como a informação e os dados obtidos serão usados, processados, partilhados e eliminados.

Após abordar os quatro princípios chave da ética na investigação, é essencial deixar claro que os dados de investigação sensíveis e confidenciais, podem ser partilhados eticamente e de forma legal. Para tal, é necessário que os investigadores tenham presentes, a partir do momento que iniciam a pesquisa, os seguintes aspetos: sempre que possível deve se proteger a identidade, através da anonimização dos dados, assim como utilizar mecanismos de controlo de acesso aos dados.

De facto, no que diz respeito aos repositórios, estes exigem que os criadores de dados de investigação garantam que os dados obedecem às exigências de confidencialidade e que não sejam divulgados dados recolhidos com base em assuntos relacionados a seres humanos (Sayão, Sales, 2015).

Por fim, é importante que fique ciente que as obrigações éticas e legais de não divulgação dos dados pessoais, aplicadas aos investigadores primários, têm se ser igualmente aplicadas em quem reutiliza os dados (Sayão, Sales, 2015).

Direitos de Propriedade Intelectual

Na verdade, o direito de propriedade intelectual está estreitamente ligado com o copyright. Este é um direito que é atribuído automaticamente ao autor dos dados. Assim sendo, é importante sublinhar que copyright é um item a ter em consideração na criação, partilha e reutilização dos dados (Sayão, Sales, 2015).

Segundo Sayão, Sales (2015), a aplicação do copyright impossibilita que sejam realizadas cópias de dados de outrem sem autorização prévia do autor dos dados de investigação. Desta forma, quando estes dados são arquivados, os detentores originais dos dados dispõem do direito sobre esses mesmos dados.

Efetivamente, no repositório do CEOS.PP, os dados só podem ser arquivados quando tenham identificada a sua autoria e seja dada autorização para arquivar os mesmos no repositório por parte dos detentores.

Neste sentido, é pertinente referir que o criador dos dados de investigação é sempre o primeiro proprietário do copyright dos dados. Quem reutiliza esses mesmos dados é considerado utilizador secundário e necessita de fazer referência ao autor original antes de partilhar os dados.

Segundo Silva (2016), a forma mais habitual de reutilização de dados, diz respeito aos dados de acesso aberto. Os dados inseridos no repositório desta organização, encontram-se sob uma licença da Open Data Commons, sendo esta uma das licenças mais apropriadas para os dados abertos. A aquisição desta licença possui várias vantagens, já que esta indica o que se pode ou não realizar, proporcionando aos indivíduos os direitos de reutilização dos dados.

Quando os dados não têm qualquer tipo de licença que possibilite a sua reutilização, usufruir desses dados torna-se uma tarefa muito mais complicada para os investigadores (Silva, 2016).

Backup / Armazenamento e Segurança

Num primeiro momento, é fundamental realizar sempre o backup dos dados e garantir que estes sejam facilmente acedidos pelos utilizadores que os procurem. De facto, efetuar backups regularmente, evita que os dados sejam perdidos quer acidentalmente ou intencionalmente. É pertinente referir que são exemplos de perdas acidentais e intencionais a falha de hardware ou software; um ataque através de vírus ou de hackers; uma falha na energia e o erro humano provocando alterações nos ficheiros (Sayão, Sales, 2015).

Atualmente, os dados são de uma grande importância para as atividades de investigação científica. Neste sentido, é fulcral determinar as várias formas de realizar o backup dos dados, visto que estes podem ser efetuados manualmente ou automaticamente. Devido à grande quantidade de informação e dada a sua importância, esta organização efetuará o backup de forma automática, uma vez que será poupado tempo e evitadas falhas humanas. Assim, não é necessário o indivíduo estar a receber lembretes para efetuar o backup, já que o backup dos dados pode ser realizado automaticamente através de um software próprio.

É de referir que o backup dos dados deve ser efetuado semanalmente, no entanto, é importante que este seja realizado a cada nova alteração, de forma a prevenir e evitar perdas. Como por exemplo, se foi realizado o backup dos dados numa segunda-feira e se na quarta-feira forem feitas novas alterações a esses mesmos dados, é aconselhável realizar o backup desses dados no próprio dia.

Posto isto, surge a importância de identificar que tipo de backup usar, sendo que inicialmente deve ser realizado um backup completo, ou seja, efetuar cópias de segurança de todos os dados. De seguida, apenas é necessário realizar backup do que foi acrescentado ou alterado desde a última cópia de segurança efetuada (Sayão, Sales, 2015).

Num segundo momento, os dados necessitam de ser armazenados num local confiável onde possam ser localizados, acedidos, partilhados e reusados (Sayão, Sales, 2015). O local de armazenamento dos dados, deve ser preferencialmente em discos rígidos ou em serviços online, como a cloud ou na Google. Deste modo, o CEOS.PP deve chegar a um acordo, de qual das três opções é a que lhe parece mais fiável e segura.

É essencial explicitar que o armazenamento pode ser realizado a curto ou a longo prazo. Relativamente ao armazenamento a curto prazo, é aconselhável para o backup realizado manualmente e para restaurar ficheiros que tenham sido destruídos. Contrariamente, o armazenamento a longo prazo será indicado para usos futuros e não sofrerá mudanças constantemente.

Deste modo, é fundamental que o repositório do CEOS.PP garanta acesso a longo prazo aos dados digitais, assim como a segurança contínua dos dados depositados (Sayão, 2010). Deve garantir a preservação dos dados digitais e, desta forma, prevenir acessos e alterações não autorizados, bem como a destruição de recursos informacionais (Sayão, Sales, 2015).

A preservação dos dados científicos a longo prazo exige um controlo acerca da informação que é depositada (Sayão, 2010). A divisão académica do ISCAP, responsável pela gestão do repositório, deve partilhar informação com outros gestores de repositórios acerca das soluções por eles adotadas relativamente ao arquivo dos dados científicos.

É crucial que os repositórios estejam em conformidade com as normas, protocolos e diretrizes das melhores práticas do mundo digital.

Para a segurança contínua dos dados, é fundamental que a organização se encontre protegida. Neste caso, deve ter proteção firewall, dado que esta evita perdas inesperadas através dos vírus e códigos maliciosos.

É claro que os computadores e ficheiros requerem uma proteção através de senhas e controlos de acessos, para evitar a entrada, por parte de membros que não tenham sido autorizados a aceder a essas informações.

No que toca aos dados confidenciais, não devem ser armazenados em servidores disponíveis na internet, pois ficamsujeitos a serem acedidos por inimigos. No que se refere aos dados pessoais, também lhes deve ser aplicado um alto nível de segurança. Neste sentido, as informações como nomes e endereços devem ser removidos dos ficheiros e armazenados num local separado (Sayão, Sales, 2015). Relativamente a este aspeto, é fundamental que as informações mais relevantes sejam encriptadas no ato do envio, pois a encriptação mantém a segurança dos dados durante a sua transmissão.

Além disso, é importante referir o modo como serão eliminados os dados, uma vez que, durante um processo de investigação, surgem documentos que já não são necessários e estes têm de ser eliminados e destruídos.

Por último, é importante referir que após o delete de algum documento, este pode ser facilmente recuperado por outrem, já que o delete de ficheiros armazenados em discos rígidos não garante que estes não possam vir a ser recuperados. Com a finalidade de proceder a uma eliminação definitiva, é recomendável a utilização de softwares destinados para a eliminação segura de arquivos (Sayão, Sales, 2015).

Custos

No que concerne a este critério, todos os membros do CEOS.PP têm obrigatoriamente de estar cientes de que a criação de dados científicos acarreta alguns custos.

Neste sentido, é necessário estipular em orçamento de todas as atividades que envolvem a gestão dos dados. Os membros do ISCAP responsáveis pela gestão dos dados (CEOS.PP) devem reunir-se para realizar estimativas acerca de custos e despesas que precisam de ser suportadas relativamente à preparação dos dados, onde está inerente o arquivo e a partilha da documentação.

É oportuno que na análise do orçamento tenham em conta a preparação de documentos de qualidade e a preparação e seleção de material para depósito, uma vez que estas são as atividades que envolvem um maior custo (Sayão, Sales, 2015).

É também necessário ter em consideração os custos relativos aos especialistas contratados para preparar os dados e a documentação, assim como os requisitos de hardware, software e pessoal (Sayão, Sales, 2015).

Após ter um orçamento de todas as atividades envolventes, para obter o valor exato dos custos inerentes a gestão de dados científicos do CEOS.PP, é necessário verificar o subsídio que é atribuído à política.

Metadados

No que concerne aos metadados, estes estão relacionados com as atividades de gestão da preservação de documentos digitais. De facto, os metadados de preservação têm como principal finalidade elucidar e documentar todos os processos de preservação digital de longo prazo, para que os dados possam ser visualizados e reutilizados no futuro (Sayão, 2010).

No que tange ao longo prazo, é crucial mencionar que este define o espaço de tempo estipulado pelo acesso contínuo aos meios digitais ou à informação neles contida indefinidamente (Saramago, 2004).

Segundo Niso (2004) citado por Sayão (2010), os metadados correspondem à informação estruturada que descreve, explica, localiza e propicia um recurso informacional, para que este seja de fácil uso e recuperação.

Por conseguinte, é importante deixar claro que estes geralmente são a única forma de comunicação entre os produtores de dados e os utilizadores secundários. Neste sentido, os metadados de qualidade são fundamentais para o verdadeiro uso dos dados (Sayão, Sales, 2015).

Por outro lado, os metadados de preservação devem garantir a autenticidade dos recursos digitais ao longo do tempo e proporcionar informação sobre os próprios metadados (Saramago, 2004).

Importa agora referenciar as principais características dos metadados de preservação. Num primeiro momento, destaca-se a abrangência, em que os metadados devem possuir todos os requisitos de informação essenciais na gestão do repositório, desde a inserção até à disponibilização. Segue-se a estruturação, em que deve ser exibida uma descrição de alto nível das suas funcionalidades. E, por fim, denota-se a aplicação alargada, ou seja, os metadados possibilitam a sua aplicação a um leque diversificado de tipos de recursos digitais de instituições (OCLC/RLG Working Group on preservation metadata, 2002 cit. por Saramago, 2004).

Seguidamente, é imperativo distinguir os tipos de metadados, que podem ser descritivos, administrativos e estruturais. No que diz respeito aos metadados descritivos, estes representam o tipo de metadados mais conhecido, pois descrevem um recurso com o objetivo de o identificar, abrangem elementos como o título, autor, resumo, palavras-chave e identificador persistente.

Os metadados estruturais correspondem a informações que demonstram a forma como os recursos mais complexos devem ser ordenados e compostos. Relativamente aos metadados administrativos, estes proporcionam informações para o apoio dos processos de gestão do ciclo de vida dos recursos informacionais, abrangendo informação sobre quando é que o recurso foi criado e como foi criado (Saramago, 2004).

Após ter sido mencionado os tipos de metadados, agora é fundamental referir que no mundo da web, estes têm de ser entendidos por computadores, robôs e agentes de software para poderem ser recuperados e manipulados com maior eficiência. Desta forma, seria vantajoso o uso da linguagem em XML, uma vez que a utilização de programas para processar metadados codificados em XML, corresponde a um dos pilares inerentes à iniciativa da web semântica (Marcondes, 2005 cit. por Sayão, 2010).

Por fim, o esquema de metadados METS (Metadata Encoding and Transmission Standards), é uma norma indicada para metadados de preservação digital, que serve para codificar metadados descritivos, administrativos e estruturais de recursos digitais, que utilizam a linguagem XML (Saramago, 2004).

Formato dos Dados

Conforme já foi mencionado anteriormente, os dados precisam de ser armazenados a longo prazo, para futuramente serem acedidos e utilizados pelos Data Users, sendo necessário ter em atenção o seu formato, de modo a assegurar que possam ser interpretados e reutilizados a longo prazo.

De facto, os dados de investigação apresentam inúmeros formatos, podendo ser textuais, numéricos, multimídia, imagens, simulações, modelos, linguagem de software, entre outros. Esta diversidade de formatos contribui para uma preservação dos dados mais complexa (Sayão, Sales, 2015).

Assim, para que seja possível a reutilização dos dados a longo prazo, é pertinente ter em atenção o formato de arquivo e software mais apropriado. Segundo Sayão e Sales (2015), a utilização de formatos de arquivo padronizados e abertos, possibilita que os dados sejam utilizados e reutilizados durante o período necessário.

Na sociedade atual, é facilmente compreensível que os dados digitais não se encontram totalmente seguros e uma dessas causas inerentes é à obsolescência tecnológica do hardware e software que são indispensáveis para a interpretação dos dados (Sayão, Sales, 2015).

Assim sendo, a forma mais segura para obter o acesso a longo prazo, consiste em converter os dados para formatos padronizados, para que os dados estejam aptos a serem interpretados por diversos programas e a permanecerem preservados durante longos períodos.

Neste sentido, é fulcral a utilização de formatos abertos, como é o caso XML, contudo, também será necessário usar o formato ODF (OpenDocument Format) e o ASCII. Assim, o CEOS.PP terá de implementar softwares e formatos de dados mais adequados e convenientes às análises planeadas, para poder arquivar os dados e preservar o seu uso potencial para o futuro (Sayão, Sales, 2015).

Efetivamente, é imprescindível que o CEOS.PP tenha presente as características dos formatos de dados que permitem o acesso a longo prazo. Deste modo, os dados necessitam de se encontrar em formatos não proprietários, abertos e padronizados.

Por conseguinte, é crucial ter em conta a conversão dos dados, uma vez que quando os dados são convertidos de um formato de arquivo para outro formato, podem ocorrer algumas perdas. Assim, é de extrema importância que os CEOS.PP preste especial atenção à conversão, verificando se não ocorreu qualquer tipo de alteração aos dados e se estes cumprem com os formatos recomendáveis.

Dada a diversidade dos formatos de dados, cabe agora referenciar quais os arquivos de dados recomendados para cada tipo de dados.

Segundo Sayão e Sales (2015), no que diz respeito aos dados quantitativos, é aconselhável o uso do SPSS (.por) ou XML DDI para metadados extensos e o CSV (.csv) para dados mais reduzidos. Em relação aos dados qualitativos, é pertinente o uso do formato XML (.xml), do formato Rich Text Format (.rtf), ou do formato UFT-8 (Unicode; .txt).

No que concerne às imagens, é recomendável o uso do formato TIFF (.tif) na versão seis e sem compressão.

No que tange aos áudios, os formatos FLAC – Free Lossless Audio CODEC (.flac); WAVE – Wafeform Audio Format (.wav) e MP3 – MPEG-1 Audio Layer 3 (.mp3) são os mais apropriados. Desta forma, é recomendável o uso dos formatos MPEG-4 High Profile (.mp4) e o Motion JPEG 2000 (.jp2). Por fim, para a documentação e scripts deve ser usado os formatos Rich Format Text (.RTF); Open Document Text (.odt); Rich Document Format (.rtf); PDF (.pdf) e HTML (.html).

Organização dos Dados / Serviços de Suporte à Gestão de Dados

Após ter sido realizada uma contextualização aos vários critérios que o CEOS.PP deve seguir para a correta gestão dos dados científicos, cabe agora evidenciar a “Organização dos Dados” para uma compreensão mais eficaz sobre a forma como estes serão organizados e geridos.

Primeiramente, é importante estabelecer algumas recomendações para organizar o repositório de dados. É fulcral utilizar coleções para que os dados estejam organizados por tema/assunto e estejam localizados apenas num único lugar; prestar atenção aos procedimentos estipulados inicialmente; criar uma estrutura hierárquica, começando por criar pastas mais gerais e posteriormente, dentro dessas, criar pastas mais especificas; e, por fim, ordenar os dados desde os mais antigos até aos mais recentes.

De seguida, importa referir que a compreensão total do conteúdo presente nos conjuntos de dados é fundamental, para que os Data Users consigam utilizar os dados produzidos por outros investigadores.  Neste sentido, é importante que a documentação sobre conjunto de dados possua uma descrição integral dos parâmetros, assim como o nome dos parâmetros, as abreviaturas, os formatos e a definição dos valores codificados.

Em relação ao nome dos parâmetros, é crucial verificar o seu nome, pois os dados necessitam de nomes descritivos acerca do seu conteúdo. Desta forma, devem ser atribuídos nomes de acordo com a área em específico e que já tenham sido estipulados anteriormente. Relativamente aos formatos, importa mencionar que num conjunto de dados, deve ser estipulado um formato para cada parâmetro e explicar o respetivo formato na documentação, bem como a utilização de forma coerente desses formatos para todas as coleções.

No que tange aos valores codificados, os investigadores podem estabelecer os seus próprios campos codificados, definindo valores para poderem ser usados, de forma consistente nos vários arquivos de dados. A utilização de campos codificados é uma boa opção, dado que se apresenta a mais eficiente para o armazenamento e recuperação de dados, do que os campos de texto livre (Sayão, Sales, 2015).

No que concerne à gestão do repositório do CEOS.PP, para além dos dados se encontrarem separados por áreas, também devem encontrar-se separados por comunidades, mais especificamente por departamentos e tipos de projetos, para que reúna a melhor gestão e organização dos dados.

Relativamente aos projetos, cabe sublinhar que as tabelas necessitam de ser geridas através de programas de código aberto, sendo recomendado o uso do Excel e do OpenOffice Calc. para uma pequena quantidade de dados. Por outro lado, é aconselhável o uso de sistemas de gestão de bases de dados relacional, como é o caso do RDBMS. Este é um sistema de gestão de base de dados (DBMS), projetado especificamente para bases de dados relacionais. Uma base de dados relacional corresponde a uma base de dados que armazena os dados num formato estruturado, através de uso de linhas e colunas que facilitam a localização e o acesso aos dados (Michener, 2015).

No que toca aos serviços de suporte à gestão de dados, é crucial ter presente os serviços de apoio e consultoria na gestão de dados científicos. Estes devem incluir planos de gestão de dados para projetos financiados e a elaboração de materiais informativos, bem como de guias informativos (Príncipe, Saraiva, 2015).

Por conseguinte, é necessário adquirir serviços de curadoria para o ciclo de vida dos dados científicos, que apoiam os investigadores, seja individualmente ou em grupo, no ciclo de vida dos dados científicos (recolha, análise, armazenamento e publicação), fornecendo serviços de armazenamento, pesquisa e acesso. Neste sentido, é imprescindível compreender que a curadoria digital envolve igualmente a gestão e a preservação de recursos digitais durante todo o ciclo de vida dos dados, no contexto do mundo académico e científico, em que o objetivo primordial é responder às necessidades das atuais e futuras gerações dos Data Users (Sayão, Sales, 2012).

Segundo Sayão e Sales (2012), a curadoria digital também envolve a agregação de valor aos dados de investigação durante todo o ciclo de vida dos dados. Desta forma, a gestão ativa sobre os dados, contribui para a redução das ameaças do seu valor a longo prazo e diminui os riscos de obsolescência. A curadoria digital inclui a gestão de grandes conjuntos de dados, garantindo que estes possam ser acedidos continuamente, exercendo um controlo do repositório que armazena os dados e proporcionando a atenção dos futuros Data Users (Sayão, Sales, 2012).

Na perspetiva de Príncipe e Saraiva (2015), em relação aos serviços de suporte à gestão de dados, importa acrescentar a promoção da referenciação e citação dos dados científicos, isto é, a promoção de citações e referências dos dados de forma correta e adequada, esclarecendo as regras a utilizar.

Garantia da Qualidade

No que concerne à garantia da qualidade, é importante realçar que esta se encontra intimamente relacionada com o controlo da qualidade. De facto, ambos os conceitos descrevem os procedimentos acerca da prevenção e redução de erros em conjunto de dados,bem como a identificação de dados incorretos.

Num conjunto de dados podem ocorrer erros relativos ao mau funcionamento de uma ferramenta ou um sistema, que não apresente os resultados corretamente, ou erros devido à omissão de dados, como por exemplo o esquecimento de pequenas informações ao realizar a recolha de dados.

 Por conseguinte, existe um conjunto de abordagensque devem ser aplicadas durante todo o ciclo de desenvolvimento de um projeto de pesquisa, na medida em que estas são fundamentais para garantir a qualidade dos dados e fornecer-lhes um maior valor, tanto no presente como no futuro (Sayão, Sales, 2015).

Este conjunto de abordagens deve ser aplicado antes, durante e depois da recolha de dados, prestando atenção às especificidades estabelecidas para cada momento. As estratégias utilizadas antes e durante a recolha de dados, dizem respeito à garantia da qualidade, ao passo que as utilizadas após a recolha de dados dizem respeito ao controlo da qualidade (Sayão, Sales, 2015).

Assim sendo, entende-se por garantia da qualidade todos os processos aplicados para ratificar que os melhores dados possíveis são recolhidos. O controlo da qualidade corresponde a um conjunto de procedimentos para avaliar a qualidade dos dados depois de eles serem recolhidos. Tudo isto implica a “limpeza de dados”, assim como a tomada de decisões (Sayão, Sales, 2015).

Segundo o autor supracitado, reitera-se que o controlo de qualidade se torna mais trabalhoso e exige um maior número de recursos em relação à garantia da qualidade, uma vez que se torna mais fácil prevenir os problemas do que os reparar.

É uma verdade indubitável que a qualidade dos dados se encontra pendente de múltiplos fatores, o que significa que esses procedimentos não são suficientes para poder assegurar por completo a usabilidade dos dados (Sayão, Sales, 2015). Portanto, é notório que um planeamento bem fundamentado dos procedimentos sobre a garantia e o controlo da qualidade, amplia a possibilidade de os dados poderem vir a ser usados e reutilizados por outros indivíduos.

Porventura, a qualidade dos dados é um critério relativo e para assegurá-lo é necessário conhecimento acerca dos parâmetros que devem ser considerados na análise dos dados relativamente aos padrões científicos que se pretende adquirir. Assim, constata-se que a qualidade dos dadosé determinadaconforme o nível de adequação dos dados aos usos desejados.

É pertinente que o CEOS.PP tenha presente as práticas que devem ser tomadas durante e depois da entrada dos dados. As práticas importantes a aplicar durante a entrada de dados, são essencialmente a gravação da leitura de dados, para de seguida poder transcrever os dados, a partir da gravação, assim como a projeção de uma estrutura de organização dos dados, que neste caso seria uma mais valia a utilização de vocabulários controlados na base de dados.

Depois da recolha de dados, é necessário rever a base de dados e certificar-se de que todos os dados estão inseridos nas devidas colunas, confirmar se não foram omitidos dados e averiguar se não existem discrepâncias.

Arquivo e Preservação dos Dados Científicos – Continuidade de Acesso 

No que toca à preservação dos dados, é oportuno frisar que a preservação é um dos desafios do século XXI, sendo considerada um alvo em constante mudança.

Atualmente, a preservação está relacionada com a digitalização, porém a recuperação dos dados digitais também se torna obsoleta (Costa, 2017).

No que concerne a este ponto, cabe acrescentar que quase metade dos dados submetidos a um arquivo a longo prazo e que não têm qualquer tipo de utilização durante anos, um dia é possível que tornem obsoletos. Assim sendo, é vantajoso que a instituição atualize o formato de arquivo em que os dados estão armazenados.

Neste sentido, é importante ter em mente que a preservação envolve o uso de técnicas, como é o caso da migração dos dados. No que tange a esta, é importante referir que as atualizações tecnológicas constantes originam um contexto de obsolescência, se não forem cumpridas e acompanhadas corretamente. Deste modo, torna-se essencial migrar os dados para um formato diferente, assegurando a imunidade dos dados contra a obsolescência de hardwares e softwares (Sayão, Sales, 2012).

 Posto isto, é crucial dar destaque à curadoria de dados que está intimamente ligada à preservação dos dados a longo prazo, onde se inclui a agregação de valor aos dados digitais, em toda a sua vida útil e a redução dos riscos de obsolescência digital (Costa, 2017).

Segundo Inter-university Consortium for Political and Social Research (2012), os dados digitais devem ser geridos ativamente ao longo do tempo para garantir a sua disponibilidade e utilização. Desta forma, a preservação da informação digital requer uma atenção constante e contínua, visto que o depósito de recursos de dados num repositório digital confiável, permite que estes sejam selecionados e tratados de acordo com as boas práticas da preservação digital.

Neste sentido, Costa (2012) evidencia a ideia da teoria da curadoria digital, em que a informação não deve ser somente preservada digitalmente, mas cruzar-se com o processo de curadoria digital, pois este envolve o tratamento da informação, desde a recolha dos dados de investigação até à reutilização da informação por outros integrantes do fluxo informacional.

Posto isto, a curadoria de dados científicos também envolve ações de preservação dos dados. Neste sentido, as ações de preservação dos dados é uma das etapas que deve ser cumprida repetidamente para garantir que os dados se encontram em contínuo processo de curadoria, de acordo com as melhores práticas. Deste modo, as ações de preservação consistem em propiciar ações para assegurar a preservação a longo prazo e a retenção dos dados de natureza oficial, assim como garantir a permanência dos dados, de forma autêntica, confiável e com capacidade de serem utilizados enquanto mantêm a sua integridade (Sayão, Sales, 2012).

Com efeito, a preservação deve fazer parte de qualquer política institucional, dado que uma das grandes preocupações do CEOS.PP deve consistir na preservação dos dados e documentos originais a longo prazo, para que no futuro seja possível que outros membros e “novas gerações” acedam e reutilizem esses mesmos dados de pesquisa, dando origem a novos projetos de investigação.

Reutilização dos Dados – Divulgação do Conhecimento

Em primeiro lugar, é notório que a reutilização dos dados alarga os horizontes intelectuais dos investigadores e a sua área de estudo. Deste modo, os anteriores são conduzidos a refletir sobre os problemas de pesquisa e novas perspetivas num maior nível de abstração (Hyman, 1972, cit. por Curty, [s.d.]).

Não obstante, a reutilização dos dados científicos poupa tempo e dinheiro. De facto, ao reutilizar os dados de pesquisa disponíveis, os utilizadores têm acesso a dados prontos, o que acaba por ser bastante vantajoso.

Segundo Curty (2019), este critério favorece novas ideias e processos de pesquisa. Os utilizadores podem usufruir dos dados múltiplas vezes, tanto para propósitos iguais, como para propósitos completamente diferentes aos da recolha original dos dados.

A reutilização dos dados requer alguns cuidados e nem sempre significa trabalho facilitado, uma vez que é indispensável trabalhar os dados de outros investigadores para os tornar compreensíveis e acrescentar-lhes valor informativo.

A reutilização dos dados exige que os investigadores consigam contextualizar os dados primários obtidos pelos cientistas, a fim de os conseguir adaptar corretamente ao fim pretendido (Curty, s.d.).

 Tendo em conta os cuidados necessários na reutilização dos dados, o CEOS.PP considera tratar-se de uma opção de grande interesse, visto que maximiza o investimento na pesquisa. Neste sentido, a partilha e disponibilização dos dados contribuem para o enriquecimento dos estudantes, assim como para o aumento da sua produtividade.

Nesta ordem de ideias, é necessário que as instituições não estejam isoladas e que a divulgação da informação/conhecimento promova uma verdadeira cultura da divulgação dos dados científicos, de uma forma mais transparente, ágil e dinâmica (Lordêlo, Porto, 2012).

Posto isto, é importante enfatizar que a reutilização de dados está associada ao acesso aberto, visto que é necessário disponibilizar online os dados de investigação científica e sem qualquer tipo de limitação para que os investigadores usufruam desses dados de pesquisa. Na verdade, a ciência aberta inclui conjuntamente os dados abertos, apresentando metadados públicos para poderem ser pesquisáveis e acessíveis.

Neste contexto, é crucial referir a ideia de que o conhecimento científico é um património da Humanidade, sendo necessário disponibilizá-lo de forma livre, viabilizando a utilização e reutilização dos dados para os investigadores, sem qualquer tipo de constrangimento, fomentando novos conhecimentos para a sociedade (Sayão, Sales, 2014).

Para tal, o CEOS.PP pretende que os seus Data Users compreendam e tenham presente a ideia de que os dados científicos que disponibiliza devem ser devidamente tratados e preservados. Estes recursos vão capacitar os investigadores a formular novos tipos de hipóteses, bem como a usar métodos analíticos inovadores.

Com efeito, a ideia de acesso livre deve estar presente em todos os membros de instituições académicas, na medida em que vem reforçar as pesquisas científicas; incentivar a diversidade de análise e de opiniões; fomentar outros tipos de pesquisa; facilitar a formação de novos  investigadores; possibilitar a criação de novos conjuntos de dados de informação e conhecimento e propiciar a pesquisa interdisciplinar (Sayão, Sales, 2014).

Referências Bibliográficas: