• Lista A-Z

Dane badawcze


Dane badawcze to „zarejestrowane materiały o charakterze faktograficznym, powszechnie uznawane przez społeczność naukową za niezbędne do oceny wyników badań naukowych” (OECD Principles and Guidelines for Access to Research Data from Public Funding, 2007).

Danymi badawczymi określamy zarówno dane surowe (uzyskane bezpośrednio z zastosowania narzędzia badawczego), jak i dane przetworzone (przygotowane do analizy i stanowiące podstawę dla dochodzenia do konkluzji badawczych).

Dane badawcze mogą przyjmować różnorodną formę zależną od dyscypliny naukowej i charakteru przeprowadzanych badań. Mogą być to m.in. dane liczbowe i tekstowe, kwestionariusze i wyniki badań ankietowych, nagrania audio i wideo, obrazy czy oprogramowanie.

Cykl życia danych

Cykl życia danych badawczych - schemat

Dane badawcze mają zwykle trwałość wykraczającą ponad trwałość projektu, na potrzeby którego są gromadzone, przetwarzane i analizowane. Jeśli dane są do tego odpowiednio przygotowane, to mogą z powodzeniem zostać ponownie wykorzystane w formie niezmienionej bądź uzupełnione o kolejne dane i znów stanowić podstawę dla prowadzonych badań – i co najważniejsze, nie tylko przez osoby odpowiadające za ich gromadzenie, przetwarzanie i analizę, ale także przez badaczy z zewnątrz. Obieg danych w działalności naukowej można przedstawić graficznie jako tzw. cykl życia danych.

Zarządzanie danymi badawczymi

Współcześnie dąży się do zapewnienia przygotowania i opracowania danych badawczych w taki sposób, który będzie pozwalał na ich ponowne wykorzystanie zarówno przez grupę badawczą odpowiedzialną za pozyskanie i przetworzenie danych, jak i badaczy zewnętrznych. Działania związane z organizacją, przechowywaniem i udostępnianiem danych badawczych dla zapewnienia odnalezienia, dostępności, interoperacyjności i ponownego ich wykorzystania zbiorczo określane są jako zarządzanie danymi badawczymi (Research Data Management, RDM).

Plany zarządzania danymi

Zarządzanie danymi badawczymi jest dobrą praktyką w prowadzeniu badań naukowych, a jego zastosowanie pomaga w realizowaniu badań w sposób bardziej wydajny i skuteczny.  Co jednak ważniejsze, znacząca część instytucji finansujących badania naukowe wymaga zastosowania zarządzania danymi badawczymi i opisania ich na etapie wnioskowania o środki w postaci oddzielnego dokumentu – planu zarządzania danymi (Data Management Plan, DMP).

Podstawowe informacje zawarte w DMP różnią się w zależności od dyscypliny naukowej, przyjętej metodologii i wymogów instytucji finansującej badania, generalnie jednak powinien on opisywać:

  • typy danych i innych materiałów powstających podczas trwania projektu (jakie dane gromadzimy?)
  • formaty danych oraz standardy metadanych (w jaki sposób dane gromadzimy i opisujemy?)
  • sposoby udostępniania danych (gdzie dane będą udostępniane i w jakim stopniu mogą być otwarte?)
  • restrykcje dotyczące ponownego wykorzystania danych, ich udostępniania i przekształcania (w jakim zakresie dane będą mogły być ponownie wykorzystane?)
  • metody zastosowanych do archiwizowania i zapewnienia długotrwałego dostępu (gdzie dane będą archiwizowane i na jak długo?).

Przykłady gotowych DMP:

Grantodawcy

Część instytucji finansujących badania naukowe wymaga przygotowania DMP na etapie wnioskowania o środki na potrzeby realizacji grantu oraz jego aktualizowanie podczas trwania projektu. Wśród znaczących grantodawców wymagających tworzenia podobnych dokumentów możemy wskazać m.in.:

W serwisie internetowym NCN zamieszczone są zbieżne z rekomendacjami Science Europe wytyczne dotyczące informacji, jakie powinny znaleźć się w przygotowanym przez wnioskodawcę DMP.

Narzędzia

Podczas tworzenia DMP dla zagranicznych grantodawców przydatne mogą się okazać m.in.:

Metadane

Metadane to zestaw informacji opisujących obiekt, określany często jako „dane o danych”. W zależności od rodzaju opisywanego obiektu możemy wyróżnić metadane deskryptywne (np. tytuł, abstrakt, słowa kluczowe etc.), strukturalne (wersja, seria, elementem jakiego zbioru jest dany obiekt etc.) i administracyjne (data, typ zasobu, licencja etc.).

Opisywanie danych metadanymi ma sens jedynie wtedy, gdy metadane mają jasną i spójną strukturę oraz formę. Zaleca się, by opisując swoje dane korzystać z istniejących już schematów metadanych, w których definiowany jest m.in. sposób zapisu daty, kolejność podawania imienia i nazwiska autorów czy wykorzystywana klasyfikacja typów danych.  Zastosowanie ujednoliconych schematów sprawia, że dane stają się łatwo odnajdywalne, wzajemnie porównywalne i potencjalnie odczytywalne przez maszyny.

Repozytoria danych mogą wymagać zastosowania konkretnych schematów metadanych lub formatów danych dla deponowanych obiektów.

Schematy metadanych

Gotowe schematy metadanych można znaleźć korzystając z serwisów:

  • FAIRsharing – serwis internetowy rejestrujący standardy, bazy danych i polityki udostępniania danych.
  • Metadata Standards Catalog – serwis rejestrujący schematy metadanych stosowanych dla danych badawczych.

Przykłady schematów ogólnego przeznaczenia

  • Dublin Core – ogólny standard metadanych przyjęty jako ISO 15836-2003.
  • DataCite Metadata Schema – ogólny standard metadanych umożliwiające trafną i spójną identyfikację zasobu na potrzeby jego cytowania i wyszukiwania.

Przykłady schematów dziedzinowych

  • ISA-Tab – schemat metadanych stosowany do opisu danych będących wynikiem przeprowadzania eksperymentu (np. charakterystyka próbki, zastosowane technologie, typ zastosowanych pomiarów).
  • Protocol Data Element Definitions – schemat metadanych służący do opisu prób klinicznych rejestrowanych w serwisie ClinicalTrials.gov.
  • PDBx/mmCIF – schemat metadanych stosowanych w danych deponowanych w serwisie Protein Data Bank.
  • Genome Metadata – schemat metadanych służący do przypisywania dodatkowych informacji do genomu wykraczających poza jego sekwencjonowanie i adnotację.
  • Darwin Core – schemat metadanych stosowany do udostępniania informacji dotyczącej bioróżnorodności.

Archiwizacja i udostępnianie danych badawczych

Archiwizacja danych badawczych

Kluczową praktyką skutecznego zarządzania danymi badawczymi jest stosowanie długoterminowych strategii ich przechowywania, ochrony i finalnie (choć nie zawsze będzie to możliwe) rozpowszechniania.

Archiwizacja, czyli zapewnieniem dla danych konkretnej przestrzeni w lokalizacjach sieciowych zapewnianych przez uczelnię oraz lokalizacjach zewnętrznych, służy zabezpieczeniu danych przed ich utratą i z założenia nie powinna dotyczyć wszystkich gromadzonych oraz opracowywanych danych.

Dane wytworzone w ramach prac prowadzonych ze środków pozyskanych z instytucji lub agencji finansującej badania naukowe muszą być archiwizowane zgodnie z wymogami tej instytucji – jeśli jednak podobne wymogi nie zostały sprecyzowane, to należy wybrać do archiwizacji dane, które:

  • będą wykorzystywane do publikacji wyników badań,
  • nie mogą być reprodukowane lub ich ponowienie jest kosztowne,
  • mają wysoką wartość naukową,
  • mogą zostać ponownie wykorzystane przez samych autorów.

Jedną z zalecanych zasad archiwizacji jest tzw. reguła 3-2-1, zgodnie z którą należy tworzyć trzy kopie zapasowe przetrzymywane na dwóch odrębnych nośnikach oraz kopię przechowywaną w lokalizacji zewnętrznej.

Więcej informacji można uzyskać z publikacji: Selekcja i przygotowanie danych badawczych do udostępnienia.

Otwieranie danych badawczych

Zgodnie z Ustawą z dnia 11 sierpnia 2021 r. o otwartych danych i ponownym wykorzystaniu informacji sektora publicznego dane badawcze podlegają bezpłatnie ponownemu wykorzystaniu, jeżeli zostały wytworzone lub zgromadzone w ramach działalności naukowej finansowanej ze środków publicznych oraz są już publicznie udostępniane w systemie teleinformatycznym podmiotu zobowiązanego, w szczególności w repozytorium instytucjonalnym lub tematycznym.

Dalsze informacje i wytyczne dotyczące otwartego dostępu do danych badawczych zostaną opisane w dokumencie Polityka otwartego dostępu do danych badawczych finansowanych ze środków publicznych wydawanym przez Ministra właściwego ds. Edukacji i Nauki.

Więcej informacji można uzyskać z publikacji: Prawne aspekty otwierania danych badawczych – poradnik.

Udostępnianie danych badawczych

Współcześnie mamy do czynienia ze znacznym przyspieszeniem komunikacji naukowej i otwieraniem dostępu do wyników badań naukowych w postaci publikacji w czasopismach naukowych lub monografiach. Kolejnym krokiem otwierania nauki jest udostępnianie danych badawczych, co może służyć m.in.:

  • ponownemu wykorzystaniu danych,
  • weryfikacji badań,
  • zwiększeniu widoczności naukowców,
  • zwiększenie cytowalności publikacji powiązanych z zestawem danych.

Archiwizacja i udostępnianie danych często realizowane są w ramach tej samej infrastruktury – i zwykle są to repozytoria danych, które specjalizują się w ich indeksowaniu i długoterminowym przechowywaniu. Repozytoria danych możemy podzielić na repozytoria ogólnego przeznaczenia (gromadzą wszystkie rodzaje danych badawczych), instytucjonalne (ograniczają się do danych tworzonych w ramach funkcjonowaniu instytucji) oraz dziedzinowe (związane z konkretną dziedziną lub dyscypliną naukową).

Więcej informacji można uzyskać w publikacji: Jak korzystać z zasobów w repozytoriach danych.

Rejestry repozytoriów danych

Przy rozpoczęciu poszukiwania repozytorium, w którym zdecydujemy się archiwizować albo udostępnić nasze dane, przede wszystkim musimy dostosować się do wymogów agencji finansującej badania lub wytycznych wydawcy, u którego planujemy opublikować wyniki badań. Jeśli podobne wymogi nie istnieją, dane należałoby deponować w repozytoriach typowych dla dyscypliny, prowadzonych badań lub w repozytorium instytucjonalnym. W doborze repozytorium nieocenione mogą okazać się doświadczenia i dobre praktyki stosowane przez współpracowników.

W samodzielnym wyszukiwaniu repozytoriów danych pomocne będą rejestry:

  • re3data – najobszerniejszy baza repozytoriów danych badawczych, pozwalający na ich wyszukiwanie oraz przeglądanie z podziałem na rejestrowane dziedziny i dyscypliny naukowe.
  • NIH Data Sharing Resources – lista wykazująca repozytoria danych wspierane przez amerykański National Institute of Health.
  • OpenDOAR – baza indeksująca biblioteki cyfrowe, repozytoria instytucjonalne oraz repozytoria danych badawczych.

Przykładowe repozytoria danych

   I. Repozytoria ogólnego przeznaczenia

   II. Repozytoria dziedzinowe

  • GenBank – repozytorium gromadzące informacje o genowych sekwencjach nukleotydowych.
  • Protein Data Bank – repozytorium gromadzące dane o strukturze przestrzennej białek i kwasów nukleionowych.

   III. Repozytorium instytucjonalne Pomorskiego Uniwersytetu Medycznego w Szczecinie

Zasady FAIR

Część agencji finansujących badania naukowe wymagających udostępniania danych badawczych (m.in. Komisja Europejska i Narodowe Centrum Nauki) oczekuje, że będą one spełniać tzw. zasady FAIR – czyli będą odnajdywalne (Findable), dostępne (Accessible), interoperacyjne (Interoperable) i nadające się do ponownego wykorzystania (Reusable). Dane spełniające zasady FAIR są optymalnie przygotowane do udostępnienia poprzez m.in. nadanie im trwałych identyfikatorów, szczegółowe opisanie ich z użyciem metadanych pochodzących z kontrolowanych słowników oraz zastosowanie otwartych formatów i licencji.

Zasady FAIR są kluczowe dla współtworzenia i rozwijania serwisów pozwalających na wyszukiwanie, analizowanie i ponowne wykorzystanie wielu zestawów danych badawczych.

Repozytoria danych badawczych, poprzez konstrukcję odpowiednich formularzy i wytycznych dla gromadzonych przez siebie danych mogą mieć duży wpływ na wprowadzanie do ogólnej infrastruktury badawczej zasad FAIR. Warto zauważyć tutaj działania grupy repozytoriów danych badawczych (Generalist Repository Ecosystem Initiative, GREI) ogólnego przeznaczenia, która rozpoczęła współpracę w celu pełnego realizowania zasad FAIR, stworzenia spójnego schematu metadanych opisujących gromadzone w nich obiekty oraz podejmowania działań na rzecz szkolenia naukowców z zagadnień związanych z zarządzaniem danymi badawczymi

Więcej informacji na temat zasad FAIR i wprowadzania ich do gromadzonych i udostępnianych przez siebie danych można znaleźć w serwisie How to FAIR.

Cytowanie danych

Zestawy danych badawczych – zarówno wytworzone przez nas, jak i te udostępniane przez innych naukowców w repozytoriach danych badawczych – mogą być traktowane jako źródło dla naszej pracy naukowej i tym samym należy się na nie powoływać z przyczyn podobnych, jak w przypadku publikacji naukowych.

Mimo odmiennej wagi poszczególnych elementów opisu danych w zależności od ich rodzaju i dyscypliny naukowej, w ramach której są one tworzone, można wyróżnić kilka kluczowych informacji, które powinny pojawić się w opisie danych i są to kolejno:

  • twórca,
  • rok utworzenia,
  • tytuł,
  • repozytorium,
  • wersja
  • trwały identyfikator (np. DOI).

 

W znaczącej części stylów bibliograficznych opracowano wytyczne precyzujące, w jaki sposób dane badawcze powinny być cytowane i mogą one zawierać wszystkie lub część informacji przedstawionych powyżej:

  • Vancouver

             Kowalska A, Nowak J. Dane gromadzone na potrzeby prowadzonych badań [dane]. Pomorski Uniwersytet Medyczny w Szczecinie; 2022 [przeglądane: 12 grudnia 2022]. Dostępny w: 10.1234/abcdefghi.

  • APA

             Kowalska, A., Nowak, J. Dane gromadzone na potrzeby prowadzonych badań (Wersja v1.1) [dane]. Polska Platforma Medyczna. 10.1234/abcdefghi.

  • AMA

             Kowalska A., Nowak J. Dane gromadzone na potrzeby prowadzonych badań. Grudzień 2022. 10.1234/abcdefghi.

Dane badawcze - kontakt w PUM

Specjalista do spraw danych badawczych i Otwartej Nauki

mgr Tomasz Nowocień 
tel. +48 91-441-4450 
e-mail: tomasz.nowocien@pum.edu.pl


bg

Pomorski Uniwersytet Medyczny w Szczecinie

ul. Rybacka 1, 70-204 Szczecin,
tel. 91 48 00 700 / 800, fax 91 48 00 705
NIP 852-000-67-57, Regon 000288886