Los datos de investigación pueden tener distintos formatos: tablas, materiales audiovisuales, bases de datos, modelos 3D, listas de resultados de experimentos a gran escala... El tamaño puede variar, desde un par de archivos pequeños relacionados con una publicación concreta (“prologación de los datos de investigación”) a vastas colecciones de resultados experimentales (big data) que solo pueden ser procesados mediante programas especializados.
La necesidad de una documentación y descripción adecuada es obvia, dado que la reproductibilidad es una condición clave cuando se habla de investigación científica.
Los repositorios especializados, como Zenodo, se han establecido para recopilar y conservar conjuntos de datos de todo tipo, y posiblemente vincularlos a publicaciones y proyectos relacionados con la creación del conjunto. Recopilar, describir, otorgar licencias y preservar los datos resulta ser un gran desafío, y la experiencia con Research Data Management se está convirtiendo rápidamente en un recurso codiciado para los investigadores y el personal de apoyo.
La Fundación Conocimiento Abierto (Open Knowledge Foundation) definió el Open Data (datos abiertos) en la Definición de Conocimiento Abierto como “legibles por una máquina, disponibles en gran volumen y en un formato abierto (es decir, un formato con una especificación publicada disponible libremente que no impone restricciones, monetarias o de otro tipo, sobre su uso) o, como mínimo, puede procesarse con al menos una herramienta de software libre / de código abierto".
Ver también: Tabla guía OpenAIRE de datos de investigación de Libre Disposición.