Imprimir

La gestión de datos abre nuevos retos para la publicación científica : el caso de Nature Biotechnology

el .

Los trabajos en biología computacional plantean una serie  de dificultades en el proceso de revisión por pares. Por lo general, los trabajos en este campo usan un enfoque computacional o una aplicación de software que en algunos casos no son suficientemente documentados. La versión del software puede no coincidir con el algoritmo descrito en un paper o producir los resultados publicados. Y el código fuente asociado con el software central para los principales hallazgos de un artículo en muchos casos no estan disponibles. Estos problemas han llevado a los editores de Nature Biotechnology preguntarse si se puede mejorar la revisión por pares de documentos de análisis computacionales. Este aspecto es bastante importante teniendo en cuenta que la biología produce análisis de grandes datasets.

De otro lado, la reproducibilidad de los papers en Biología han sido objeto de mucho debate en los últimos tiempos. Pero ¿Qué pasa con la reproducibilidad de los documentos que se centran principalmente en el cálculo? ¿Qué pueden hacer los editores para facilitar la revisión y evaluación de la reproducibilidad? ¿Qué responsabilidad tienen los árbitros para ejecutar una pieza de software, una revisión en el código fuente o aplicar los métodos previstos? ¿Cabe esperar que los árbitros puedan descargar conjuntos de datos complementarios, reproducir nuevos análisis, volver a ejecutar los métodos? En el caso de los autores ¿Siempre proporcionan el código fuente de los métodos desarrollados? ¿Muestran un conjunto mínimo  de descriptores? ¿Deben proporcionar los softwares empleados (número de versión, los datos de creación, de modificación, autor, requisitos especiales de hardware)?

Ante este contexto, Nature Biotechnology y otras revistas del grupo Nature están tomando medidas para facilitar la revisión por pares y reproducibilidad, dada la complejidad de estas cuestiones. Desde el mes de octubre, todas las revistas Nature han requerido que los autores cuentan la ubicación y accesibilidad de cualquier código y software central para las principales demandas en un documento. La revista se plantea de forma específica la disponibilidad de código con los árbitros, con el objetivo de hacer cumplir esta política de manera consistente con las expectativas de la comunidad. Para ello recomienda almacenar el código fuente en GitHub (https://github.com/) junto con una copia de seguridad en un repositorio con código DOI como Zenodo (http://zenodo.org) o Figshare (http://figshare.com). Del mismo modo, se revisa sistemáticamente la opinión de los pares en su capacidad para poner a prueba una herramienta en un entorno en línea que conserva su anonimato; si una implementación de software coincide con el algoritmo matemático en un paper; si se puede ejecutar en sistemas operativos (por ejemplo, Windows o UNIX) ampliamente disponibles para la comunidad científica; y si el código está suficientemente documentado y es transparente para permitir que otro investigador use el algoritmo.

Estos son algunos de los instrumentos que se pueden emplear en la actualidad. Sin embargo, hay varias plataformas emergentes de todo el campo de la biología computacional que prometen facilitar la documentación de software y software de intercambio y código entre autores, árbitros y lectores. Por ejemplo, existen entornos de computación, tales como Sage Bionetworks' Synapse, que permite acoger datos y software, permite la acreditación adecuada a las contribuciones de investigadores y facilita la integración, análisis y publicación de datos en tiempo real mientras se realiza la investigación. Asimismo, hay notebooks electrónicos en internet, tales como IPython notebooks, Sweave o Knitr, graban todos los pasos de un protocolo de cálculo que pueden ayudar a los autores a facilitar la reproducibilidad por un árbitro o un lector. Cuando estas herramientas no pueden capturar la complejidad de algunos datasets,  herramientas como Docker permiten almacenar, compartir y reaperturar ambientes personalizados donde el código se puede volver a ejecutar en el contexto de las herramientas de software a medida, por bibliotecas y repositorios de datos.

Estos aspectos demuestran como los avances en tecnología están cambiando todo el horizonte de la publicación científica en todos los aspectos obligando a autores, revisores y lectores a estar actualizandose constantemente en el uso de recursos. El otro problema que conlleva es que las complejidades generadas por la gestión de datos abre nuevos horizontes para los gestores de información que deben garantizar una mejora continua en la accesibilidad de datos, la curación de datos y sobre todo entender que este nuevo panorama solo servirá para consolidar la investigación científica.