Consultas en wikidata con SPARQL
Consultas en wikidata con SPARQL
Los datos biológicos abiertos se distribuyen en muchos recursos, lo que dificulta su integración, actualización y difusión rápida. Wikidata es una base de datos comunitaria abierta y en crecimiento que puede cumplir este propósito y también proporciona una estrecha integración con Wikipedia. Para mejorar el estado de los datos biológicos y facilitar la gestión y difusión de datos, importamos todos los genes humanos y de ratón, y todas las proteínas humanas y de ratón a Wikidata. En total, se importaron 59 721 genes humanos y 73 355 genes de ratón del NCBI y 27 306 proteínas humanas y 16 728 proteínas de ratón del subconjunto Swissprot de UniProt. Dado que Wikidata es abierto y cualquiera puede editarlo, nuestro corpus de datos importados sirve como punto de partida para la integración de más datos por parte de los científicos, la comunidad de Wikidata y los científicos ciudadanos por igual. El primer caso de uso para estos datos es llenar los cuadros de información de Wikipedia Gene Wiki directamente desde Wikidata con los datos integrados anteriormente. Esto permite actualizaciones inmediatas de los cuadros de información de Gene Wiki tan pronto como se modifican los datos en Wikidata. Aunque las páginas de Gene Wiki actualmente solo están en la versión en inglés de Wikipedia, la naturaleza multilingüe de Wikidata permite el uso de los datos que importamos en las 280 Wikipedias en diferentes idiomas. Además del caso de uso del cuadro de información Gene Wiki, un punto final SPARQL y la funcionalidad de exportación a varios formatos estándar (por ejemplo, JSON, XML) permiten el uso de los datos por parte de los científicos. En Indice, creamos un recurso de datos completamente abierto y extensible para datos bioquímicos y de biología molecular humana y de ratón. Este recurso enriquece todas las Wikipedias con información estructurada y sirve como un nuevo centro de enlace para la web semántica biológica. URL de la base de datos: https://www.wikidata.org/
Un ejemplo de consulta SPARQL, utilizando el punto final Wikidata SPARQL (query.wikidata.org). Recupera todos los elementos de Wikidata (WD) que pertenecen a la subclase del gen codificador de proteínas (Q840604), que tienen una posición de inicio cromosómica (P644) según la estructura del genoma humano GRCh38 y residen en el cromosoma humano (P659) 9 (Q20966585) y una posición final (P645) también en el cromosoma 9. Además, la región de interés está restringida a una posición de inicio cromosómica entre 21 y 30 pares de megabases. Colores: el rojo indica comandos SPARQL, el azul representa nombres de variables, el verde representa URI y el marrón son cadenas. Las flechas apuntan al código fuente al que se aplica la descripción.