Una pequeña lista de data sets y colecciones de data sets de diferentes dominios y para diversos propósitos. La mayoría son de uso libre, sin embargo vale la pena consultar la licencia de cada uno.
Es una lista en construcción, se aceptan sugerencias 🙂
Colecciones
Nombre | Descripción | Ejemplos | Observaciones |
---|---|---|---|
AWS Public Data Sets | Data sets alojados en Amazon AWS (en S3 o instantaneas EBS) | Google Books Ngrams Million Song Dataset | Para descargar los datasets almacenados como instantáneas es necesario tener una cuenta AWS |
Data.gov | Data sets de las diferentes entidades de Estados Unidos | Datos de precipitación, por hora, en Estados Unidos | Formatos diversos |
Linked Open Data Cloud | Una imagen svg con enlaces a datasets que han sido publicados en formato RDF (y cumplen las condiciones para ser considerados Linked Data) | DBPedia GeoNames DBLP | Un buen punto de partida para ver el potencial de Linked Data |
UCI Machine Learning Repository | Un repositorio de datasets para aprendizaje de máquina | Bag of words Arrhythmia Data Set Iris Dataset | Diferentes formatos y dominios, preparados para tareas de aprendizaje de máquina. Se encuentran los ejemplos clásicos y otros datasets que pueden ser útiles para múltiples aplicaciones. |
Yahoo! Webscope | Datos liberados por Yahoo! para investigaciones académicas. | Datasets de imágenes | Algunos de los datasets requieren aprobación para usarlos. Alguna vez realicé el proceso y tomó poco más de una semana. Existe un límite de 5 datasets por semestre. Algunos datasets están almacenados en AWS. |
Stanford Large Network Dataset Collection | Datasets de redes | Orkut Amazon product co-purchasing network | La mayoría de los datos están en el formato de tabla de enlaces. |
World Bank | Datasets del Banco Mundial. | World Development Indicators | |
Europa Open-Data | Sitio web mantenido por la comisión europea para la publicación de datos abiertos | Erasmus mobility statistics 2011-12 | Tiene disponible un endpoint de sparkql en "https://open-data.europa.eu/sparqlep" |
Public datasets | Una iniciativa de Cole Knaflic, para el #SWDChallenge del 2018. | Awesome Json Datasets | Lista conjuntos de datos variados, es un buen punto de inicio cuando se busca inspiración. |
Datasets
Nombre | Formato | Observaciones |
---|---|---|
DBPedia | Ontología en formato owl Tripletas RDF en formato N-Triples, N-Quads y Turttle | Los dumps son generados periodicamente. Para acceder a información actualizada es mejor usar el endpoind de sparql |
Wikipedia Dump | Dumps de la base de datos: XML. Otros datasets están disponible en formato HTML, OpenZim y CSV | |
StackExchange Data Dumps | XML | Dumps de todos los sitios de Stack Exchange (entre los que se encuentran, por ejemplo, StackOverflow y ServerFault) Si se quiere realizar una consulta puntual es mejor usar StackExchange Data Explorer |
FreeBase | Data Dumps: N-Triples APIs (Json): Búsqueda, MQL, por tema. | Freebase se volverá de solo lectura el 30 de marzo de 2015 y el API será retirada en junio 30. La idea es soportar el proyecto WikiData. |
Wikidata | RDF/XML N-Triples JSON HTML | Tiene una interfaz Linked Data, que permite seleccionar el formato de la respuesta usando negociación de contenido. Como alternativa se pueden usar extensiones para seleccionar el formato. Se puede acceder a los dumps de la base de datos en formato JSON y RDF/XML |