Colecciones de datos para múltiples aplicaciones

Una pequeña lista de data sets  y colecciones de data sets de diferentes dominios y para diversos propósitos. La mayoría son de uso libre, sin embargo vale la pena consultar la licencia de cada uno.

Es una lista en construcción, se aceptan sugerencias 🙂

Colecciones

NombreDescripciónEjemplosObservaciones
AWS Public Data SetsData sets alojados en Amazon AWS (en S3 o instantaneas EBS)Google Books Ngrams
Million Song Dataset
Para descargar los datasets almacenados como instantáneas es necesario tener una cuenta AWS
Data.govData sets de las diferentes entidades de Estados UnidosDatos de precipitación, por hora, en Estados UnidosFormatos diversos
Linked Open Data CloudUna imagen svg con enlaces a datasets que han sido publicados en formato RDF (y cumplen las condiciones para ser considerados Linked Data)DBPedia
GeoNames
DBLP
Un buen punto de partida para ver el potencial de Linked Data
UCI Machine Learning RepositoryUn repositorio de datasets para aprendizaje de máquinaBag of words
Arrhythmia Data Set
Iris Dataset
Diferentes formatos y dominios, preparados para tareas de aprendizaje de máquina. Se encuentran los ejemplos clásicos y otros datasets que pueden ser útiles para múltiples aplicaciones.
Yahoo! WebscopeDatos liberados por Yahoo! para investigaciones académicas. Datasets de imágenesAlgunos de los datasets requieren aprobación para usarlos. Alguna vez realicé el proceso y tomó poco más de una semana.
Existe un límite de 5 datasets por semestre.
Algunos datasets están almacenados en AWS.
Stanford Large Network Dataset CollectionDatasets de redesOrkut
Amazon product co-purchasing network
La mayoría de los datos están en el formato de tabla de enlaces.
World BankDatasets del Banco Mundial.World Development Indicators
Europa Open-DataSitio web mantenido por la comisión europea para la publicación de datos abiertosErasmus mobility statistics 2011-12Tiene disponible un endpoint de sparkql en "https://open-data.europa.eu/sparqlep"
Public datasets Una iniciativa de Cole Knaflic, para el #SWDChallenge del 2018. Awesome Json DatasetsLista conjuntos de datos variados, es un buen punto de inicio cuando se busca inspiración.

Datasets

NombreFormatoObservaciones
DBPediaOntología en formato owl
Tripletas RDF en formato N-Triples, N-Quads y Turttle
Los dumps son generados periodicamente. Para acceder a información actualizada es mejor usar el endpoind de sparql
Wikipedia DumpDumps de la base de datos: XML.
Otros datasets están disponible en formato HTML, OpenZim y CSV
StackExchange Data DumpsXMLDumps de todos los sitios de Stack Exchange (entre los que se encuentran, por ejemplo, StackOverflow y ServerFault)

Si se quiere realizar una consulta puntual es mejor usar StackExchange Data Explorer
FreeBaseData Dumps: N-Triples
APIs (Json): Búsqueda, MQL, por tema.
Freebase se volverá de solo lectura el 30 de marzo de 2015 y el API será retirada en junio 30. La idea es soportar el proyecto WikiData.
WikidataRDF/XML
N-Triples
JSON
HTML
Tiene una interfaz Linked Data, que permite seleccionar el formato de la respuesta usando negociación de contenido. Como alternativa se pueden usar extensiones para seleccionar el formato.
Se puede acceder a los dumps de la base de datos en formato JSON y RDF/XML