Bases de datos utilizadas

A continuación se describen algunas las bases de datos que se utilizarán a lo largo del curso (el resto se explican en los ejemplos o ejercicios en las que son utilizadas). En cada caso, se incluye un enlace para descargar la base de datos en formato CSV.

  • Imacec: Contiene los datos de los valores del Imacec mensual de distintos sectores desde enero del 2018 hasta junio del 2022. Las columnas de la base de datos son las siguientes:

    • Ano: Año de medición del Imacec.
    • Mes: Mes de medición del Imacec.
    • Mineria: Imacec del sector de minería.
    • Industria: Imacec del sector de industria.

    El código para cargar la base de datos en R es:

    datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%201/imacec.csv")
  • Control cuotas: Contiene los datos de los valores cuota de los primeros tres meses del año 2022 de las AFP Plan Vital y Provida. Las columnas de la base de datos son las siguientes:

    • Plan.Vital: contiene los valores cuota en pesos de la AFP Plan Vital de un APV de fondo A.
    • Provida: contiene lo valores cuota en pesos de la AFP Provida de un APV de fondo A.

    El código para cargar la base de datos en R es:

    datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/control%2Bcuotas.csv")
  • ICC: Contiene registros del Índice de Confianza del Consumidor (ICC). Este indicador de confianza del consumidor proporciona una indicación de la evolución futura del consumo y el ahorro de los hogares. Un indicador por encima de 100 señala un aumento en la confianza de los consumidores hacia la situación económica futura, como consecuencia de la cual son menos propensos a ahorrar y más inclinados a gastar dinero en compras importantes en los próximos 12 meses. Los valores por debajo de 100 indican una actitud pesimista hacia la evolución futura de la economía, lo que posiblemente resulte en una tendencia a ahorrar más y consumir menos.

Las variables que contiene la base de datos son las siguientes:

  • Locacion: lugar en donde se mide el ICC (FRA = Francia, POL = Polonia, OECD = OCDE, ESP = España, BEL = Bélgica, ITA = Italia, DEU = Alemania).
  • Mes: corresponde al mes en el que se realiza la medición del índice.
  • Ano: corresponde al año en el que se realiza la medición del índice.
  • ICC: valor del índice de confianza del consumidor.

El código para cargar la base de datos en R es:

datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2022-2/Estad%C3%ADstica%202/consumidor.csv")
  • Tasa Euro/Dólar: Contiene el registro diario histórico de la tasa de cambio del Euro a Dólar durante el 2023. Las columnas de la base de datos son las siguientes:

    • Date: Fecha de medición (yyyy-mm-dd), desde enero del 2003 hasta enero del 2023.
    • Open: tasa de apertura.
    • High: tasa más alta alcanzada en el día.
    • Low: tasa más baja alcanzada en el día.
    • Close: tasa de cierre del día.
    • Adj Close: tasa de cierre ajustada del día (precio de cierre sin dividendos).

    El código para cargar la base de datos en R es:

    datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Tasa%2Beuro%2Bdolar%2Bhistorica2023.csv")
  • Precios de electricidad: Un conjunto de datos históricos que contiene el precio por hora de la electricidad para Bélgica. Las columnas de la base de datos son las siguientes:

    • MTU: Hora de inicio (formato fecha y hora) del coste de la electricidad.
    • EUR_MWh: Precio por hora (Euros por MWh).

    El código para cargar la base de datos en R es:

    datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2024-1/Belgian%20Electricity%20Prices.csv")
  • Pacientes: Contiene datos respecto a los ataques al corazón de distintos pacientes hospitalarios. El detalle de algunas de las columnas de la base de datos que utilizaremos son las siguientes:

    • age: edad del paciente (en años).
    • sex: sexo del paciente (Hombre: 1 y Mujer: 0).
    • cp: Tipo de dolor en el pecho, Valor 1: angina típica, Valor 2: angina atípica, Valor 3: dolor no anginoso, Valor 4: asintomático.
    • trtbps: presión arterial en reposo (en mm Hg).
    • chol: nivel de colestorol (en mg/dl).
    • fbs: azúcar en sangre en ayunas \(>\) 120 mg/dl (V = 1; F = 0).
    • thalachh: frecuencia cardíaca máxima alcanzada (en latidos por minuto).
    • oldpeak: tiempo de duración del último ataque al corazón (en minutos).

    El código para cargar la base de datos en R es:

    datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Heart+complete.csv")
  • Ingreso: Contiene datos relacionados a características de ingresos de estudiantes a un determinada universidad. Las columnas de la base de datos son las siguientes.

    • Sexo: Hombre o Mujer.
    • Ingreso: indica la vía de ingreso del estudiante a la universidad, se clasifica en PTU u Otra.
    • Logro: corresponde a la proporción de logro (número entre 0 y 1, un logro de 0.4 indica que el estudiante respondió correctamente un 40% de la prueba) del estudiante en el diagnóstico de “Comunicación escrita” aplicado por la universidad.
    • LEN: Puntaje PTU - Lenguaje.
    • NEM: Puntaje NEM del estudiante.

    El código para cargar la base de datos en R es:

    datos = read.csv("https://raw.githubusercontent.com/Dfranzani/Bases-de-datos-para-cursos/main/2023-1/Ingreso%2Buniversidad.csv")