# Taller de introducción a R


## Matrices:
  - El comando en R para elaborar una matriz es 'matrix( )'.
  - Corresponde a una tabla de dos dimensiones de elementos de la misma naturaleza (números o carácteres pero no ambos).


In [None]:
# Generamos una matriz y la guardamos en un objeto llamado 'y'
y = matrix(
  1:12, # Números con los que rellenaremos la matriz
  nrow = 4, # Cantidad de filas de la matriz
  ncol = 3, # Cantidad de columnas de la matriz
  byrow = TRUE # Indica si la matriz debe ser rellenada por filas (puede ser también por columnas)
)
y

0,1,2
1,2,3
4,5,6
7,8,9
10,11,12


In [None]:
# Si cambiamos el argumento byrow a FALSE, veremos que la matriz resultante es diferente
z = matrix(
  1:12, # Números con los que rellenaremos la matriz
  nrow = 4, # Cantidad de filas de la matriz
  ncol = 3, # Cantidad de columnas de la matriz
  byrow = TRUE # Indica si la matriz debe ser rellenada por filas (puede ser también por columnas, byrow = FALSE)
)
z

0,1,2
1,2,3
4,5,6
7,8,9
10,11,12


In [None]:
# Podemos extraer un valor de la matriz indicando la fila y la columna.
# Usaremos la matriz 'z'.
# Consultaremos el valor que está en la segunda fila y tercera columna.
z[2,3]

In [None]:
# Podemos consultar filas completas
# Consultaremos la primer fila, para ello, en el número de columna no ingresamos nada
z[1,]

In [None]:
# De igual manera, podemos consultar los valores de una columna completa
# Consultaremos los valores de la tercera columna
z[,3]

## Factor
  - El comando en R para elaborar una factor es 'factor( )'.
  - Es un vector de caracteres que poseen niveles de orden.

In [None]:
Toxicidad = factor(
  x = c("Alta", "Baja", "Media"), # Vector de caracteres
  levels = c(c("Alta", "Media", "Baja")) # Indicamos el orden de los caracteres según un criterio,
               # por ejmeplo de más alta a más baja toxicidad.
               # Para ello, deben ir en el orden deseado
)
Toxicidad

# En la salida, se aprecia el vector de caracteres original, junto a una glosa que indaca los niveles con los
# que se debe considerar.

# La utilidad recae en posteriores aplicaciónes gráficas que serán vistas durante el curso

## Data frame:
  - El comando en R para elaborar un *data frame* es 'data.frame( )'.
  - Corresponde a una tabla de dos dimensiones. Las columnas pueden ser de diferente naturaleza, pero deben tener el mismo largo.


In [None]:
# Tenemos un data.frame (base de datos) que
# contiene el sexo, altura y peso
# de 6 personas (cantidad de datos por cada vector)

base = data.frame(
  Gender=c("M","F","M","F","M","F"),
  Height=c(1.83,1.76,1.82,1.60,1.90,1.66),
  Weight=c(67,58,66,48,75,55)
)
base

Gender,Height,Weight
<chr>,<dbl>,<dbl>
M,1.83,67
F,1.76,58
M,1.82,66
F,1.6,48
M,1.9,75
F,1.66,55


In [None]:
# Podemos consultar las dimensiones del data.frame
dim(base)
# 6 filas y 3 columnas

In [None]:
# Podemos extraer una de las columas, de igual modo que con las matrices
# Aunque, es posible usar un sufijo luego del signo peso
# Por ejemplo, queremos extraer la columna del peso

base$Weight

In [None]:
# Es posible filtrar toda la tabla en base a un criterio de alguna de las columnas
# Por ejemplo, ver solo la información de las mujeres
# Para ello  debemos escribir las codiciones antes de la coma, tal como se muestra

base[base$Gender == "F",]

# La condición expresa que el sexo debe ser femenino, el cual recordemos es un caracter,
# además, la igualdad se debe escribir con el signo '=='.

Unnamed: 0_level_0,Gender,Height,Weight
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>
2,F,1.76,58
4,F,1.6,48
6,F,1.66,55


In [None]:
# Podemos hacer un dopble filtro.
# Podemos consultar la información de las mujeres, pero solo la altura.
# Para ello ocupamos el segundo espacio, luego de la coman. Allí, se debe
# ingresar la columna que desea extraer luedo de aplicado el filtro

base[base$Gender == "F", "Height"]

In [None]:
# Otro forma de hacerlo, es ingresando el número de la columna
base[base$Gender == "F", 2]

In [None]:
# Aquí hay otros ejemplos de condiciones y consiciones múltiples

# Información de solo mujeres y con altura mayor a 1.6
base[base$Gender == "F" & base$Height > 1.6,]

Unnamed: 0_level_0,Gender,Height,Weight
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>
2,F,1.76,58
6,F,1.66,55


In [None]:
# Información de personas y con altura mayor a 1.82 o peso mayor a 55
base[base$Height > 1.82 | base$Weight > 55,]

Unnamed: 0_level_0,Gender,Height,Weight
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>
1,M,1.83,67
2,F,1.76,58
3,M,1.82,66
5,M,1.9,75


In [None]:
# Información de personas y con altura mayor a 1.82 o peso mayor a 55
# Pero solo el sexo
base[base$Height > 1.82 | base$Weight > 55, "Gender"]

In [None]:
# Información de personas y con altura mayor a 1.82 o peso mayor a 55
# Pero solo el sexo y la altura
base[base$Height > 1.82 | base$Weight > 55, c("Gender", "Height")]

Unnamed: 0_level_0,Gender,Height
Unnamed: 0_level_1,<chr>,<dbl>
1,M,1.83
2,F,1.76
3,M,1.82
5,M,1.9


In [None]:
# Igualmente sirve
base[base$Height > 1.82 | base$Weight > 55, c(1,2)]

Unnamed: 0_level_0,Gender,Height
Unnamed: 0_level_1,<chr>,<dbl>
1,M,1.83
2,F,1.76
3,M,1.82
5,M,1.9


In [None]:
# SI tengo muchas condiciones de un mismo valor, puedo incluirlas todas al mismo
# de la siguiente manera

# Por ejemplo, filtrar solo aquellas personas con altura 66, 58 y 75
base[base$Weight %in% c(66,58,75),]

# El comando %in% verifica si cada observación (fila) de la variable elegida
# Esta dentro de las opciones dadas.

Unnamed: 0_level_0,Gender,Height,Weight
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>
2,F,1.76,58
3,M,1.82,66
5,M,1.9,75


In [None]:
# Es posible agregar una nueva columan en un data.frame de manera directa
# Se debe tener cuidado en que tienen que tener la misma cantidad de observaciones
# que las columnas ya presentes.

base$Edad = c(35,21,34,66,61,18)
base

Gender,Height,Weight,Edad
<chr>,<dbl>,<dbl>,<dbl>
M,1.83,67,35
F,1.76,58,21
M,1.82,66,34
F,1.6,48,66
M,1.9,75,61
F,1.66,55,18


In [None]:
# Se puede eliminar una columna al igual que en matrices
base[,-2] # Eliminamos la columna 2

Gender,Weight,Edad
<chr>,<dbl>,<dbl>
M,67,35
F,58,21
M,66,34
F,48,66
M,75,61
F,55,18


Para guardar los cambios, siempre se debe sobreescribir el objeto que se utiliza, en caso contrario, lo realizado solo se proyectará en consola (justo como el último ejemplo en el que eliminó la columna 2; si consultamos la base se verá que no ha sufrido cambios).

In [None]:
base

Gender,Height,Weight,Edad
<chr>,<dbl>,<dbl>,<dbl>
M,1.83,67,35
F,1.76,58,21
M,1.82,66,34
F,1.6,48,66
M,1.9,75,61
F,1.66,55,18


In [None]:
# Es posible cambiar los nombre de la columnas
# Podemos cambiar una en específico
# Por ejemplo la primera

colnames(base)[1] = "Sexo"
base

Sexo,Height,Weight,Edad
<chr>,<dbl>,<dbl>,<dbl>
M,1.83,67,35
F,1.76,58,21
M,1.82,66,34
F,1.6,48,66
M,1.9,75,61
F,1.66,55,18


In [None]:
# O podemos todas, dándole a R un vector con todos los nombres que debe considerar
colnames(base) = c("Gender", "Altura", "Peso", "Age")
base

Gender,Altura,Peso,Age
<chr>,<dbl>,<dbl>,<dbl>
M,1.83,67,35
F,1.76,58,21
M,1.82,66,34
F,1.6,48,66
M,1.9,75,61
F,1.66,55,18


In [None]:
# Es posible revisar los nombres de las columnas con el comando 'colanmes( )'
colnames(base)

In [None]:
# Para obtener un resumen general de los datos que hay un data frame
# es posible usar el comando 'str( )'

## Ejercicios: trabajo personal

Para este ejercicio se trabajará con el conjunto de datos conocido como Fisher's iris data. Este conjunto contiene la medida en centímetros de las variables longitud y ancho de sépalo y pétalo para un total de 150 flores de tres especies diferentes (setosa, versicolor y virginica). Para acceder a los datos en R usaremos: data(iris).

1. ¿Cuántas filas y columnas posee la base de datos?
2. ¿Qué nombre tienen las variables (columnas) en la base de datos?
3. ¿Cuántas flores poseen una longitud de sépalo mayor a 5cm?
4. ¿Cuántas flores poseen una longitud de pétalo menor a 5cm?
5. ¿Cuántas flores poseen un pétalo más ancho que su sépalo?
6. ¿Cuál es la longitud y ancho de pétalo máximo y mínimo registrado en la base de datos para la especie de flor "virginica"?
7. Filtre una base de datos que contenga a las especies de "virginica" y "setosa".
7. En la base incial, convierta la columna de "Especie" en factor, de tal manera de que los niveles tengan el orden: setosa, versicolor y virginica.

In [None]:
# Esta base de datos está incorporada en R: ejecute esta celda y luego desarrolle los ejercicios.
datos = iris
colnames(datos) = c("LargoSepalo", "AnchoSepalo", "LargoPetalo", "AnchoPetalo", "Especie")
datos

LargoSepalo,AnchoSepalo,LargoPetalo,AnchoPetalo,Especie
<dbl>,<dbl>,<dbl>,<dbl>,<fct>
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5.0,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa
