-
Notifications
You must be signed in to change notification settings - Fork 12
/
07-eda.Rmd
217 lines (138 loc) · 6.12 KB
/
07-eda.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
# Análisis exploratorio de datos (_EDA_)
## Introducción
```{r, message = FALSE}
library(tidyverse)
library(datos)
```
## 7.3 Variación {-#preguntas}
### 7.3.4 Ejercicios{-#ejercicios-734}
1. Explora la distribución de cada una de las variables `x`, `y`, y `z`
en el set de datos `diamantes`. ¿Qué aprendiste? Piensa en un diamante y cómo decidirías
qué dimensiones corresponden a la longitud, ancho y profundidad.
<div class="solucion">
<h3>Solución</h3>
</div>
2. Explora la distribución de `precio`. ¿Ves algo inusual
o sorprendente? (Sugerencia: Piensa detenidamente en `binwidth` y asegúrate
de usar un rango largo de valores.)
<div class="solucion">
<h3>Solución</h3>
</div>
3. ¿Cuántos diamantes tienen 0.99 quilates? ¿Cuántos son de 1 quilate? ¿Qué piensas
que puede ser la causa de dicha diferencia?
<div class="solucion">
<h3>Solución</h3>
</div>
4. Compara y contrasta `coord_cartesian()` contra `xlim()` o `ylim()` en cuanto
a acercar la imagen en un histograma. ¿Qué pasa si no modificas el valor de `binwidth`?
¿Qué pasa si intentas acercar la imagen de manera que solo aparezca la mitad de una barra?
<div class="solucion">
<h3>Solución</h3>
</div>
## 7.4 Valores faltantes {-#valores-faltantes}
### 7.4.1 Ejercicios{-#ejercicios-741}
1. ¿Qué sucede con los valores faltantes en un histograma? ¿Qué pasa con los valores
faltantes en una gráfica de barras? ¿Cuál es la razón detrás de esta diferencia?
<div class="solucion">
<h3>Solución</h3>
</div>
2. ¿Qué efecto tiene usar `na.rm = TRUE` en `mean()` (_media_) y `sum()`(_suma_)?
<div class="solucion">
<h3>Solución</h3>
</div>
## 7.5 Covariación {-#covariacion}
### 7.5.1 Una variable categórica y otra continua {-#categorica-continua}
#### 7.5.1.1 Ejercicios{-#ejercicios-7511}
1. Usa lo que has aprendido para mejorar la visualización de los tiempos de salida
de los vuelos cancelados versus los no cancelados.
<div class="solucion">
<h3>Solución</h3>
</div>
2. ¿Qué variable del conjunto de datos de diamantes es más importante para predecir
el precio de un diamante? ¿Cómo está correlacionada esta variable con el corte?
¿Por qué la combinación de estas dos relaciones conlleva que los diamantes de
menor calidad sean más costosos?
<div class="solucion">
<h3>Solución</h3>
</div>
3. Instala el paquete **ggstance**, y crea un diagrama de caja horizontal.
¿Cómo se compara esto a usar `coord_flip()`?
<div class="solucion">
<h3>Solución</h3>
</div>
4. Un problema con los diagramas de caja es que fueron desarrollados en un tiempo en que
los sets de datos eran más pequeños y por ende tienden a mostrar un número muy grande de
"valores atípicos". Una estrategia para remediar este problema es
el diagrama __letter value__. Instala el paquete **lvplot**, e intenta usar
`geom_lv()` para mostrar la distribución de precio vs corte. ¿Qué observas?
¿Cómo intepretas los gráficos?
<div class="solucion">
<h3>Solución</h3>
</div>
5. Compara y contrasta `geom_violin()` con un `geom_histogram()` dividido en facetas,
o un `geom_freqpoly()` codificado por colores. ¿Cuáles son las ventajas y desventajas de
cada método?
<div class="solucion">
<h3>Solución</h3>
</div>
6. Si tu set de datos es pequeño, a veces resulta útil usar `geom_jitter()`
para ver la relación entre una variable continua y una discreta.
El paquete **ggbeeswarm** provee de un número de métodos similares a
`geom_jitter()`. Enlístalos y describe brevemente qué hace cada uno.
<div class="solucion">
<h3>Solución</h3>
</div>
## 7.5.2 Dos variables categóricas {-#categorica}
### 7.5.2.1 Ejercicios{-#ejercicios-7521}
1. ¿Cómo podrías cambiar la escala del conjunto de datos anterior para mostrar de manera más clara
la distribución del corte dentro del color, o del color dentro de la variable corte?
<div class="solucion">
<h3>Solución</h3>
</div>
2. Usa `geom_tile()` junto con *dplyr* para explorar la variación del retraso promedio
de los vuelos en relación al destino y mes del año. ¿Qué hace que este gráfico
sea difícil de leer? ¿Cómo podrías mejorarlo?
<div class="solucion">
<h3>Solución</h3>
</div>
3. ¿Por qué es un poco mejor usar `aes(x = color, y = corte)` en lugar de
`aes(x = corte, y = color)` en el ejemplo anterior?
<div class="solucion">
<h3>Solución</h3>
</div>
## 7.5.3 Dos variables continuas{-#continuas}
### 7.5.3.1 Ejercicios{-#ejercicios-7532}
1. En lugar de resumir la distribución condicional con un diagrama de caja, podrías
usar un polígono de frecuencia. ¿Qué deberías considerar cuando usas `cut_width()`
en comparación con `cut_number()`? ¿Qué impacto tiene este parámetro en la visualización
bidimensional de `quilate` y `precio`?
<div class="solucion">
<h3>Solución</h3>
</div>
2. Visualiza la distribución de `quilate`, segmentada según la variable `precio`.
<div class="solucion">
<h3>Solución</h3>
</div>
3. ¿Cómo es la distribución del precio de diamantes muy grandes en comparación con
aquella de diamantes más pequeños? ¿Es como esperabas, o te resulta sorprendente?
<div class="solucion">
<h3>Solución</h3>
</div>
4. Combina dos de las técnicas que has aprendido para visualizar
la distribución combinada de las variables `corte`, `quilate` y `precio`.
<div class="solucion">
<h3>Solución</h3>
</div>
5. Los gráficos bidimensionales revelan observaciones atípicas que podrían no ser visibles en
gráficos unidimensionales. Por ejemplo, algunos puntos en la gráfica a continuación tienen
una combinación inusual de valores `x` y `y`, que hace que algunos puntos sean valores atípicos
aún cuando sus valores `x` e `y` parecen normales cuando son examinados de manera individual.
```{r, dev = "png"}
ggplot(data = diamantes) +
geom_point(mapping = aes(x = x, y = y)) +
coord_cartesian(xlim = c(4, 11), ylim = c(4, 11))
```
¿Por qué es mejor usar un diagrama de dispersión que un diagrama basado en rangos en este caso?
<div class="solucion">
<h3>Solución</h3>
</div>