-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathT4G_Taller2.Rmd
2029 lines (1447 loc) · 108 KB
/
T4G_Taller2.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
---
title: "Análisis exploratorio de la encuesta inicial"
author:
- Simón Cuartas Rendón
- Danilo Isaac García Castaño
- David Mateo García Vallejo
- Luis Miguel Martínez Escobar
date: "Miércoles, 14 de abril de 2021"
output:
html_document:
toc: yes
toc_depth: 3
toc_float: true
---
<style>
body {
text-align: justify}
</style>
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = FALSE,
message = FALSE,
warning = FALSE)
```
```{r, include=FALSE}
library(tidyverse)
```
```{r, include=FALSE}
encuesta <- read.csv("encuesta1.csv", fileEncoding = "UTF-8")
```
```{r, include=FALSE}
glimpse(encuesta)
```
```{r, include=FALSE}
encuesta <- encuesta %>%
mutate_if(is.character, as.factor)
```
```{r, include=FALSE}
glimpse(encuesta)
```
## Introducción
La estadística es una herramienta bastante útil y con una creciente demanda, pues estamos constantemente rodeados por millones de datos que pueden ser traducidos a información importante si son tratados de la manera adecuada, y para ello es imprescindible comenzar con una fase exploratoria y descriptiva en la cual se comienzan a manipular los datos, entenderlos, realizar procesos de depuración de ser necesario y generar resúmenes estadísticos y gráficos, entre otros, con la finalidad de comprenderlos mejor y poder realizar de forma más adecuada otras actividades como las inferenciales y las predictivas.
Así, lenguajes de programación como R, con sus múltiples librerías, se convierten en una gran opción con la cual se puede realizar de forma ágil y elegante la exploración y descripción de los datos. Es por ello que en este trabajo se pondrá en práctica los conceptos, metodologías y las funciones y tips de R aprendidas en el curso de **Estadística Descriptiva y Análisis Exploratorio de Datos** (en adelante EDAED) a partir de una encuesta realizada a los estudiantes de esta materia.
Es importante aclarar que este trabajo ha sido planteado para que pueda ser leído por cualquier tipo de público, de modo que es explícito en cada uno de los procedimientos y conclusiones que se sacan, en el sentido que se explica todo con el mayor detalle posible y se trata de presentar la información de la manera más expedita posible.
## Depuración y ajuste de la base de datos
Para este proceso se tomó cada una de las variables de la base de datos y se estudió si los valores incluidos tenían sentido en su propio contexto. Además, **se crearon algunas variables adicionales** con el fin de analizar interrogantes que no podrían resolverse directamente con las variables existentes o para facilitar la comprensión de algunas otras. Es importante anotar que solo se hará mención de aquellas variables en las que se realizó alguna depuración o que fueron introducidas. También se mencionarán algunos cambios en la presentación de algunas variables categóricas de cara a la presentación al lector.
Es importante aclarar que en este trabajo no se le asignaron valores a los diferentes *NA* que se hallaron y se optó más bien por realizar los procesos descriptivos con aquellos valores definidos; esto con la finalidad de no alterar la información que se pudiese obtener a partir de ellas y no introducir posibles errores mediante una depuración equívoca.
### Primera sección de la encuesta: preguntas de caracterización
##### **Género:**
En este caso se va a realizar un renombramiento de las categorías que conforman esta variable de modo que su lectura se facilite para el lector.
```{r, include = FALSE}
levels(encuesta$Q01_Genero)
```
```{r, include = FALSE}
# Cambio de nombre para el género
encuesta$Q01_Genero <- as.character(encuesta$Q01_Genero)
encuesta$Q01_Genero[encuesta$Q01_Genero == '1 : Masculino'] <- 'Masculino'
encuesta$Q01_Genero[encuesta$Q01_Genero == '2 : Femenino'] <- 'Femenino'
encuesta$Q01_Genero[encuesta$Q01_Genero == '3 : Otro'] <- 'Otro'
encuesta$Q01_Genero <- as.factor(encuesta$Q01_Genero)
levels(encuesta$Q01_Genero)
summary(encuesta$Q01_Genero)
```
```{r, include=FALSE}
# Modificación del formato de la variable FECHA DE NACIMIENTO y de la variable FECHA SABER 11
encuesta <- encuesta %>%
mutate(Q02_FechaNac = as.Date(as.character(Q02_FechaNac), "%Y-%m-%d"),
Q07_FechaSaber11 = as.Date(as.character(Q07_FechaSaber11), "%Y-%m-%d"))
```
```{r, include=FALSE}
summary(encuesta$Q02_FechaNac)
summary(encuesta$Q07_FechaSaber11)
```
##### **Edad:**
Se crea la variable ***edad***, pues resulta más sencillo hacer análisis etarios con el valor de la edad en comparación con la fecha de nacimiento. Es importante notar que para el cálculo de esta se tomó la edad de los estudiantes del curso de EDAED al momento de realizar la encuesta, que fue el 26 de febrero de 2021.
```{r, include = FALSE}
# Creación de la variable EDAD
# Cálculo de la edad al 2021-FEB-26
encuesta <- encuesta %>%
mutate(Edad = as.numeric(as.Date("2021-02-26") - Q02_FechaNac)/365.25)
encuesta$Edad <- round(encuesta$Edad, 2)
```
##### **Tiempo empleado para la realización de la encuesta:**
Otra variable interesante, en especial para el análisis de las preguntas de la tercera sección de preguntas (áreas y propiedades de los reales) está relacionada con el tiempo empleado, en minutos, para la realización de la encuesta, por lo que se crea esta variable ***tiempo usado*** de acuerdo a la fecha de envío de la encuesta.
```{r, include = FALSE}
# Creación de la variable TIEMPO EMPLEADO
# Conversión a fecha-hora
encuesta <- encuesta %>%
mutate(fecha_entrega =
as.POSIXct(strptime(Enviado.el., format = "%d/%m/%Y %H:%M:%S")),
tiempo_usado = as.integer(format(fecha_entrega, "%M")) +
as.integer(format(fecha_entrega, "%S")) / 60 - 30)
encuesta$tiempo_usado <- round(encuesta$tiempo_usado, 2)
```
##### **Carrera:**
Se eliminó el número asociado a cada una de las respuestas, pues este no está dando información adicional o relevante, considerando especialmente que se trata de variables categóricas. Así, por ejemplo, se cambio ***'1 : Matemáticas'*** por ***'Matemáticas'***.
```{r, include = FALSE}
#Cambio de nombre de los pregrados
encuesta$Q03_Carrera <- as.character(encuesta$Q03_Carrera)
encuesta$Q03_Carrera[encuesta$Q03_Carrera == '1 : Matemáticas'] <- 'Matemáticas'
encuesta$Q03_Carrera[encuesta$Q03_Carrera == '2 : Ingeniería de sistemas e informática'] <- 'Ingeniería de sistemas e informática'
encuesta$Q03_Carrera[encuesta$Q03_Carrera == '3 : Estadística'] <- 'Estadística'
encuesta$Q03_Carrera[encuesta$Q03_Carrera == '4 : Ingeniería administrativa'] <- 'Ingeniería administrativa'
encuesta$Q03_Carrera[encuesta$Q03_Carrera == '5 : Ingeniería física'] <- 'Ingeniería física'
encuesta$Q03_Carrera[encuesta$Q03_Carrera == '6 : Ingeniería industrial'] <- 'Ingeniería industrial'
encuesta$Q03_Carrera[encuesta$Q03_Carrera == '7 : Otra'] <- 'Otra'
encuesta$Q03_Carrera <- as.factor(encuesta$Q03_Carrera)
levels(encuesta$Q03_Carrera)
summary(encuesta$Q03_Carrera)
```
##### **Avance:**
```{r, include = FALSE}
summary(encuesta$Q04_Semestre)
```
Entre los estudiantes es común hacer una diferencia entre los conceptos de **semestre** y **avance**, siendo el primero una referencia del número de matrículas que tiene un estudiante en la universidad y el segundo el porcentaje de créditos aprobados sobre la cantidad de créditos que deben aprobarse para egresar. En este sentido, se creó la varible ***avance*** que representa este valor de una forma más comprensible, con una ligera transformación en su definición, y es que entenderá como el cociente de la suma estima de los créditos aprobados de momento y matriculados en el semestre 2021-1S entre la cantidad total de créditos de la carrera.
```{r, include = FALSE}
encuesta <- encuesta %>%
mutate(V51_Avance = Q04_Semestre * 10)
```
##### **Puntaje en las pruebas Saber 11:**
Para entender esta variable es útil tener presente que a lo largo de la historia de esta prueba, el valor más bajo posible ha sido cero, mientras que el más alto ha sido quinientos. De este modo, se puede observar en el siguiente gráfico de dispersión que existe una entrada que superó el puntaje máximo (con número de respuesta 2493) y otros dos que tienen justo el puntaje mínimo (con números de respuesta 2505 y 2487).
```{r, include = FALSE}
summary(encuesta$Q05_Saber11)
```
```{r echo = FALSE}
dotchart(encuesta$Q05_Saber11, xlab="Puntaje Saber 11", ylab="Número de encuesta")
title(main = "Gráfico dos.
Puntajes en las pruebas Saber 11 (antes de depuración)")
lines(rep(500,nrow(encuesta)),1:nrow(encuesta),col = "#8b1700")
lines(rep(0,nrow(encuesta)),1:nrow(encuesta),col = "#002e8b")
```
```{r, echo = FALSE, include = FALSE}
encuesta %>%
filter(encuesta$Q05_Saber11 == 0 | encuesta$Q05_Saber11 > 500)
```
En este, claramente no tiene sentido obtener un puntaje de 580, máxime en el año 2009 (en el cual la persona que dice tener tal puntaje presentó el examen) cuando el puntaje máximo correspondía a 400 puntos), y como no existe ningún valor coherente posible para imputar de forma directa este valor, entonces se opta por descartarlo de la base de datos y convertirlo en un *NA*.
En el caso de los ceros, se presentan dos casos diferentes: en el primero (con código de respuesta 2505) se tiene que la persona presentó el examen de Estado en el año 1999, en el cual el puntaje mínimo era de cien puntos, por lo que se le imputará un *NA* a este cero; sin embargo, para el cero asociado a la respuesta número 2487, como esta persona rindió el test en el 2019, cuando sí era posible obtener un puntaje nulo, entonces el valor se mantendrá [1].
```{r, include = FALSE}
# Imputaciones
encuesta$Q05_Saber11[encuesta$Q05_Saber11 == 580 & !is.na(encuesta$Q05_Saber11)] <- NA
encuesta[6, 7] <- NA
```
##### **Percentil en las pruebas Saber 11:**
Al estar hablando de percentiles, se tiene que sus posibles valores deben pertenecer al intervalo [0, 100]. Entonces, como podemos ver en el gráfico de dispersión expuesto a continuación, existen dos valores que carecen de sentido, los cuales están relacionados con las respuestas 2432 (percentil 286) y 2476 (percentil 274).
```{r, echo = FALSE}
dotchart(encuesta$Q06_PercentilSaber11, xlab="Percentil Saber 11", ylab="Número de encuesta")
title(main = "Gráfico dos
Puntajes en las pruebas Saber 11 (antes de depuración)")
lines(rep(100,nrow(encuesta)),1:nrow(encuesta),col = "#8b1700")
lines(rep(0,nrow(encuesta)),1:nrow(encuesta),col = "#002e8b")
```
```{r, include = FALSE}
encuesta %>%
filter(Q06_PercentilSaber11 > 100)
```
Entonces, para su depuración,es necesario considerar el año en el que se presentó la prueba, pues en el pasado la clasificación del ICFES estaba dada por un puesto del uno a mil, donde uno es el mejor, por lo que se hará una conversión a percentil dividiéndoles por diez y restándole el resultado a 100 a la persona con percentil 286, pues la prueba la rindió en el 2015. No obstante, la persona que dice estar en el percentil 274 presentó el examen en el 2019, cuando este valor era expresado de forma explícita, y dado su puntaje, no tiene sentido pensar que se ubicó, por ejemplo, en el percentil 26 de ese año, por lo que será imputado como un *NA*.
```{r, include = FALSE}
encuesta$Q06_PercentilSaber11[encuesta$Q06_PercentilSaber11 == 230 & !is.na(encuesta$Q06_PercentilSaber11)] <- 100-230/10
encuesta[84, 8] <- NA
```
##### **Fecha de presentación de la prueba Saber 11:**
Observando la información resumen asociada a esta variable, se identificó una entrada en la que se propone la fecha de presentación el 8 de agosto de 2021, la cual aún no sucede, por lo que será tomada como un *NA*, considerando que otros posibles valores como 2020-08-08 no pueden ser asumidos, teniendo en cuenta que en el 2020 el ICFES fue en el mes de noviembre y que no existe ningún otro error tipográfico asociado al 2021 (pues el 2020 como ya vimos se descarta y los siguientes años aún no suceden).
```{r, include = FALSE}
encuesta$Q07_FechaSaber11[encuesta$Q07_FechaSaber11 == as.Date("2021-08-08") & !is.na(encuesta$Q07_FechaSaber11)] <- NA
```
##### **PAPA:**
En el caso del PAPA, es bien sabido que los valores posibles están en el intervalo [0, 5] con una cifra decimal de precisión; pero al realizar un diagrama de puntos para esta variable se puede identificar rápidamente una respuesta no acorde, pues da un valor de 45 (respuesta 2494). Así, para este caso, tiene sentido pensar que la persona olvidó incluir el punto decimal en su respuesta, por lo que se le da un PAPA de 4.5.
```{r, echo = FALSE}
dotchart(encuesta$Q08_PAPA, xlab = "PAPA", ylab = "Número de encuesta")
title(main = "Gráfico tres
PAPA (antes de depuración)")
lines(rep(5,nrow(encuesta)),1:nrow(encuesta),col = "#8b1700")
```
```{r, include = F}
encuesta %>%
filter(Q08_PAPA > 5)
```
```{r, include = FALSE}
encuesta$Q08_PAPA[encuesta$Q08_PAPA == 45 & !is.na(encuesta$Q08_PAPA)] <- 4.5
```
```{r, include = FALSE}
# Vivienda en el ÁREA METROPOLITANA
summary(encuesta$Q09_EnAreaMetropolitana)
```
##### **Estrato:**
Para esta variable simplemente se realizó un cambio en el nombre de las categorías con la finalidad de hacerlo más legible para el lector. Así, por ejemplo, se cambió *2 : 1* por *1*.
```{r, include = FALSE}
encuesta$Q10_Estrato <- as.character(encuesta$Q10_Estrato)
encuesta$Q10_Estrato[encuesta$Q10_Estrato == '2 : 1'] <- '1'
encuesta$Q10_Estrato[encuesta$Q10_Estrato == '3 : 2'] <- '2'
encuesta$Q10_Estrato[encuesta$Q10_Estrato == '4 : 3'] <- '3'
encuesta$Q10_Estrato[encuesta$Q10_Estrato == '5 : 4'] <- '4'
encuesta$Q10_Estrato[encuesta$Q10_Estrato == '6 : 5'] <- '5'
encuesta$Q10_Estrato[encuesta$Q10_Estrato == '8 : No se conoce'] <- 'No se conoce'
encuesta$Q10_Estrato <- as.factor(encuesta$Q10_Estrato)
levels(encuesta$Q10_Estrato)
summary(encuesta$Q10_Estrato)
```
##### **Recursos tecnológicos**
Para el análisis exploratorio se decidieron crear dos nuevas variables, una relacionada con los recursos tecnológicos propios (o con datos) y otra con los recursos tecnológicos no propios (o sin datos), donde se almacenará el número de recursos tecnológicos de dicho tipo con que cuentan los encuestados. El máximo valor que pueden tener estas variables es de 7, debido a que este es el número de opciones de dichos tipos que había disponible en la encuesta; mientras que el mínimo será de 0. Después de la creación de esta variable se reemplazan las respuestas individuales de cada recurso tecnológico de la siguiente manera: Un "1" por un ***"Si"*** y un "0" por un ***"No"***. Esto es simplemente para facilitar su análisis descriptivo.
```{r, include = FALSE}
# Creación de las variables numero_recursos_propios y numero_recursos_no_propios
# Se calculó sumando los unos y ceros almacenados en las variables correspondientes a cada tipo de recurso tecnológico.
encuesta <- encuesta %>%
mutate(numero_recursos_propios = Q14_RecursosInformaticos..Internet.de.cable.propio + Q14_RecursosInformaticos..Wifi.propio + Q14_RecursosInformaticos..Celular.con.datos + Q14_RecursosInformaticos..Portátil.propio + Q14_RecursosInformaticos..Computador.de.escritorio.propio.y.exclusivo + Q14_RecursosInformaticos..Computador.propio..pero.no.exclusivo + Q14_RecursosInformaticos..Tablet.con.datos.)
encuesta$numero_recursos_propios <- as.numeric(encuesta$numero_recursos_propios)
encuesta <- encuesta %>%
mutate(numero_recursos_no_propios = Q14_RecursosInformaticos..Internet.de.cable.no.propio + Q14_RecursosInformaticos..Wifi.no.propio + Q14_RecursosInformaticos..Celular.sin.datos + Q14_RecursosInformaticos..Portátil.no.propio + Q14_RecursosInformaticos..Computador.de.escritorio.no.propio.pero.exclusivo + Q14_RecursosInformaticos..Computador.de.escritorio.ni.propio.ni.exclusivo + Q14_RecursosInformaticos..Tablet.sin.datos)
encuesta$numero_recursos_no_propios <- as.numeric(encuesta$numero_recursos_no_propios)
```
```{r, include = FALSE}
# Instalación de R
encuesta$Q11_R <- as.character(encuesta$Q11_R)
encuesta$Q11_R[encuesta$Q11_R == '1'] <- 'Si'
encuesta$Q11_R[encuesta$Q11_R == '0'] <- 'No'
encuesta$Q11_R <- as.factor(encuesta$Q11_R)
levels(encuesta$Q11_R)
summary(encuesta$Q11_R)
```
```{r, include = FALSE}
# Instalación de R Studio
encuesta$Q12_RStudio <- as.character(encuesta$Q12_RStudio)
encuesta$Q12_RStudio[encuesta$Q12_RStudio == '1'] <- 'Si'
encuesta$Q12_RStudio[encuesta$Q12_RStudio == '0'] <- 'No'
encuesta$Q12_RStudio <- as.factor(encuesta$Q12_RStudio)
levels(encuesta$Q11_R)
summary(encuesta$Q12_RStudio)
```
```{r, include = FALSE}
summary(encuesta$Q13_NoRoRStudio)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Internet.de.cable.propio <- as.character(encuesta$Q14_RecursosInformaticos..Internet.de.cable.propio)
encuesta$Q14_RecursosInformaticos..Internet.de.cable.propio[encuesta$Q14_RecursosInformaticos..Internet.de.cable.propio == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Internet.de.cable.propio[encuesta$Q14_RecursosInformaticos..Internet.de.cable.propio == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Internet.de.cable.propio <- as.factor(encuesta$Q14_RecursosInformaticos..Internet.de.cable.propio)
levels(encuesta$Q14_RecursosInformaticos..Internet.de.cable.propio)
summary(encuesta$Q14_RecursosInformaticos..Internet.de.cable.propio)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Internet.de.cable.no.propio <- as.character(encuesta$Q14_RecursosInformaticos..Internet.de.cable.no.propio)
encuesta$Q14_RecursosInformaticos..Internet.de.cable.no.propio[encuesta$Q14_RecursosInformaticos..Internet.de.cable.no.propio == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Internet.de.cable.no.propio[encuesta$Q14_RecursosInformaticos..Internet.de.cable.no.propio == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Internet.de.cable.no.propio <- as.factor(encuesta$Q14_RecursosInformaticos..Internet.de.cable.no.propio)
levels(encuesta$Q14_RecursosInformaticos..Internet.de.cable.no.propio)
summary(encuesta$Q14_RecursosInformaticos..Internet.de.cable.no.propio)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Wifi.propio <- as.character(encuesta$Q14_RecursosInformaticos..Wifi.propio)
encuesta$Q14_RecursosInformaticos..Wifi.propio[encuesta$Q14_RecursosInformaticos..Wifi.propio == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Wifi.propio[encuesta$Q14_RecursosInformaticos..Wifi.propio == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Wifi.propio <- as.factor(encuesta$Q14_RecursosInformaticos..Wifi.propio)
levels(encuesta$Q14_RecursosInformaticos..Wifi.propio)
summary(encuesta$Q14_RecursosInformaticos..Wifi.propio)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Wifi.no.propio <- as.character(encuesta$Q14_RecursosInformaticos..Wifi.no.propio)
encuesta$Q14_RecursosInformaticos..Wifi.no.propio[encuesta$Q14_RecursosInformaticos..Wifi.no.propio == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Wifi.no.propio[encuesta$Q14_RecursosInformaticos..Wifi.no.propio == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Wifi.no.propio <- as.factor(encuesta$Q14_RecursosInformaticos..Wifi.no.propio)
levels(encuesta$Q14_RecursosInformaticos..Wifi.no.propio)
summary(encuesta$Q14_RecursosInformaticos..Wifi.no.propio)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Celular.sin.datos <- as.character(encuesta$Q14_RecursosInformaticos..Celular.sin.datos)
encuesta$Q14_RecursosInformaticos..Celular.sin.datos[encuesta$Q14_RecursosInformaticos..Celular.sin.datos == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Celular.sin.datos[encuesta$Q14_RecursosInformaticos..Celular.sin.datos == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Celular.sin.datos <- as.factor(encuesta$Q14_RecursosInformaticos..Celular.sin.datos)
levels(encuesta$Q14_RecursosInformaticos..Celular.sin.datos)
summary(encuesta$Q14_RecursosInformaticos..Celular.sin.datos)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Celular.con.datos <- as.character(encuesta$Q14_RecursosInformaticos..Celular.con.datos)
encuesta$Q14_RecursosInformaticos..Celular.con.datos[encuesta$Q14_RecursosInformaticos..Celular.con.datos == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Celular.con.datos[encuesta$Q14_RecursosInformaticos..Celular.con.datos == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Celular.con.datos <- as.factor(encuesta$Q14_RecursosInformaticos..Celular.con.datos)
summary(encuesta$Q14_RecursosInformaticos..Celular.con.datos)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Portátil.propio <- as.character(encuesta$Q14_RecursosInformaticos..Portátil.propio)
encuesta$Q14_RecursosInformaticos..Portátil.propio[encuesta$Q14_RecursosInformaticos..Portátil.propio == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Portátil.propio[encuesta$Q14_RecursosInformaticos..Portátil.propio == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Portátil.propio <- as.factor(encuesta$Q14_RecursosInformaticos..Portátil.propio)
summary(encuesta$Q14_RecursosInformaticos..Portátil.propio)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Portátil.no.propio <- as.character(encuesta$Q14_RecursosInformaticos..Portátil.no.propio)
encuesta$Q14_RecursosInformaticos..Portátil.no.propio[encuesta$Q14_RecursosInformaticos..Portátil.no.propio == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Portátil.no.propio[encuesta$Q14_RecursosInformaticos..Portátil.no.propio == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Portátil.no.propio <- as.factor(encuesta$Q14_RecursosInformaticos..Portátil.no.propio)
summary(encuesta$Q14_RecursosInformaticos..Portátil.no.propio)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.propio.y.exclusivo <- as.character(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.propio.y.exclusivo)
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.propio.y.exclusivo[encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.propio.y.exclusivo == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.propio.y.exclusivo[encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.propio.y.exclusivo == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.propio.y.exclusivo <- as.factor(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.propio.y.exclusivo)
summary(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.propio.y.exclusivo)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.no.propio.pero.exclusivo <- as.character(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.no.propio.pero.exclusivo)
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.no.propio.pero.exclusivo[encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.no.propio.pero.exclusivo == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.no.propio.pero.exclusivo[encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.no.propio.pero.exclusivo == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.no.propio.pero.exclusivo <- as.factor(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.no.propio.pero.exclusivo)
summary(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.no.propio.pero.exclusivo)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Computador.propio..pero.no.exclusivo <- as.character(encuesta$Q14_RecursosInformaticos..Computador.propio..pero.no.exclusivo)
encuesta$Q14_RecursosInformaticos..Computador.propio..pero.no.exclusivo[encuesta$Q14_RecursosInformaticos..Computador.propio..pero.no.exclusivo == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Computador.propio..pero.no.exclusivo[encuesta$Q14_RecursosInformaticos..Computador.propio..pero.no.exclusivo == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Computador.propio..pero.no.exclusivo <- as.factor(encuesta$Q14_RecursosInformaticos..Computador.propio..pero.no.exclusivo)
summary(encuesta$Q14_RecursosInformaticos..Computador.propio..pero.no.exclusivo)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.ni.propio.ni.exclusivo <- as.character(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.ni.propio.ni.exclusivo)
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.ni.propio.ni.exclusivo[encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.ni.propio.ni.exclusivo == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.ni.propio.ni.exclusivo[encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.ni.propio.ni.exclusivo == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.ni.propio.ni.exclusivo <- as.factor(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.ni.propio.ni.exclusivo)
summary(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.ni.propio.ni.exclusivo)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Tablet.sin.datos <- as.character(encuesta$Q14_RecursosInformaticos..Tablet.sin.datos)
encuesta$Q14_RecursosInformaticos..Tablet.sin.datos[encuesta$Q14_RecursosInformaticos..Tablet.sin.datos == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Tablet.sin.datos[encuesta$Q14_RecursosInformaticos..Tablet.sin.datos == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Tablet.sin.datos <- as.factor(encuesta$Q14_RecursosInformaticos..Tablet.sin.datos)
summary(encuesta$Q14_RecursosInformaticos..Tablet.sin.datos)
```
```{r, include = FALSE}
encuesta$Q14_RecursosInformaticos..Tablet.con.datos. <- as.character(encuesta$Q14_RecursosInformaticos..Tablet.con.datos.)
encuesta$Q14_RecursosInformaticos..Tablet.con.datos.[encuesta$Q14_RecursosInformaticos..Tablet.con.datos. == '1'] <- 'Si'
encuesta$Q14_RecursosInformaticos..Tablet.con.datos.[encuesta$Q14_RecursosInformaticos..Tablet.con.datos. == '0'] <- 'No'
encuesta$Q14_RecursosInformaticos..Tablet.con.datos. <- as.factor(encuesta$Q14_RecursosInformaticos..Tablet.con.datos.)
summary(encuesta$Q14_RecursosInformaticos..Tablet.con.datos.)
```
### Segunda sección: conspiraciones
Para el análisis exploratorio se decidió crear una nueva variable llamada ***numero_conspiraciones***, donde se almacenará el número de conspiraciones falsas en que creen los encuestados. El máximo valor que tendrá esta variable es de 5, mientras que el mínimo será de 0. Después de la creación de esta variable se reemplazan las respuestas individuales de conspiraciones de la siguiente manera: Un "1" por un ***"Si"*** y un "0" por un ***"No"***. Esto es simplemente para facilitar su respectivo análisis descriptivo.
```{r, include = FALSE}
# Creación de la variable numero_conspiraciones
# Se calculó sumando los unos y ceros almacenados en las variables correspondientes a las conspiraciones falsas.
encuesta <- encuesta %>%
mutate(numero_conspiraciones = Q15_Alunizaje + Q18_Vacunas + Q20_RafagasSolares + Q21_TierraHueca + Q22_alienigenas + Q23_CambioClimatico)
encuesta$numero_conspiraciones <- as.factor(encuesta$numero_conspiraciones)
```
```{r, include = FALSE}
encuesta$Q15_Alunizaje <- as.character(encuesta$Q15_Alunizaje)
encuesta$Q15_Alunizaje[encuesta$Q15_Alunizaje == '1'] <- 'Si'
encuesta$Q15_Alunizaje[encuesta$Q15_Alunizaje == '0'] <- 'No'
encuesta$Q15_Alunizaje <- as.factor(encuesta$Q15_Alunizaje)
summary(encuesta$Q15_Alunizaje)
```
```{r, include = FALSE}
encuesta$Q16_EspionajeInternet <- as.character(encuesta$Q16_EspionajeInternet)
encuesta$Q16_EspionajeInternet[encuesta$Q16_EspionajeInternet == '1'] <- 'Si'
encuesta$Q16_EspionajeInternet[encuesta$Q16_EspionajeInternet == '0'] <- 'No'
encuesta$Q16_EspionajeInternet <- as.factor(encuesta$Q16_EspionajeInternet)
summary(encuesta$Q16_EspionajeInternet)
```
```{r, include = FALSE}
encuesta$Q17_Experimentos <- as.character(encuesta$Q17_Experimentos)
encuesta$Q17_Experimentos[encuesta$Q17_Experimentos == '1'] <- 'Si'
encuesta$Q17_Experimentos[encuesta$Q17_Experimentos == '0'] <- 'No'
encuesta$Q17_Experimentos <- as.factor(encuesta$Q17_Experimentos)
summary(encuesta$Q17_Experimentos)
```
```{r, include = FALSE}
encuesta$Q18_Vacunas <- as.character(encuesta$Q18_Vacunas)
encuesta$Q18_Vacunas[encuesta$Q18_Vacunas == '1'] <- 'Si'
encuesta$Q18_Vacunas[encuesta$Q18_Vacunas == '0'] <- 'No'
encuesta$Q18_Vacunas <- as.factor(encuesta$Q18_Vacunas)
summary(encuesta$Q18_Vacunas)
```
```{r, include = FALSE}
encuesta$Q19_EvidenciaFalsa <- as.character(encuesta$Q19_EvidenciaFalsa)
encuesta$Q19_EvidenciaFalsa[encuesta$Q19_EvidenciaFalsa == '1'] <- 'Si'
encuesta$Q19_EvidenciaFalsa[encuesta$Q19_EvidenciaFalsa == '0'] <- 'No'
encuesta$Q19_EvidenciaFalsa <- as.factor(encuesta$Q19_EvidenciaFalsa)
summary(encuesta$Q19_EvidenciaFalsa)
```
```{r, include = FALSE}
encuesta$Q20_RafagasSolares <- as.character(encuesta$Q20_RafagasSolares)
encuesta$Q20_RafagasSolares[encuesta$Q20_RafagasSolares == '1'] <- 'Si'
encuesta$Q20_RafagasSolares[encuesta$Q20_RafagasSolares == '0'] <- 'No'
encuesta$Q20_RafagasSolares <- as.factor(encuesta$Q20_RafagasSolares)
summary(encuesta$Q20_RafagasSolares)
```
```{r, include = FALSE}
encuesta$Q21_TierraHueca <- as.character(encuesta$Q21_TierraHueca)
encuesta$Q21_TierraHueca[encuesta$Q21_TierraHueca == '1'] <- 'Si'
encuesta$Q21_TierraHueca[encuesta$Q21_TierraHueca == '0'] <- 'No'
encuesta$Q21_TierraHueca <- as.factor(encuesta$Q21_TierraHueca)
summary(encuesta$Q21_TierraHueca)
```
```{r, include = FALSE}
encuesta$Q22_alienigenas <- as.character(encuesta$Q22_alienigenas)
encuesta$Q22_alienigenas[encuesta$Q22_alienigenas == '1'] <- 'Si'
encuesta$Q22_alienigenas[encuesta$Q22_alienigenas == '0'] <- 'No'
encuesta$Q22_alienigenas <- as.factor(encuesta$Q22_alienigenas)
summary(encuesta$Q22_alienigenas)
```
```{r, include = FALSE}
encuesta$Q23_CambioClimatico <- as.character(encuesta$Q23_CambioClimatico)
encuesta$Q23_CambioClimatico[encuesta$Q23_CambioClimatico == '1'] <- 'Si'
encuesta$Q23_CambioClimatico[encuesta$Q23_CambioClimatico == '0'] <- 'No'
encuesta$Q23_CambioClimatico <- as.factor(encuesta$Q23_CambioClimatico)
summary(encuesta$Q23_CambioClimatico)
```
### Tercera sección: álgebra y percepción grupal
##### **Área sombreada:**
En esta pregunta se realizó una nueva reformulación de las diferentes categorías para lograr hacerlas más legibles. Así, por ejemplo, se cambio ***1 : 7.5\*pi*** por un ***7.5\*pi***
```{r, include = FALSE}
encuesta$Q24_area <- as.character(encuesta$Q24_area)
encuesta$Q24_area[encuesta$Q24_area == '1 : 7.5*pi'] <- '7.5*pi'
encuesta$Q24_area[encuesta$Q24_area == '2 : 6*pi'] <- '6*pi'
encuesta$Q24_area[encuesta$Q24_area == '3 : 4.5*pi'] <- '4.5*pi'
encuesta$Q24_area[encuesta$Q24_area == '4 : 4*pi'] <- '4*pi'
encuesta$Q24_area[encuesta$Q24_area == '5 : 3*pi'] <- '3*pi'
encuesta$Q24_area[encuesta$Q24_area == '6 : Ninguna de las anteriores'] <- 'Ninguna de las anteriores'
encuesta$Q24_area <- as.factor(encuesta$Q24_area)
levels(encuesta$Q24_area)
summary(encuesta$Q24_area)
```
##### **Porcentaje de estudiantes que se cree que respondieron bien la pregunta del área:**
Para esta pregunta, se asume que el valor que debió haber sido ingresado era un número del cero al cien que representaba un porcentaje. En este sentido, si bien un valor menor a uno tendría a cero (pues está dentro del rango permitido de valores), este no tiene mucho sentido considerando el tamaño del grupo. Así, se puede pensar que la persona con respuesta 2461 que introdujo como respuesta en realidad quería plantear que un diez por ciento (10 %) de los estudiantes del EDAED contestarían bien tal pregunta.
```{r, include = FALSE}
summary(encuesta$Q25_PorcentArea)
```
```{r, include = FALSE}
encuesta %>%
filter(encuesta$Q25_PorcentArea < 1)
```
```{r, include = FALSE}
encuesta$Q25_PorcentArea[encuesta$Q25_PorcentArea < 1 & !is.na(encuesta$Q25_PorcentArea)] <- 10
```
##### **Divisores**
Dado que esta pregunta era de múltiple respuesta y tenía tres opciones de respuesta, además que las tres opciones eran correctas y por lo tanto para haber respondido acertadamente es su totalidad había que elegir las tres opciones, se decidió crear una nueva variable llamada ***opciones_divisor*** para así ver cuántos estudiantes contestaron correctamente esta pregunta. La variable almacenará la cantidad de opciones que los estudiantes eligieron, siendo la mínima cantidad de 0 y la máxima cantidad de 3.
```{r, include = FALSE}
# Creación de la variable opciones_divisor
# Se calculó sumando los unos y ceros almacenados en las variables correspondientes a las opciones, un uno cuando la opción fue seleccionada, o un cero si no fue seleccionada.
encuesta <- encuesta %>%
mutate(opciones_divisor = Q26_Divisor..f.es.divisor.de.g.2. + Q26_Divisor..f.es.divisor.de.gh. + Q26_Divisor..f.es.divisor.de.h.g)
encuesta$opciones_divisor <- as.factor(encuesta$opciones_divisor)
```
##### **Porcentaje de estudiantes que se cree que respondieron bien la pregunta de álgebra:**
Nuevamente, para el encuestado con respuesta 2461, se va a imputar su valor con una lógica semejante a la anterior, cambiando el 0.50 por un 50.
```{r, include = F}
summary(encuesta$Q27_PorcentDivisor)
```
```{r, include = F}
encuesta %>%
filter(encuesta$Q27 < 1)
```
```{r, include = FALSE}
encuesta$Q27_PorcentDivisor[encuesta$Q27_PorcentDivisor < 1 & !is.na(encuesta$Q27_PorcentDivisor)] <- 50
```
## Análisis descriptivo
*Observación. La numeración de las preguntas no coincide con la de la encuesta original, en tanto existen varias preguntas que son analizadas en grupos.*
### Primera parte de la encuesta
A continuación se presenta el análisis descriptivo de la primera sección de preguntas de la encuesta, la cual consiste de preguntas de caracterización del estudiante.
#### 1. Tiempo empleado en responder la encuesta
Como anteriormente se había dicho, para analizar la fecha de envío de la encuesta se usará una nueva variable correspondiente al tiempo usado en minutos para responder la encuesta. Se ve que en promedio los estudiantes del curso respondieron la encuesta en 16.24 minutos, donde el que la envió de primero usó un tiempo de 5.03 minutos y el que la envió de último usó un tiempo de 28.93 minutos. En la gráfica también se puede ver que la mayoría de estudiantes usaron entre 10 y 20 minutos para responder la encuesta.
```{r, echo = FALSE}
summary(na.omit(encuesta$tiempo_usado))
```
```{r, echo = FALSE}
hist(encuesta$tiempo_usado, breaks="Sturges", col="#002e8b",
main = "Tiempo usado para responder la encuesta",
ylab = "Frecuencia", xlab = "Tiempo(Minutos)")
```
#### 2. Género
La variable **género** se constituye como una variable categórica con un orden de medición nominal, donde las posibles categorías son ***masculino***, ***femenino*** y ***otro*** (notar que la pregunta es por la identidad de género y no por el sexo). Así, a partir de la tabla y el gráfico expuestos a continuación, es posible observar que el curso está compuesto por hombres en un poco más de sus tres cuartas partes (75.86 % del total), mientras que las mujeres solo conforman un 22.99%, lo que permite establecer una relación aproximada de tres hombres por cada mujer. Además, entre los estudiantes del curso, existe una persona (que se hace con el 1.15 % del total) que se autopercibe como una persona no binaria, pues no es del género femenino ni masculino.
```{r, echo = FALSE}
# Tabla para el género
tbl_gen <- table(encuesta$Q01_Genero)
tbl_genP <- tbl_gen * 100 / sum(tbl_gen)
tbl_genP <- round(sort(tbl_genP, decreasing = TRUE), 2)
tbl_genP
```
```{r, echo = FALSE}
# Gráfico para el género
gr_gen <- barplot(tbl_genP, las = 1, ylim = c(0, 100), col = "#002e8b")
text(gr_gen, tbl_genP + 5, paste(round(tbl_genP, 2), "%"))
title(main = "Género de los estudiantes de EDAED",
xlab = "Género", ylab = "Porcentaje (%)")
```
#### 3. Edad
Para analizar la fecha de nacimiento, se va a apelar a la variable auxiliar ***edad*** que se creó con el objeto de facilitar el análisis de esta variable. Así, como se puede ver a continuación, la edad promedio de los estudiantes de EDAED al 26 de febrero de 2021 era de 21.55 años y tiene su mediana en 20.86 años. Además, el estudiante más joven del curso tiene 17.53 años, mientras que el mayor cuenta con 38.61 años. Además, como se puede observar en el histograma, hay un carácter bimodal en la distribución, pues existen un par de edades que se repiten con mucha frecuencia: una un poco antes de los veinte años y otra hacia los 22.5 años.
```{r, echo = FALSE}
# Resúmenes numéricos para EDAD
summary(encuesta$Edad)
```
```{r, echo = FALSE}
clases_ed <- ceiling(1+3.33*log(length(encuesta$Edad), base = 10))
paramAnt <- par(no.readonly = TRUE)
hist(encuesta$Edad, freq = FALSE, nclass = 20, col = "#002e8b",
las = 1,
main = "Distribución de la edad",
xlab = "Edad (años)",
ylab = "Densidad",
ylim = c(0, 0.20),
xlim = c(15, 40))
lines(density(encuesta$Edad), col = "#748b00", lwd = 3)
rug(encuesta$Edad)
par(paramAnt)
```
#### 4. Carrera
```{r, echo = FALSE}
# Tabla para la carrera
tbl_carr <- table(encuesta$Q03_Carrera)
tbl_carrP <- tbl_carr * 100 / sum(tbl_carr)
tbl_carrP <- round(sort(tbl_carrP, decreasing = TRUE), 2)
```
```{r, echo = FALSE}
# Gráfico para la carrera
Nombres_Carreras = c("Estadística","Ingeniería de\n sistemas e\n informática","Ingeniería\n industrial","Matemáticas","Ingeniería\n administrativa","Ingeniería\n física","Otra")
gr_carr <- barplot(tbl_carrP, las = 1, names.arg = Nombres_Carreras, ylim = c(0, 100), col = "#002e8b", cex.names = 0.6)
text(gr_carr, tbl_carrP + 5, paste(round(tbl_carrP, 2), "%"))
title(main = "Carrera de los estudiantes de EDAED",
ylab = "Porcentaje (%)")
```
#### 5. Avance en la carrera
Como ya se explicó anteriormente, para el análisis de la variable ***semestre*** se va a apelar a la conversión ***avance***, la cual es una variable continua con un nivel de medición de razón, y como se puede notar a continuación, el estudiante que presenta un menor avance lleva un 15% de créditos aprobados, mientras que el estudiante con más avance alcanza el 80%. Además, es curioso notar que al menos el 75 % de los estudiantes de EDAED presentan un avance igual o menor al 50 %. Por otro lado, en el histograma se puede observar que esta es una variable unimodal, siendo claro que la mayor parte de los estudiantes de este curso apenas están comenzando con sus carreras universitarias.
Es importante destacar que para la definición de la cantidad de clases de este histograma (siete) se empleó la metodología de Sturges.
```{r, echo = FALSE}
# Resúmenes numéricos para EDAD
aux_avance = na.omit(encuesta$V51_Avance)
summary(aux_avance)
```
```{r, echo = FALSE}
clases_av <- ceiling(1+3.33*log(length(encuesta$Q04_Semestre) - 1, base = 10))
paramAnt <- par(no.readonly = TRUE)
hist(encuesta$V51_Avance, freq = FALSE, nclass = clases_av, col = "#002e8b",
las = 1,
main = "Distribución del avance",
xlab = "Avance (%)",
ylab = "Densidad",
ylim = c(0, 0.20),
xlim = c(0, 80))
lines(density(encuesta$Edad), col = "#748b00", lwd = 3)
par(paramAnt)
```
#### 6. Puntaje en las pruebas Saber 11
Como se puede observar a continuación, los estudiantes del curso de EDAED tienen puntajes que toman todo el rango de posibles resultados para esta prueba, es decir, desde cero hasta quinientos, siendo de interés que la calificación promedio es de 322.7 puntos y que al menos el 50 % de los estudiantes del curso han obtenido un puntaje de 322.7 o menos. También se puede observar a partir del gráfico adjunto que esta es una distribución unimodal y que es sesgada hacia la derecha, es decir, que hay una mayor concentración de valores hacia los puntajes medios-altos, especialmente entre 250 y los 400 puntos.
```{r, echo = FALSE}
summary(na.omit(encuesta$Q05_Saber11))
```
```{r, echo = FALSE}
hist(encuesta$Q05_Saber11, breaks="Sturges", col="#002e8b",
main = "Resultados de la prueba Saber 11",
ylab = "Frecuencia", xlab = "Puntaje")
```
#### 7. Percentil en las pruebas Saber 11
Como se ve en el siguiente gráfico, los estudiantes del curso abarcan casi que todos los posibles percentiles para esta prueba, es decir, desde cero hasta cien, e interesa que el percentil promedio es el 78.94 y que por lo menos el 50 % de los estudiantes del curso se sitúan en el percentil 88 o inferior. También se puede observar a partir del gráfico que esta es una distribución bastante sesgada hacia la derecha, es decir, que hay una mayor frecuencia de estudiantes en los percentiles altos.
```{r, echo = FALSE}
summary(na.omit(encuesta$Q06_PercentilSaber11))
```
```{r, echo = FALSE}
hist(encuesta$Q06_PercentilSaber11, breaks="Sturges", col="#002e8b",
main = "Percentiles de la prueba Saber 11",
ylab = "Frecuencia", xlab = "Percentil")
```
#### 8. Fecha de presentación de las pruebas Saber 11
Se puede ver que gran parte de los estudiantes del curso presentaron las pruebas Saber 11 no hace mucho tiempo, pues el año promedio de presentación corresponde al 2016, y porque a lo menos el 25% de los estudiantes del curso presentaron su prueba antes del 2015. Esto se puede verificar al observar el gráfico, pues es una distribución sesgada hacia la derecha, pues hay una mayor frecuencia de presentación de la prueba hacia los años más recientes, más que todo entre el 2014 y el 2020.
```{r, echo = FALSE}
summary(na.omit(as.numeric(format(encuesta$Q07_FechaSaber11, "%Y"))))
```
```{r, echo = FALSE}
hist(as.numeric(format(encuesta$Q07_FechaSaber11, "%Y")), breaks="Sturges", col="#002e8b",
main = "Fecha de presentación de la prueba Saber 11",
ylab = "Frecuencia", xlab = "Año")
```
#### 9. PAPA
Corresponde al Promedio Aritmético Ponderado Acumulado de los estudiantes del curso, y vemos que en promedio estos tienen un PAPA de 4.042, donde el mayor PAPA es de 4.7 y el menor es de 3. Además, en la gráfica vemos que la mayoría de los estudiantes del curso tienen un PAPA entre 3.6 y 4.6.
```{r, echo = FALSE}
summary(na.omit(encuesta$Q08_PAPA))
```
```{r, echo = FALSE}
hist(encuesta$Q08_PAPA, breaks="Sturges", col="#002e8b",
main = "Promedio Aritmético Ponderado Acumulado\n de los estudiantes del curso EDAED",
ylab = "Frecuencia", xlab = "PAPA",
xlim = c(3, 5))
```
#### 10. Presencia en el Área Metropolitana del Valle de Aburrá
```{r, echo = FALSE}
# Tabla para la variable EnAreaMetropolitana
tbl_area <- table(encuesta$Q09_EnAreaMetropolitana)
tbl_areaP <- tbl_area * 100 / sum(tbl_area)
tbl_areaP <- round(sort(tbl_areaP, decreasing = FALSE), 2)
```
```{r, echo = FALSE}
# Gráfico para la variable EnAreaMetropolitana
Categorias = c("No Presente","Presente")
gr_area <- barplot(tbl_areaP, las = 1, names.arg = Categorias, ylim = c(0, 100), col = "#002e8b")
text(gr_area, tbl_areaP + 6, paste(round(tbl_areaP, 2), "%"))
title(main = "Presencia de los estudiantes de EDAED en\n el Área Metropolitana del Valle de Aburrá",
ylab = "Porcentaje (%)")
```
#### 11. Estrato socioeconómico
```{r, echo = FALSE}
barplot(table(encuesta$Q10_Estrato),
col = "#002e8b",
main = "Estrato Socioeconómico",
xlab = "Estrato de la vivienda ",
ylab = "Numero de estudiantes"
)
```
El estrato corresponde en este caso a una variable categórica la cual esta dividida en diferentes clasificaciones. En el caso de la encuesta que se realizó para los estudiantes de EDAED, corresponde desde la clasificacion "1" que seria el estrado más bajo, e iría hasta la clasificación "5" que seria el estrato evidentemente más alto de los estudiantes encuestados. Cabe anotar que al final se observa una clasificacioó algo inusual para las anteriores, siendo esta *"No se conoce"* la cual indica que el estudiante al momento de realizar la encuesta no conocía el estrato al que pertenecia su vivienda. De la tabla podemos evidenciar que los estratos en los cuales se concentran los estudiantes del curso EDAED son los estrados 2 y 3. Además, se observa que hay pocos estudiantes que pertenecen a los estratos 1, 4 y 5.
#### 12. Instalación de R y RStudio
```{r, echo = FALSE}
barplot(table(encuesta$Q11_R),
col = "#002e8b",
main = "Programa R instalado y/o actualizado",
xlab = "Instalacion o actualizacion de R ",
ylab = "Numero de estudiantes")
```
##### **Instalación de R**
```{r, echo = FALSE}
summary(encuesta$Q11_R)
```
##### **Instalación de RStudio**
```{r, echo = FALSE}
summary(encuesta$Q12_RStudio)
```
De acuerdo con la información anterior y a la pregunta que se planteaba sobre la instalación del R y el RStudio o su respectiva actualizacion, se puede decir que 80 personas habían realizado la instalacion y/o actualización del software R, esto ws equivalente a un 92 % del total de los estudiantes encuestados. El resto que, fue el 8 %, correspondían a los encuestados que no habian instalado el R o no habían actualizado el r teniéndolo ya instalado en su computador. Respondiendo a la pregunta que concierne al RStudio, se puede decir que el 77 %, equivalente a 76 personas, habían instalado el RStudio como lo había dictaminado el profesor en la primera clase, y de acuerdo a esto se puede decir que el 23 % restante no había hecho la instalación de RStudio al momento de la realización de la encuesta de la asignatura EDAED.
##### **No instalación de R o RStudio**
```{r, echo = FALSE}
table(encuesta$Q13_NoRoRStudio)
```
Así pues, de acuerdo a la tabla anterior, que hace referencia a no tener en el ordenador ninguno de los programas estadísticos solicitados por el docente de EDAED, de la cual se observa que del total de los 87 estudiantes, 76 sí tenian uno o los dos programas instalados, pero 8 no poseían la forma de tener alguno de los dos software correctamente instalados dado a diversas razones ajenas a la asignatura. Se puede destacar que hubo un estudiante que su respuesta no fue coherente con el fin de la pregunta.
#### 13. Acceso a internet de cable propio
##### **Recursos informáticos: Internet de cable propio**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Internet.de.cable.propio)
```
##### **Recursos informáticos: Internet de cable no propio**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Internet.de.cable.no.propio)
```
Con respecto a la pregunta de tener internet de cable propio o no y respondiendo a la primera pregunta ("contar con internet de cable propio"), 39 de los estudiantes de EDAED sí lo tenían mientras que 48 de ellos, no. Luego, sobre la segunda pregunta ("no poseer internet de cable propio"), observamos que ya son 85 estudiantes (98%) y el 2% restante sí tiene internet de cable pero no pertenece a ellos como tal.
#### 14. Acceso a Wi-Fi
##### **Recursos informáticos: Wi-Fi propio**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Wifi.propio)
```
##### **Recursos informáticos: Wi-Fi no propio**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Wifi.no.propio)
```
Respecto a la variable relacionada con la pregunta que cuestiona sobre la propiedad de Wi-Fi, se tenían dos opciones de respuesta: propio y no propio. Las tablas muestran que 75 estudiantes de EDAED tenian Wi-Fi propio al momento de la encuesta, cuyo numero equivale de un total de 87 estudiantes al 86 %. El 14% restante no tenía W-iFi propio. Estudiando la otra variable ("Wi-Fi no propio"), se evidencia que 10 personas no tenían Wi-Fi propio en sus hogares (11%)
#### 15. Acceso a red de datos
##### **Recursos informáticos: celular con datos**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Celular.con.datos)
```
##### **Recursos informáticos: celular sin datos**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Celular.sin.datos)
```
En la pregunta de celular con datos al momento de la encuesta, 61 estudiantes no contaban con servicio de intenet móvil, mientras que 26 estudiantes sí tenían datos en su celular.
Cabe resaltar que la siguiente pregunta sobre si no se tenian datos en el celular, de los estudiantes encuestados, más del 50% no tenáan datos móviles en su celular.
#### 16. Acceso a portátil propio.
##### **Recursos informáticos: portátil propio**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Portátil.propio)
```
##### **Recursos informáticos: portátil no propio**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Portátil.no.propio)
```
71 estudiantes (82 %) de EDAED poseían portátil propio al momento de realizar la encuesta, mientras que 16 de ellos (18 %) no tenían porttil o bien, tenían computador de escritorio. Tomando para el análisis la segunda pregunta ("portátil no propio"), 6 estudiantes contaban con portátil pero no era propio. Se puede decir que un total de 77 estudiantes (89%) contaban con portátil en sus hogares.
#### 17. Computador de escritorio propio y exclusivo
##### **Recursos informáticos: Computador de escritorio propio y exclusivo**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.propio.y.exclusivo)
```
##### **Recursos informáticos: Computador de escritorio no propio pero exclusivo**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.no.propio.pero.exclusivo)
```
##### **Recursos informáticos: Computador de escritorio ni propio ni exclusivo**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Computador.de.escritorio.ni.propio.ni.exclusivo)
```
##### **Recursos informáticos: Computador de escritorio propio pero no exclusivo**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Computador.propio..pero.no.exclusivo)
```
Según las tablas anteriores, 14 estudiantes contaban al momento de la encuesta con computador propio de escritorio, bien sea exclusivo o no. Por otro lado, cuatro de ellos no contaban con computador de escritorio propio y que fuera exclusivo y solamente 1 estudiante no tenía posesion de un computador de escritorio pero sí era exclusivo.
#### 18. Acceso a tablet con datos
##### **Recursos informáticos: tablet sin datos**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Tablet.con.datos.)
```
##### **Recursos informáticos: tablet sin datos**
```{r, echo = FALSE}
summary(encuesta$Q14_RecursosInformaticos..Tablet.sin.datos)
```
Solamente tres estudiantes tenían acceso a tablet con datos, mientras que otros siete no tenían datos en su tablet.
### Segunda parte de la encuesta
En esta sección se indagarán los resultados relacionados con diversas conspiraciones, siendo algunas falsas y otras verdaderas (debidamente documentadas) y las posiciones de los estudiantes del curso de EDAED respecto a estas.
#### 19. Conspiraciones: Alunizaje
```{r, echo = FALSE}
summary(encuesta$Q15_Alunizaje)
```
Con respecto a la pregunta que se habia planteado sobre si el hombre había llegado realmente a la Luna o si era un montaje de HollyWood, once personas respondieron erróneamente dicha pregunta, ya que la respuesta correcta fue que el hombre sí había llegado a la Luna, y en este sentido, 76 estudiantes acertaron este interrogante.
#### 20. Conspiraciones: Espionaje en Internet
```{r, echo = FALSE}
summary(encuesta$Q16_EspionajeInternet)
```
El 68% de los encuestados (59 estudiantes) estuvieron de acuerdo con que la Agencia de Seguridad Nacional de Estados Unidos estuvo en problemas por crear un proyecto para espiar el internet de los civiles, plan que fue llevado a juicio dado que violaba la libertad de las personas, siendo este un derecho fundamental en tal país, y aparte era ilegal ya que se estaba haciendo sin consentimiento alguno. El 32 % de los encuestados respondió con un "No" dado que no creían tal hecho o tenían desconocimiento sobre este.
#### 21. Conspiraciones: Experimentos en personas afroamericanas
```{r, echo = FALSE}
summary(encuesta$Q17_Experimentos)
```
El 63 % de los que respondieron la encuesta contestaron que sí era cierto que se hicieron experimentos en personas afroamericanas mediante la no aplicación de penicilina a la población que padecia de sifilis. El 37% restante de los encuestados no estuvieron de acuerdo a que tal hecho fuese cierto o lo desconocían.
#### 22. Conspiraciones: Vacunas
```{r, echo = FALSE}
summary(encuesta$Q18_Vacunas)
```
Entre todos los estudiantes del curso de EDAED,, el 97% está a favor de que las vacunas sirven y no son una conspiración de las multinacionales farmacéuticas para enriquecerse a costillas de estas. Solo el 3% de los encuestados arremete contra las farmacéuticas por su enriquecimiento programado y la no naturalidad de las vacunas en el cuerpo humano.
#### 23. Conspiración: Uso de evidencia falsa por parte del FBI
```{r, echo = FALSE}
summary(encuesta$Q19_EvidenciaFalsa)
```
El 78% de los encuestados respondió acertadamente sobre la cuestión de que el FBI había utilizado evidencia falsa en el siglo pasado para condenar inocentes. Así pues, el 22% restante estuvo en contra de tal postura, considerando falso que el FBI estuviese implicado en acusaciones de tal gravedad.
#### 24. Conspiraciones: Ráfagas solares
```{r, echo = FALSE}
summary(encuesta$Q20_RafagasSolares)
```
Llegando a una pregunta relacionada a la geologia, el 23 % de los encuestados está a favor de que el Sol cumple una función en el movimiento de la Tierra cuando se dan los temidos sismos, de hecho el 77 % de los estudiantes del curso, dice que las ráfagas solares no son los precursores de los sismos de la Tierra dado que realmente estos últimos se dan por la tectónica de las placas de la Tierra y de actividad neotectónica de algunas partes de nuestro planeta.
#### 25. Conspiraciones: Tierra hueca
```{r, echo = FALSE}
summary(encuesta$Q21_TierraHueca)
```
Casi el la totalidad de los estudiantes encuestados (94 %) afirma rotundamente que la Tierra en su forma física no es hueca y dentro de ella no existe una civilización oculta que los seres humanos tengamos prueba. Solamente el 6% restante afirma lo contrario.
#### 26. Conspiraciones: Alienígenas
```{r, echo = FALSE}
summary(encuesta$Q22_alienigenas)
```
La pregunta sobre los alienígenas hace cambiar un poco los resultados. Un poco más de la mitad (64%) respondió "No" a la visita de los alienígenas a las civilizaciones antiguas y su influencia en la historia y aparte de que, según teorias, estos fueron los precursores de las construcciones de los megamonumentos que datan de la antiguedad. El 36 % de los encuestados sí esta totalmente de acuerdo al planteamiento de esta pregunta.
#### 27. Cambio climático.
```{r, echo = FALSE}
summary(encuesta$Q23_CambioClimatico)
```
Esta pregunta es algo controversial a día de hoy, ya que demasiadas personas afirman que la mayoría de industrias son las causantes del cambio climático que ha venido sufriendo la Tierra en los ultimos años. Cabe destacar que el 84 % de los encuestados están en contra de la idea de que el cambio climático que ocurre en la actualidad se dé por procesos naturales. En cambio, El 16 % restante de los encuestados (equivalente a 14 personas) van en contra de esta posición y afirman que lo que ha sufrido la Tierra en los últimos años se debe a un proceso natural.
### Tercera parte de la encuesta
En esta sección final se presenta el análisis descriptivo de las últimas preguntas de la encuesta, preguntas que respondieron los estudiantes del curso de EDAED y que tienen que ver con temas geométricos y algebraicos, además del porcentaje estimado de estudiantes que ellos creían que responderían correctamente a las preguntas.
#### 24. Área de la región sombreada
```{r, echo = FALSE}
summary(encuesta$Q24_area)
```
Se le preguntó a los estudiantes cuál era el área de cierta región sombreada de un circulo, donde el radio del círculo es de 6. La respuesta correcta es "4*pi", por lo que notamos que 39 de los encuestados (lo que corresponde al 45%) respondieron correctamente a la pregunta. Como ya se analizó antes, siendo que los estudiantes del curso son de carreras afines a las matemáticas, sorprende la proporción tan baja de aquellos que respondieron correctamente.
#### 25. Porcentaje de área sombreada
```{r, echo = FALSE}
summary(encuesta$Q25_PorcentArea)
```