%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

MI CURSO DE ESTADÍSTICA I - Y - PROBABILIDAD - 2024

Con Mi Profe: Julio Hurtado Marquez; EMAIL_TAREAS:

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

SEMANA 1

Clase N°1.: Presentación

(a)Bienvenida a la U

(b)Presentación del Docente y Estudiantes

(c)Presentación del curso

(d)Contenidos en Savio

(e)Talleres en google drive y Savio

(f)HORARIO 2024 - Profe: Julio Hurtado

HORARIO - 2024 20
HORARIO - 2024 20

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N°2. UNIDAD I. ESTADISTICA DESCRIPTIVA: Generalidades

1.0Un recorido breve por la Historia de La Estadistica

La estadística surgió en épocas muy remotas, y como todas las ciencias, no surgió de improviso, sino mediante un proceso largo de desarrollo y evolución.
3050 a.C. En los antiguos monumentos egipcios se encontraron interesantes documentos que demuestran la sabia organización y administración de este pueblo.
1800 a.C. En la isla de Cerdeña, existen monumentos prehistóricos pertenecientes a los nuragas, y en cuyas paredes se encuentran grabados signos que servían para llevar la cuenta del ganado y la caza.
1450 a.C. En la Biblia, libro de Números, el censo que realizó Moisés después de la salida de Egipto. Textualmente dice: “Haz un censo general de toda la asamblea de los hijos de Israel, por familias y por linajes, describiendo por cabezas los nombres de todos los varones aptos para el servicio de armas en Israel”
721 a.C. Fue Sargón II, rey de Asiria, quien fundó una biblioteca en Nínive; los “textos” que allí se guardaban eran tablillas de ladrillo de arcilla cocida de 25 por 16 cm., teniendo sólo en una de sus caras inscripciones cuneiformes
594 a.C. Grecia también tuvo importantes observaciones estadísticas en lo que refiere a distribución de terreno, servicio militar, etc. (Sócrates, Herodoto, Aristóteles).
27 a.C. El Imperio Romano fue el primer gobierno que recopiló una gran cantidad de datos sobre la población, superficie y renta de todos los territorios bajo su control. En la época del nacimiento de Cristo sucedía uno de estos empadronamientos de la población bajo la autoridad del Imperio.
1487 El cálculo de las probabilidades se inició como solución a problemas relativos a los juegos de azar. El problema más importante era el conocido como “problema del reparto de apuestas” que distribuía las ganancias entre jugadores cuando la partida se interrumpía antes de finalizar. Este problema fue abordado por Luca Pacioli en 1487, por Niccolo Tartaglia en 1556, y por Girolamo Cardano en 1565.

-

1532 Debido al temor que Enrique VII tenía de la peste, en el año 1532 empezaron a registrarse en Inglaterra las defunciones causadas por esta enfermedad. En Francia, más o menos por la misma época, la ley exigía a los clérigos registrar los bautismos, fallecimientos y matrimonios.
1540 Alrededor del año 1540, el alemán Sebastián Muster realizó una compilación estadística de los recursos nacionales, que comprendía datos acerca de la organización política, instituciones sociales, comercio y poderío militar.
En 1662, el capitán John Graunt compiló documentos que abarcaban treinta años, mediante los cuales efectuó predicciones sobre el número de personas que morirían de diversas enfermedades, así como de las proporciones de nacimientos de hombres y mujeres que cabía esperar.
1654 En correspondencia entablada entre los matemáticos franceses Blaise Pascal y Pierre de Fermat se plantea el problema del reparto de apuestas cuando el juego se suspende, y llegaron ambos de manera independiente a la misma solución, que consistió en darse cuenta de que el reparto de las apuestas debe hacerse en función de la probabilidad de ganar que tuviese cada jugador en el momento de interrumpirse el juego. Pascal y Fermat resolvieron este problema y otros muchos; y, fueron los que empezaron a formalizar la teoría de las probabilidades.
1760 Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra se halla en el término latino s t a t u s, que significa “estado” o “situación”.
1763 El reverendo británico, Thomas Bayes expresó la probabilidad publicó su famoso teorema en 1763.
1823 El matemático alemán Karl Friedrich Gauss, desarrolló la teoría de errores, llegando a establecer el método de mínimos cuadrados como el procedimiento más elemental para resolver los problemas de la teoría de errores, con lo que llega a la distribución Normal.
1835 Jacques Quételect es quien aplica la estadística a las ciencias sociales. Interpretó la teoría de la probabilidad para su uso en esas ciencias y aplicó el principio de promedios y de la variabilidad a los fenómenos sociales
1888 A finales del siglo XIX, Sir Francis Galton introdujo el concepto de correlación,
1922 Pero es sin lugar a dudas Ronald Arnold Fisher la figura más influyente de la estadística moderna, pues la situó como una poderosa herramienta para la planeación y análisis de experimentos.

-

1933 Andréi Kolmogórov desarrolló una teoría de la probabilidad totalmente rigurosa basada en axiomas fundamentales

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N°3. La Estadística y sus partes

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.1 Video 1: Estadistica I Parte I - Historia de la Estadistica

embed_youtube("cYjzsML0K5Y")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.2La Estadística y sus partes

1.2.1Diseño Experimental

Planificar la recolección de los datos necesarios y suficientes para realizar cualquier investigación.

1.2.2Estadística Descriptiva

Organizar los datos recogidos presentándolos en tablas y gráficos y calcular ciertas medidas descriptivas de algunas características importantes de la muestra, llamadas estadísticos o estadígrafos: por ejemplo, la media, la moda, la mediana, la varianza

1.2.3Probabilidad

Deducir las leyes que expliquen el fenómeno observado o el comportamiento de los datos obtenidos con el fin de predecir o pronosticar a futuro.

1.2.4Estadística Inferencial

Realizar inferencias (hipótesis) o conclusiones generales a la población en estudio de donde se ha tomado la muestra o los datos con alto nivel de confianza para tomar decisiones acertadas

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.3La estadística es una ciencia

La estadística es una ciencia que tiene por objeto el estudio de colectivos o poblaciones, y las relaciones que existen entre ellos.

Trata de hallar leyes de comportamiento de la población en general y no de cada uno de los elementos en particular.

-

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.4. La Estadística y sus mundos de aplicaciones

Actualmente se aplica en todas las áreas del saber, por ejemplo en Sociología, Educación, “PSICOLOGÍA”, Administración, “DERECHO”, “COMUNICACIÓN SOCIAL”, Economía, Medicina, Ciencias Políticas, Ingeniérias, Relaciones internacionales, Biomedicina entre otras.

Ejemplos de su aplicación son:

1) En Administración de Empresas: la estadística se utiliza para evaluar un producto antes de comercializarlo.

2) En Economía: para medir la evolución de los precios mediante números índice o para estudiar los hábitos de los consumidores a través de encuestas de presupuestos familiares.

3) En Ciencias Políticas: para conocer las preferencias de los electores antes de una votación mediante sondeos y así orientar las estrategias de los candidatos.

4) En Sociología: para estudiar las opiniones de los colectivos sociales sobre temas de actualidad.

-

5) En “PSICOLOGÍA”: para elaborar las escalas de los test y cuantificar aspectos del comportamiento humano (por ejemplo los test que se aplican a los candidatos para un cargo en una empresa).

6) En Medicina: uno entre muchos usos de la estadística, es para determinar el estado de salud de la población.

7) Ciencias Sociales: la estadística se emplea para medir las relaciones entre variables de tipo social y hacer predicciones sobre ellas.

8) En Gestión de Proyectos se torna imprescindible si queremos reducir costos o fidelizar la construcción de los proyectos, reducir y controlar los riesgos del proyecto.

9) “COMUNICACIÓN SOCIAL”: La estadística es una herramienta poderosa para la toma de decisiones en el campo de la “COMUNICACIÓN SOCIAL” como por ejemplo en el periodismo deportivo, tanto impreso como en medios audiovisuales, depende de la estadística como herramienta para informarle a la fanaticada los resultados deportivos de manera objetiva

10) La “COMUNICACIÓN SOCIAL”: también tiene relación con la estadística, ya que son muchos los temas y aspectos en los que el comunicador social para dar una información completa y veraz necesita utilizar la estadística para lograr tal objetivo.

11) En “DERECHO”:** tiene una utilidad e importancia significativa en el ámbito jurídico, pues permite ordenar, resumir y procesar los datos más destacados de los elementos que componen un grupo o una población, con el fin de analizar y entender, de forma más sencilla, su contenido y características y vendría a contribuir sobremanera al logro de los objetivos de la investigación jurídica.**

12) En Ingeniería: es importante porque que se analizan comúnmente las etapas de la producción y se usan datos para tomar decisiones, siempre se están haciendo análisis de la información que junto con la experiencia facilita el éxito.

13) La economía: necesita de la Estadística, con la ayuda de esta se confeccionan los planes de desarrollo de la economía nacional, se supervisa el control de su cumplimiento y se determinan las necesidades de recursos por territorios, así como las reservas con que cuenta la economía a cualquier nivel.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.5 Clase N° 3 (Continuación). Conceptos Básicos en Estadística

(a) Población. es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia).Normalmente es demasiado grande para poder abarcarlo.

(b) Individuo. Así llamamos a cada uno de los elementos que componen la población estadística en estudio. Es un “ser” observable que no tiene por qué ser una persona, puede ser un objeto, un ser vivo, un dato, un vector de datos, etc…

(c) Muestra. es un subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones). Debería ser “representativa”, es decir ser suficiente para que lo observado en ella, efectivamente se refleje en la Población. Esta formado por miembros “seleccionados de manera aleatoria” de la población (individuos, unidades experimentales).

(d) Caracteres o variables. Cualquier cualidad o propiedad inherente al individuo. Una característica observable que varía entre los diferentes individuos de una población. - La información que disponemos de cada individuo es resumida en variables, que representamos normalmente por las últimas letras mayúsculas X, Y, Z, …**

-

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.6 Clase N° 3 (Ejemplo). Determina, en cada caso, si se trata de variables cuantitativas discretas, cuantitativas continuas o cualitativas y la escala de medición: nominal, ordinal, de intervalo o razón

(a)Edades de los estudiantes de Estadística I 2020 UTB.

(b)Estatura de los estudiantes de Estadística I 2020 UTB.

(c)Colores de los ojos de los estudiantes de Estadística I 2020 UTB.

(d)Programas de televisión infantiles.

(e)Idiomas de preferencia de los estudiantes de Estadística I 2020 UTB.

(f)Cantidad de tuercas defectuosas en una producción.

(g)Promedio acumulado de los estudiantes de Estadística I 2020 UTB.

(h)Deportes que se practican los estudiantes de Estadística I 2020 UTB.

(i)Peso de los estudiantes de Estadística I 2020 UTB.

(j)Cantidad promedio de laptops que vende ebay por día.

(k)Temperatura registrada en una ciudad todos los días.

(l)Vida media de un auto.

(m)Ingreso diario de una tienda.

(n)Cantidad de personas que usan celulares samsung, xiami, apple

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N°. 4. LABORATORIO 1: Datos y Recolección de Datos

LABORATORIO 1: (200 PUNTOS):Datos y Recolección de Datos: https://forms.gle/Nf2SWFreMrVabVtn6

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

SEMANA 2

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 5. Tema 1. Estadística Descriptiva - Organización de los datos

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.8 Video 2: Estadistica I Parte II - Organización de Datos

embed_youtube("YM6SMXrOgZQ")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.9 Clase N° 5.Tema 1. Estadística Descriptiva - Organización de los datos

(a)Antes de trabajar con cualquier conjunto de datos obtenidos de un experimento debemos organizarlos.

(a)Visualizemos los con los cuales vamos a estudiar durante el curso UTB202110 y uno de los softwares que deseamos te intereses or aprender es RStudio que podemos usar fácilmente en la Nube

library(readxl)
DATOS2023 <- read_excel("datos/DATOS2023.xlsx")
DATOS2023

(b)Contemos cuantos estudiantes tenemos según el sexo y para ello tenemos la tabla

SEXO Frecuencia absoluta (f) Frecuencia relativa porcentual (\(f_r({\%})\)
Femenino (F) 62 \(\frac{62}{121}*100=51%\)
Masculino (M) 59 \(\frac{59}{121}*100=49%\)
Total 121 100%

(c)Usando la aplicación para hacer la tabla

table_sexo<-table(DATOS2023$SEXO)
table_sexo
## 
##  F  M 
## 62 59

e=“color:blue”>Gráfico de torta para SEXO

pie_1<-pie(table_sexo, col=c("lightblue","pink"),
        main="Estudio de Pastel.\n Distribución por sexos.", labels = table_sexo)

(d)Construimos el diagrama de barras y el diagrama de Pastel para esta variable cualitativa

barp<-barplot(table_sexo, col = rainbow(5), border = "darkred",main = "Gráfico de Barras",sub = "UTB",xlab = "SEXO", ylab = "Conteo")
text(barp, table_sexo-30, labels = table_sexo)

(e)<span styl

(f)Usando la aplicación para hacer la tabla porcentual redondeando al entero mas cercano

table_sexo2<-round(table(DATOS2023$SEXO)/121*100)
table_sexo2
## 
##  F  M 
## 51 49

(g)Construimos el diagrama de barras % y da pastel para esta variable cualitativa

barp2<-barplot(table_sexo2, col = rainbow(5), border = "darkred",main = "Gráfico de Barras",sub = "UTB",xlab = "SEXO", ylab = "Porcentaje")
text(barp2, table_sexo2-30, labels = table_sexo2)

(h)Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. Las dos exponen ordenadamente la información recogida en una muestra

(i)Gráfico porcentual de torta para SEXO

pie_1<-pie(table_sexo2, col=c("lightblue","pink"),
        main="Estudio de Pastel.\n Distribución por sexos.", labels = table_sexo2)

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 6. Tema 1. Estadística Descriptiva - Organización de los datos para dos variables

1.10 Clase N° 6.Tema 1. Estadística Descriptiva - Organización de los datos para dos variables

(a)Usando la aplicación para hacer la tabla con dos varibles SEXO y CURSO

table_3<-table(DATOS2023$SEXO, DATOS2023$CURSO)
table_3
##    
##     ESTADISTICA I PROBABILIDAD
##   F            49           13
##   M            37           22

(b)Usando la aplicación para hacer el gráfico con dos varibles SEXO y CURSO

barp3<-barplot(table_3,
        main = "Gráfico de barras CURSO vs SEXO",
        xlab = "CURSO", ylab = "Frecuencia",
        col = c("pink", "blue"),
        legend.text = rownames(table_3),
        beside = TRUE) # Barras agrupadas
text(barp3, table_3-5, labels = table_3)

(c)Usando la aplicación para hacer la tabla con dos varibles SEXO y CURSO pero usando las frecuencias relativas aproximadas

table_4<-round(table(DATOS2023$SEXO, DATOS2023$CURSO)/121*100)
table_4
##    
##     ESTADISTICA I PROBABILIDAD
##   F            40           11
##   M            31           18

(d)Usando la aplicación para hacer el gráfico con dos varibles SEXO y CURSO pero usando las frecuencias relativas aproximadas

barp4<-barplot(table_4,
        main = "Gráfico de barras CURSO vs SEXO en porcentajes",
        xlab = "CURSO", ylab = "Frecuencia",
        col = c("pink", "blue"),
        legend.text = rownames(table_4),
        beside = TRUE) # Barras agrupadas
text(barp4, table_4-5, labels = table_4)

(e)Usando la aplicación para hacer la tabla con dos varibles SEXO y CURSO

table_5<-table(DATOS2023$ESTRATO, DATOS2023$CURSO)
table_5
##      
##       ESTADISTICA I PROBABILIDAD
##   I              19            7
##   II             28           16
##   III            21            9
##   IV             12            1
##   V               3            1
##   VI              3            0
##   VII             0            1

(f)Usando la aplicación para hacer el gráfico con dos varibles SEXO y CURSO

barp3<-barplot(table_5,
        main = "Gráfico de barras CURSO vs ESTRATO",
        xlab = "CURSO", ylab = "Frecuencia",
        col = rainbow(5),
        legend.text = rownames(table_5),
        beside = TRUE) # Barras agrupadas
text(barp3, table_5-1, labels = table_3)

(G)Usando la aplicación para hacer la tabla con dos varibles SEXO y CURSO

table_6<-table(DATOS2023$ESTRATO, DATOS2023$SEXO)
table_6
##      
##        F  M
##   I   13 13
##   II  24 20
##   III 13 17
##   IV   8  5
##   V    3  1
##   VI   1  2
##   VII  0  1

(h)Usando la aplicación para hacer el gráfico con dos varibles SEXO y CURSO

barp3<-barplot(table_6,
        main = "Gráfico de barras CURSO vs ESTRATO",
        xlab = "CURSO", ylab = "Frecuencia",
        col = rainbow(5),
        legend.text = rownames(table_6),
        beside = TRUE) # Barras agrupadas
text(barp3, table_6-1, labels = table_6)

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.11Participación 1 (30 PUNTOS) Elabora para las variables CURSO vs PROGRAMA y/o ESTRATO vs PROGRAMA y/o SEXO vs PROGRAMA, Las tablas de frecuencias y sus diagramas de barras, puedes usar la aplicación del celular o excel y deberas enviarla al correo , el encabezado debe decir: <<Participación 2 y escribir tu nombre>>.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 7. Tema 1. Estadística Descriptiva - Variables Cuantitativas: Tablas de frecuencias

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.11 Video 3: Estadistica I Parte IV - Organización de Datos cuantitativos - Medidas de tendencia central

embed_youtube("ImN2wNTOKIg")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.12 Clase N° 7.Tema 1. Estadística Descriptiva - Variables Cuantitativas: Tablas de frecuencias

(-)Continuamos nuestro estudio para variables cuantitativas: discretas y/o continuas

(-)En nuestra base contamos con las siguientes variables cuantitativas: DEF (definitiva), EDAD, PESO, ESTA (estatura), SABER 11, PROM (promedio del semestre). Explica cuales de ellas son discretas o continuas

Tabla de Frecuencia.La tabla de frecuencias es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia. Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca). La tabla de fecuencia puedes ser individual o agrupados, dependiendo de la catidad de datos y ella es comun encontrar:

Modalidad o dato.indica el valor observado o un itervalo que agrupa un grupo de datos

Frecuencias absolutas:Contabilizan el número de individuos de cada modalidad

Frecuencias relativas (porcentajes):Idem, pero dividido por el total

Frecuencias acumuladas:Sólo tienen sentido para variables ordinales y numéricas y son muy útiles para calcular cuantiles (ver más adelante)

(a)Construyamos la Tabla de Frecuencia individual para la variable cuantitativa EDAD

Clase \(x_i =\) Valor \(f_i\) \(f_ir\) \(f_ir({\%})\) \(F_i\) \(F_ir\) \(F_ir({\%})\)
1 16 1 0,0083 0,83 1 0,0083 0,83
2 17 27 0,2231 22,31 28 0,2314 23,14
3 18 47 0,3884 38,84 75 0,6198 61,98
4 19 23 0,1901 19,01 98 0,8099 80,99
5 20 13 0,1074 10,74 111 0,9174 91,74
6 21 4 0,0331 3,31 115 0,9504 95,04
7 22 2 0,0165 1,65 117 0,9669 96,69
8 23 1 0,0083 0,83 118 0,9752 97,52
9 24 1 0,0083 0,83 119 0,9835 98,35
10 25 1 0,0083 0,83 120 0,9917 99,17
11 27 1 0,0083 0,83 121 1,0000 100

(b)Construyamos la Tabla de Frecuencia individual para la variable cuantitativa EDAD, usando RStudio. En la Tabla me muestra el número de veces en que aparece cada modalidad

x<-table(DATOS2023$EDAD)
x
## 
## 16 17 18 19 20 21 22 23 24 25 27 
##  1 27 47 23 13  4  2  1  1  1  1

(c)Tabla de Frecuencias Usando el paquete summarytools: observamos ya una tabla mas completa

library(summarytools)
## Warning in fun(libname, pkgname): couldn't connect to display ":0"
## system might not have X11 capabilities; in case of errors when using dfSummary(), set st_options(use.x11 = FALSE)
tabla_8 <- freq(DATOS2023$EDAD)
tabla_8
## Frequencies  
## DATOS2023$EDAD  
## Type: Numeric  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##          16      1      0.83           0.83      0.83           0.83
##          17     27     22.31          23.14     22.31          23.14
##          18     47     38.84          61.98     38.84          61.98
##          19     23     19.01          80.99     19.01          80.99
##          20     13     10.74          91.74     10.74          91.74
##          21      4      3.31          95.04      3.31          95.04
##          22      2      1.65          96.69      1.65          96.69
##          23      1      0.83          97.52      0.83          97.52
##          24      1      0.83          98.35      0.83          98.35
##          25      1      0.83          99.17      0.83          99.17
##          27      1      0.83         100.00      0.83         100.00
##        <NA>      0                               0.00         100.00
##       Total    121    100.00         100.00    100.00         100.00

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 8. Laboratorio 2: Construcción de Tablas de Frecuencias y graficos para variables cualitativas usando excel - 50 PUNTOS

1.13 Clase N° 8. Laboratorio 2: Contrucción de Tablas de Frecuencias y graficos para variables cualitativas usando excel

embed_youtube("3NFFfge6Q8E")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

SEMANA 3

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 9. Tema 1. Estadística Descriptiva de variables cuantitativas- Medidas Estadisticas

1.14 Clase N° 9.Tema 1. Estadística Descriptiva - Medidas Estadisticas**

(a)Interpretando los valores observados

(b)Tabla de Frecuencias Usando el paquete summarytools: observamos ya una tabla mas completa

library(summarytools)
tabla_8 <- freq(DATOS2023$EDAD)
tabla_8
## Frequencies  
## DATOS2023$EDAD  
## Type: Numeric  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##          16      1      0.83           0.83      0.83           0.83
##          17     27     22.31          23.14     22.31          23.14
##          18     47     38.84          61.98     38.84          61.98
##          19     23     19.01          80.99     19.01          80.99
##          20     13     10.74          91.74     10.74          91.74
##          21      4      3.31          95.04      3.31          95.04
##          22      2      1.65          96.69      1.65          96.69
##          23      1      0.83          97.52      0.83          97.52
##          24      1      0.83          98.35      0.83          98.35
##          25      1      0.83          99.17      0.83          99.17
##          27      1      0.83         100.00      0.83         100.00
##        <NA>      0                               0.00         100.00
##       Total    121    100.00         100.00    100.00         100.00

Total de datos.\(n=121\)

Moda de los datos.Es el dato que tiene la mayor frecuencia: \(\widehat{x} = 18\)

Mediana de los datos.Es el dato o promedio de datos para el cual el 50% de información cae exactamente en él o debajo de él. \(\widetilde{x}=18\)

Deciles.Se pueden calcular de la misma manera que la mediana, solo que los datos se consideran divididos en 10 partes iguales y por eso a cada parte se le llama decil. Por ejemplo el \(D_3\) será el valor para el cual el 30% de la información cae en él o debajo de él. Así \(0.3*121=36.3\) el cual se interpreta como el dato 37, por lo tanto \(D_3=18\)

CuartilesSe pueden calcular de la misma manera que la mediana, solo que los datos se consideran divididos en 10 partes iguales y por eso a cada parte se le llama decil. Por ejemplo el \(D_3\) será el valor para el cual el 30% de la información cae en él o debajo de él. Así \(0.3*121=36.3\) el cual se interpreta como el dato 37, por lo tanto \(D_3=18\)

Percentiles.Se pueden calcular de la misma manera que la mediana, solo que los datos se consideran divididos en 100 partes iguales y por eso a cada parte se le llama percentil. Por ejemplo el \(P_36\) será el valor para el cual el 36% de la información cae en él o debajo de él. Así \(0.36*121=43.56.3\) el cual se interpreta como el dato 44, por lo tanto \(P_36=18\)

EjerciciosCalcula los deciles \(D_1, D_2, D_5, D_7\) y los percentiles \(P_15, P_25, P_50, P_75\)

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 10. Taller - 50 PUNTOS - Medidas de Tendencia Central y de Posición para un conjunto de datos

1.15 Clase N° 10. Taller - 50 PUNTOS - Medidas de Tendencia Central y de Posición para un conjunto de datos

(a)Calcula: Media, mediana, moda, los deciles \(D_1, D_2, D_5, D_7\) y los percentiles \(P_15, P_25, P_50, P_75\) para siguiente serie de números: 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4.

(b)Calcula: Media, mediana, moda, los deciles \(D_1, D_2, D_5, D_7\) y los percentiles \(P_15, P_25, P_50, P_75\) para siguiente serie de números: 15, 13, 16, 15, 19, 18, 15, 14, 18.

(c)Calcula: Media, mediana, moda, los deciles \(D_1, D_2, D_5, D_7\) y los percentiles \(P_15, P_25, P_50, P_75\) para siguiente serie de números: 3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 11. Variables cuantitativas continuas usando la aplicación IntroStat app

1.16. Descargar aplicación IntroStat app

(a)Calcula: Media, mediana, moda, los deciles \(D_1, D_2, D_5, D_7\) y los percentiles \(P_{15}, P_{25}, P_{50}, P_{75}\) para siguiente serie de números: 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4.

(b)Calcula: Media, mediana, moda, los deciles \(D_1, D_2, D_5, D_7\) y los percentiles \(P_{15}, P_{25}, P_{50}, P_{75}\) para siguiente serie de números: 15, 13, 16, 15, 19, 18, 15, 14, 18.

(c)Calcula: Media, mediana, moda, los deciles \(D_1, D_2, D_5, D_7\) y los percentiles \(P_{15}, P_{25}, P_{50}, P_{75}\) para siguiente serie de números: 3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 12. LABORATORIO 3 - 50 PUNTOS

1.17 Clase N° 12. LABORATORIO 3 - Descriptores Numéricos para variables cuantitativas en excel - 50 PUNTOS

- Descriptores Numéricos para variables cuantitativas en excelEn el Laboratorio, los estudiantes deberán realizar lo detallado en el siguiente video y emviar el archivo excel al correo

embed_youtube("GzSiWHxedog")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

SEMANA 4

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 13. Variables cuantitativas - Medidas Estadisticas

1.18 Clase N° 13. Tema 1. Estadística Descriptiva - Diagramas de Caja

Diagramas de Caja (Wikipedia).Un diagrama de caja (también, diagrama de caja y bigotes o box plot) es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, se muestran a simple vista la mediana y los cuartiles de los datos, y también pueden representarse sus valores atípicos.

(a)Componentes del diagrama de caja

El diagrama de caja incluye los siguientes elementos:rango (sin datos atípicos), datos atípicos, rango intercuartil (también conocido como RIC), cuartiles (Q1, Q2 y Q3), mediana (Q2), mínimo y máximo

(b)Diagrama de caja y bigotes

(c)Ejemplo. Construya el diagrama de caja para la siguiente serie de números: 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3, 4, 5, 4, 8, 2, 5, 4.

(d)Ejemplo. Construya el diagrama de caja para la siguiente serie de números: 15, 13, 16, 15, 19, 18, 15, 14, 18.

(e)Ejemplo. Construya el diagrama de caja para la siguiente serie de números: 3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3.

(e)Recordemos nuestra base de datos

DATOS2023

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 14. Diagramas de Caja - Ejemplo 1.

1.19 Clase N° 14. Diagramas de Caja para la variable Edad

(a)Estudiemos la variable EDAD y obtengamos sus seis medidas representativas

summary(DATOS2023$EDAD)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   16.00   18.00   18.00   18.55   19.00   27.00

(b)Una primera vista del diagrama de caja para la variable Edad

boxplot(DATOS2023$EDAD, horizontal = TRUE, col = rainbow(3))

(c)Identificamos donde queda la mediana

x = DATOS2023$EDAD
boxplot(x, notch = TRUE, horizontal = TRUE, col = rainbow(3))
## Warning in (function (z, notch = FALSE, width = NULL, varwidth = FALSE, : some
## notches went outside hinges ('box'): maybe set notch=FALSE

(d)EDAD vs SEXO

x = DATOS2023$EDAD
y = DATOS2023$SEXO
boxplot(x~y, horizontal = TRUE, col = rainbow(3))

(e)EDAD vs ESTRATO

library(ggplot2)
x = DATOS2023$EDAD
z = DATOS2023$ESTRATO
boxplot(x~z, horizontal = TRUE, col = rainbow(3))

(f)EDAD vs ESTRATO vs SEXO

library(ggplot2)
ggplot(data= DATOS2023,mapping= aes(y=EDAD,x = ESTRATO, fill=SEXO))+geom_boxplot()+
  scale_y_continuous(name = "EDAD") +
  scale_x_discrete(labels = abbreviate, name = "ESTRATO")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.20. Clase N° 14. Aplicación IntroStat app*

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase No. 15. Ejemplo en clases. Diagramas de Caja - Variable ESTATURA

1.21 Diagramas de Caja - Variable ESTATURA

(a)Estudiemos la variable ESTATURA y obtengamos sus seis medidas representativas

summary(DATOS2023$ESTATURA)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   100.0   163.0   169.0   167.9   175.0   192.0

(b)Una primera vista del diagrama de caja para la variable Edad

boxplot(DATOS2023$ESTATURA, horizontal = TRUE, col = rainbow(3))

(c)Identificamos donde queda la mediana

x = DATOS2023$ESTATURA
boxplot(x, notch = TRUE, horizontal = TRUE, col = rainbow(3))

(d)EDAD vs SEXO

x = DATOS2023$ESTATURA
y = DATOS2023$SEXO
boxplot(x~y, horizontal = TRUE, col = rainbow(3))

(e)EDAD vs ESTRATO

library(ggplot2)
x = DATOS2023$ESTATURA
z = DATOS2023$ESTRATO
boxplot(x~z, horizontal = TRUE, col = rainbow(3))

(f)ESTATURA vs ESTRATO vs SEXO

library(ggplot2)
ggplot(data= DATOS2023,mapping= aes(y=ESTATURA,x = ESTRATO, fill=SEXO))+geom_boxplot()+
  scale_y_continuous(name = "ESTATURA") +
  scale_x_discrete(labels = abbreviate, name = "ESTRATO")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 16. LABORATORIO 4. Taller preparatorio para el primer Parcial - 50 PUNTOS

1.22 Clase N° 16. Taller preparatorio para el primer Parcial - 50 PUNTOS

Ingrese al siguiente link:https://forms.gle/zWRVAiwr7JVgcCj68

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

SEMANA 5

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 17. PRIMER PARCIAL - PARTE I (50% - CORTE) - TIEMPO: PRIMERA HORA. Temática a Evaluar Clases de N°2 - Clase N° 18: - 60 PUNTOS

Clase N° 18. PRIMER PARCIAL - PARTE II (50% - CORTE) - TIEMPO: SEGUNDA HORA. Temática a Evaluar Clases de N°2 - Clase N° 18: - 60 PUNTOS

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 19. Tablas de frecuencias agrupadas - Histograma - Polígono de Frecuencias -Ojiva: Parte I

1.23 Clase N° 19. Histograma - Polígono de Frecuencias -Ojiva

(a) En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. Sirven para obtener una “primera vista” general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua (como la longitud o el peso). (Wikipedia)

(b)Construcción de un Histograma de frecuencias

Paso 1.Determinar el rango de los datos. Rango es igual al mayor valor menos el menor valor. \(R = x_{mayor} - x_{menor}\)
Paso 2.Obtener todos los números de grupos, existen 4 criterios para determinar el número de clases (o barras) –por ejemplo, la regla de Sturges. \(c = 1+3.22log(n)\)
Paso 3.Establecer la anchura de clase. Si queremos intervalos iguales tomaremos el rango dividido por el número de clases y comparar con los resultados obtenidos de la dispersión. \(anchura = w = \frac{R}{c}\)
Paso 4.Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos en segmentos iguales usando la anchura de clase obtenida en el paso 3.
Paso 5.Graficar el histograma: Como todas las clases tienen la misma amplitud las bases de las barras son los intervalos de clases y la altura es la frecuencia de las clases.
Paso 6.Polígono de frecuencias: Es el polígono resultante de unir los puntos medios de la parte superior de cada rectangulo en el histograma.
Paso 7.Histograma de frecuencias acumulada: Se construye tomando como base los intervalos y/o clases; y, como altura las frecuencias acumuladas.
Paso 8.Ojiva o polígono de frecuencias acumulada: uniendo los puntos medios de la parte superior de los rectangulos en el histograma de frecuencias acumuladas.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.24 Clase N° 19. Tablas de frecuencias agrupadas - Histograma y Polígono de Frecuencias

(a)A continuación tenemos las edades de 50 personas y queremos construir su tabla agrupada: EDADES: 38 - 15 - 10 - 12 - 62 - 46 - 25 - 56 - 27 - 24 - 23 - 21 - 20 - 25 - 38 - 27 - 48 - 35 - 50 - 65 - 59 - 58 - 47 - 42 - 37 - 35 - 32 - 40 - 28 - 14 - 12 - 24 - 66 - 73 - 72 - 70 - 68 - 65 - 54 - 48 - 34 - 33 - 21 - 19 - 61 - 59 - 47 - 46 - 30 - 30

(b)Video de Tabla de Frecuencias - Datos Agrupados

embed_youtube("Xf79KM86qoQ")

(b)Construcción del Histograma y polígono de frecuencias

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 20. LABORATORIO 5. Ejemplo de apliación Tablas de frecuencias agrupadas - Histograma de Frecuencias acumuladas y ojiva: USANDO STATGRAPHICS 19 - EVIDENCIAS 50 PUNTOS - SEGUNDO CORTE

1.25 Clase N° 20. Video Usando el Statgraphics - EVIDENCIAS 50 PUNTOS - SEGUNDO CORTE

embed_youtube("fRyCjuGJHtY")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

SEMANA 6

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 21. Tablas de frecuencias agrupadas - Histograma - Polígono de Frecuencias - Ojiva: con RStudio - Introstat - EVIDENCIAS 20 PUNTOS - SEGUNDO CORTE

1.26 Clase N° 21. Tablas de frecuencias agrupadas - Histograma y Polígono de Frecuencias A continuación tenemos las edades de 50 personas y queremos construir su tabla agrupada: EDADES: 38 - 15 - 10 - 12 - 62 - 46 - 25 - 56 - 27 - 24 - 23 - 21 - 20 - 25 - 38 - 27 - 48 - 35 - 50 - 65 - 59 - 58 - 47 - 42 - 37 - 35 - 32 - 40 - 28 - 14 - 12 - 24 - 66 - 73 - 72 - 70 - 68 - 65 - 54 - 48 - 34 - 33 - 21 - 19 - 61 - 59 - 47 - 46 - 30 - 30

1.27. Ingrese los datos a la aplicación IntroStat app*

1.28. Haciendo uso de Rstudio*

(a)Lista de los datos

tabla_9A <- c(38, 15, 10, 12, 62, 46, 25, 56, 27, 24, 23, 21, 20, 25, 38, 27, 48, 35, 50, 65, 59, 58, 47, 42, 37, 35, 32, 40, 28, 14, 12, 24, 66, 73, 72, 70, 68, 65, 54, 48, 34, 33, 21, 19, 61, 59, 47, 46, 30, 30)

(b)Tabla de frecuencia individual

library(summarytools)
tabla_9 <- freq(tabla_9A)
tabla_9
## Frequencies  
## tabla_9A  
## Type: Numeric  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##          10      1      2.00           2.00      2.00           2.00
##          12      2      4.00           6.00      4.00           6.00
##          14      1      2.00           8.00      2.00           8.00
##          15      1      2.00          10.00      2.00          10.00
##          19      1      2.00          12.00      2.00          12.00
##          20      1      2.00          14.00      2.00          14.00
##          21      2      4.00          18.00      4.00          18.00
##          23      1      2.00          20.00      2.00          20.00
##          24      2      4.00          24.00      4.00          24.00
##          25      2      4.00          28.00      4.00          28.00
##          27      2      4.00          32.00      4.00          32.00
##          28      1      2.00          34.00      2.00          34.00
##          30      2      4.00          38.00      4.00          38.00
##          32      1      2.00          40.00      2.00          40.00
##          33      1      2.00          42.00      2.00          42.00
##          34      1      2.00          44.00      2.00          44.00
##          35      2      4.00          48.00      4.00          48.00
##          37      1      2.00          50.00      2.00          50.00
##          38      2      4.00          54.00      4.00          54.00
##          40      1      2.00          56.00      2.00          56.00
##          42      1      2.00          58.00      2.00          58.00
##          46      2      4.00          62.00      4.00          62.00
##          47      2      4.00          66.00      4.00          66.00
##          48      2      4.00          70.00      4.00          70.00
##          50      1      2.00          72.00      2.00          72.00
##          54      1      2.00          74.00      2.00          74.00
##          56      1      2.00          76.00      2.00          76.00
##          58      1      2.00          78.00      2.00          78.00
##          59      2      4.00          82.00      4.00          82.00
##          61      1      2.00          84.00      2.00          84.00
##          62      1      2.00          86.00      2.00          86.00
##          65      2      4.00          90.00      4.00          90.00
##          66      1      2.00          92.00      2.00          92.00
##          68      1      2.00          94.00      2.00          94.00
##          70      1      2.00          96.00      2.00          96.00
##          72      1      2.00          98.00      2.00          98.00
##          73      1      2.00         100.00      2.00         100.00
##        <NA>      0                               0.00         100.00
##       Total     50    100.00         100.00    100.00         100.00

(c)Descriptores numéricos principales

summary(tabla_9A)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   10.00   25.00   37.50   39.82   55.50   73.00

d)Pasos para la tabla de frecuencias acumuladas

Calcular una distribución de frecuencias
Solución: Por la fórmula de Sturges la cantidad de clases de la distribución de frecuencias es:
\(k=1+3.322logn=1+3.322log50=1+3.322(1.6889)=6.64≈7\)
La observación más pequeña es \(x_{min}=10\)
y la más grande es \(x_{max}=73\)
el rango es \(R=73−10=63\)
el ancho de cada cada clases está dado por: \(W=\frac{R}{k}=\frac{63}{7}≈9\)

(e)Tabla de frecuencias acumuladas manual.

Edad Marca de clase \(x_i\) frecuencia \(f_i\) frecuencia-relativa \(f_i(\%)\) frecuencia acumulada \(F_i(\%)\).
[10 - 19) 14.5 5 10% 5
[19 - 28) 23.5 11 22% 16
[28 - 37) 32.5 8 16% 24
[37 - 46) 41.5 5 10% 29
[46 - 55) 50.5 8 16% 37
[55 - 64) 59.5 6 12% 43
[64 - 73] 68.5 7 14% 50

(f)Histograma y tabla de frecuencias usando Regla de Sturges

Usando la libreria “agricolae”
library(agricolae)
h<-graph.freq(tabla_9A, col=colors()[75]) #[86]

(g)Tabla de frecuencias agrupadas.

summary(h)

(h)Polígono de frecuencia - manual

x=c(14.5, 23.5, 32.5, 41.5, 50.5, 59.5, 68.5)
y=c(5,11,8,5,8,6,7)
plot(x,y,type="p",pch=20,lty=1,xlab="Edad (Clases)",ylab="fra%",main="Edad total (en años) ",xaxt="n",yaxt="n", col = "blue", lwd=2)
axis(side=1,c(14.5, 23.5, 32.5, 41.5, 50.5, 59.5, 68.5),labels=TRUE)
axis(side=2,c(5,11,8,5,8,6,7),labels=TRUE,las=2) 
lines(x,y)

(i)Polígono de frecuencia absolutas

frequency : counts (1) and relative (2)
plot(h,  col=colors()[70], frequency = 1)
polygon.freq(h, col = "red", frequency = 1, lwd = 2)

(j)Polígono de frecuencia relativas

frequency : counts (1) and relative (2)
plot(h,  col=colors()[70], frequency = 2)
polygon.freq(h, col = "red", frequency = 2, lwd = 2)

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 22. Tablas de frecuencias agrupadas - Histograma de Frecuencias acumuladas y ojiva

1.29 Clase N° 22. Tablas de frecuencias agrupadas - Histograma y Polígono de Frecuencias A continuación tenemos las edades de 50 personas y queremos construir su tabla agrupada: EDADES: 38 - 15 - 10 - 12 - 62 - 46 - 25 - 56 - 27 - 24 - 23 - 21 - 20 - 25 - 38 - 27 - 48 - 35 - 50 - 65 - 59 - 58 - 47 - 42 - 37 - 35 - 32 - 40 - 28 - 14 - 12 - 24 - 66 - 73 - 72 - 70 - 68 - 65 - 54 - 48 - 34 - 33 - 21 - 19 - 61 - 59 - 47 - 46 - 30 - 30

(a)Tabla de frecuencias agrupadas.

names(h)
## [1] "breaks"   "counts"   "mids"     "relative" "density"

(b)Tabla de frecuencias agrupadas.

summary(h)

(b)Ojivas - manual

x=c(14.5, 23.5, 32.5, 41.5, 50.5, 59.5, 68.5)
y=c(10,32,48,58,74,86,100)
plot(x,y,type="p",pch=20,lty=1,xlab="Edad (Clases)",ylab="fra%",main="Edad total (en años) ",xaxt="n",yaxt="n")
axis(side=1,c(14.5, 23.5, 28.5, 32.5, 41.5, 50.5, 59.5, 68.5),labels=TRUE)
axis(side=2,c(0,10,20,30,40,50,60,70,80,90,100),labels=TRUE,las=2) 
lines(x,y)
segments(50.5,-14.5,50.5,74, lwd=1,lty=2, col = "red")
segments(0,74,50.5,74,lwd=1,lty=2, col = "red")

(c)Ojivas - usando R

h<-graph.freq(tabla_9A, col=colors()[70]) #[86]

fr_por_clase<-h$counts
fr_por_clase
## [1]  5 11  8  5  8  6  7
total_n<-sum(h$counts)
total_n
## [1] 50
fr_relativos<-fr_por_clase/total_n
fr_porcentuales<-100*fr_relativos
fr_porcentuales
## [1] 10 22 16 10 16 12 14
cumsum(fr_por_clase)
## [1]  5 16 24 29 37 43 50
cumsum(fr_relativos)
## [1] 0.10 0.32 0.48 0.58 0.74 0.86 1.00
cumsum(fr_porcentuales)
## [1]  10  32  48  58  74  86 100

(d)Ojivas - frecuencias absolutas

p1<-cumsum(fr_por_clase)
plot(p1, col = "red")
lines(p1, col = "red")

(e)Ojivas - frecuencias relativas

p2<-cumsum(fr_relativos)
plot(p2, col = "blue")
lines(p2, col = "blue")

(f)Ojivas - frecuencias porcentuales

p3<-cumsum(fr_porcentuales)
plot(p3, col = "green2")
lines(p3, col = "green2")

(g)Ojivas - frecuencias porcentuales por valor

plot(ecdf(tabla_9A), col = "blue")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 23. RESULTADOS DEL PRIMER PARCIAL Y CORTE I - Usando RStudio.

1.30 Clase N° 23. RESULTADOS DEL PRIMER PARCIAL Y CORTE I Usando nuestra base de datos

(a)VISTA DE LOS DATOS2023P1

library(readxl)
DATOS2023P1 <- read_excel("DATOS2023P1.xlsx")
DATOS2023P1

(b)VISTA VARIABLES DE LOS DATOS2023P1

names(DATOS2023P1)
##  [1] "NRC"                       "TOTAL DE PUNTOS (450/520)"
##  [3] "50% - CORTE I2"            "PARCIAL PUNTOS (55/60)"   
##  [5] "50% - CORTE I - 3"         "100% - CORTE I 2"         
##  [7] "P1 - FILA"                 "PROGRAMA"                 
##  [9] "CARRERA"                   "SEXO"

(c)CAMBIAMOS EL NOMBRE DE VARIABLES DE LOS DATOS2023P1

names (DATOS2023P1) = c("NRC", "A_INDEP", "A_INDEP_NOTAS", "PARCIAL1", "PARCIAL1_NOTAS", "DEF_C1", "FILAS", "PROGRAMA", "CARRERA", "SEXO")
names (DATOS2023P1)
##  [1] "NRC"            "A_INDEP"        "A_INDEP_NOTAS"  "PARCIAL1"      
##  [5] "PARCIAL1_NOTAS" "DEF_C1"         "FILAS"          "PROGRAMA"      
##  [9] "CARRERA"        "SEXO"
DATOS2023P1

(d)CAMBIAMOS EL NOMBRE DE VARIABLES DE LOS DATOS2023P1

P1table_sexo<-table(DATOS2023P1$SEXO)
P1table_sexo
## 
##  FEMENINO MASCULINO 
##        64        21

(e)GRAFICO DE BARRAS DE LOS DATOS2023P1

barp<-barplot(P1table_sexo, col = rainbow(5), border = "darkred",main = "Gráfico de Barras",sub = "UTB",xlab = "SEXO", ylab = "Conteo")
text(barp, P1table_sexo-10, labels = P1table_sexo)

(f)GRAFICO DE SEXO VS PROGRAMA - DATOS2023P1

P1table_3<-table(DATOS2023P1$SEXO, DATOS2023P1$PROGRAMA)
P1table_3
##            
##             CIEN_POL COM_SOCIAL PSICOLOGIA
##   FEMENINO        13         22         29
##   MASCULINO        7          7          7
barp3<-barplot(P1table_3,
        main = "Gráfico de barras PROGRAMA vs SEXO",
        xlab = "PROGRAMA", ylab = "Frecuencia",
        col = c("pink", "blue"),
        legend.text = rownames(P1table_3),
        beside = TRUE) # Barras agrupadas
text(barp3, P1table_3-10, labels = P1table_3)

1.31 Clase N° 23. RESULTADOS DEL PRIMER PARCIAL Y CORTE I Usando nuestra base de datos

(a)Tablas Notas Parcial1 - DATOS2023P1

library(summarytools)
summary(DATOS2023P1$PARCIAL1_NOTAS)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.400   3.000   3.700   3.614   4.300   5.300
P1tabla_8 <- freq(DATOS2023P1$PARCIAL1_NOTAS)
P1tabla_8
## Frequencies  
## DATOS2023P1$PARCIAL1_NOTAS  
## Type: Numeric  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##         1.4      2      2.35           2.35      2.35           2.35
##         1.6      1      1.18           3.53      1.18           3.53
##         1.9      1      1.18           4.71      1.18           4.71
##         2.2      1      1.18           5.88      1.18           5.88
##         2.4      1      1.18           7.06      1.18           7.06
##         2.5      2      2.35           9.41      2.35           9.41
##         2.6      3      3.53          12.94      3.53          12.94
##         2.8      2      2.35          15.29      2.35          15.29
##         2.9      6      7.06          22.35      7.06          22.35
##           3      5      5.88          28.24      5.88          28.24
##         3.1      5      5.88          34.12      5.88          34.12
##         3.2      1      1.18          35.29      1.18          35.29
##         3.3      3      3.53          38.82      3.53          38.82
##         3.4      3      3.53          42.35      3.53          42.35
##         3.5      5      5.88          48.24      5.88          48.24
##         3.6      1      1.18          49.41      1.18          49.41
##         3.7      3      3.53          52.94      3.53          52.94
##         3.8      4      4.71          57.65      4.71          57.65
##         3.9      3      3.53          61.18      3.53          61.18
##           4      3      3.53          64.71      3.53          64.71
##         4.1      3      3.53          68.24      3.53          68.24
##         4.2      3      3.53          71.76      3.53          71.76
##         4.3      4      4.71          76.47      4.71          76.47
##         4.4      6      7.06          83.53      7.06          83.53
##         4.5      3      3.53          87.06      3.53          87.06
##         4.6      1      1.18          88.24      1.18          88.24
##         4.7      4      4.71          92.94      4.71          92.94
##         4.8      2      2.35          95.29      2.35          95.29
##         4.9      1      1.18          96.47      1.18          96.47
##         5.2      2      2.35          98.82      2.35          98.82
##         5.3      1      1.18         100.00      1.18         100.00
##        <NA>      0                               0.00         100.00
##       Total     85    100.00         100.00    100.00         100.00

(b)Box-Plot Notas Parcial1 - DATOS2023P1

boxplot(DATOS2023P1$PARCIAL1_NOTAS, horizontal = TRUE, col = rainbow(3))

(c)Box-Plot Notas Parcial1 - DATOS2023P1

x = DATOS2023P1$PARCIAL1_NOTAS
y = DATOS2023P1$SEXO
boxplot(x~y, horizontal = TRUE, col = rainbow(3))

(d)Box-Plot Notas Parcial1 - DATOS2023P1

x = DATOS2023P1$PARCIAL1_NOTAS
y = DATOS2023P1$PROGRAMA
boxplot(x~y, horizontal = FALSE, col = rainbow(3))

(e)Box-Plot Notas Parcial1 - DATOS2023P1

library(ggplot2)
ggplot(data= DATOS2023P1,mapping= aes(y=PARCIAL1_NOTAS,x = PROGRAMA, fill=SEXO))+geom_boxplot()+
  scale_y_continuous(name = "PARCIAL 1") +
  scale_x_discrete(labels = abbreviate, name = "PROGRAMA")

(f)Box-Plot Notas Parcial1 - DATOS2023P1

library(ggplot2)
ggplot(data= DATOS2023P1,mapping= aes(y=PARCIAL1_NOTAS,x = PROGRAMA, fill=FILAS))+geom_boxplot()+
  scale_y_continuous(name = "PARCIAL 1") +
  scale_x_discrete(labels = abbreviate, name = "PROGRAMA")

(g)Box-Plot Notas Parcial1 - DATOS2023P1

library(ggplot2)
ggplot(data= DATOS2023P1,mapping= aes(y=PARCIAL1_NOTAS,x = SEXO, fill=FILAS))+geom_boxplot()+
  scale_y_continuous(name = "PARCIAL 1") +
  scale_x_discrete(labels = abbreviate, name = "SEXO")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.32 Clase N° 23. RESULTADOS DEL PRIMER CORTE I Usando nuestra base de datos

(a)Tablas Notas Parcial1 - DATOS2023P1

library(summarytools)
summary(DATOS2023P1$PARCIAL1_NOTAS)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.400   3.000   3.700   3.614   4.300   5.300
P1tabla_9 <- freq(DATOS2023P1$DEF_C1)
P1tabla_9
## Frequencies  
## DATOS2023P1$DEF_C1  
## Type: Numeric  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##         1.5      1      1.18           1.18      1.18           1.18
##         2.3      1      1.18           2.35      1.18           2.35
##         2.4      2      2.35           4.71      2.35           4.71
##         2.6      1      1.18           5.88      1.18           5.88
##         2.8      2      2.35           8.24      2.35           8.24
##         2.9      1      1.18           9.41      1.18           9.41
##           3      1      1.18          10.59      1.18          10.59
##         3.1      2      2.35          12.94      2.35          12.94
##         3.2      1      1.18          14.12      1.18          14.12
##         3.3      7      8.24          22.35      8.24          22.35
##         3.4      3      3.53          25.88      3.53          25.88
##         3.5      2      2.35          28.24      2.35          28.24
##         3.6      5      5.88          34.12      5.88          34.12
##         3.7     10     11.76          45.88     11.76          45.88
##         3.8      5      5.88          51.76      5.88          51.76
##         3.9      7      8.24          60.00      8.24          60.00
##           4      1      1.18          61.18      1.18          61.18
##         4.1      5      5.88          67.06      5.88          67.06
##         4.2      3      3.53          70.59      3.53          70.59
##         4.3      3      3.53          74.12      3.53          74.12
##         4.4      4      4.71          78.82      4.71          78.82
##         4.5      5      5.88          84.71      5.88          84.71
##         4.6      4      4.71          89.41      4.71          89.41
##         4.8      4      4.71          94.12      4.71          94.12
##         4.9      3      3.53          97.65      3.53          97.65
##           5      2      2.35         100.00      2.35         100.00
##        <NA>      0                               0.00         100.00
##       Total     85    100.00         100.00    100.00         100.00

(b)Box-Plot Notas Parcial1 - DATOS2023P1

boxplot(DATOS2023P1$DEF_C1, horizontal = TRUE, col = rainbow(3))

(c)Box-Plot Notas Parcial1 - DATOS2023P1

x = DATOS2023P1$DEF_C1
y = DATOS2023P1$SEXO
boxplot(x~y, horizontal = TRUE, col = rainbow(3))

(d)Box-Plot Notas Parcial1 - DATOS2023P1

x = DATOS2023P1$DEF_C1
y = DATOS2023P1$PROGRAMA
boxplot(x~y, horizontal = FALSE, col = rainbow(3))

(e)Box-Plot Notas Parcial1 - DATOS2023P1

library(ggplot2)
ggplot(data= DATOS2023P1,mapping= aes(y=DEF_C1,x = PROGRAMA, fill=SEXO))+geom_boxplot()+
  scale_y_continuous(name = "DEF_C1") +
  scale_x_discrete(labels = abbreviate, name = "PROGRAMA")

(f)Box-Plot Notas Parcial1 - DATOS2023P1

library(ggplot2)
ggplot(data= DATOS2023P1,mapping= aes(y=DEF_C1,x = PROGRAMA, fill=FILAS))+geom_boxplot()+
  scale_y_continuous(name = "DEF_C1") +
  scale_x_discrete(labels = abbreviate, name = "PROGRAMA")

(g)Box-Plot Notas Parcial1 - DATOS2023P1

library(ggplot2)
ggplot(data= DATOS2023P1,mapping= aes(y=DEF_C1,x = SEXO, fill=FILAS))+geom_boxplot()+
  scale_y_continuous(name = "DEF_C1") +
  scale_x_discrete(labels = abbreviate, name = "SEXO")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 23. Usando RStudio.

1.33 Clase N° 23. Tablas de frecuencias agrupadas - Histograma y Polígono de Frecuencias Usando nuestra base de datos

(a)Histograma para la variable Edad

library(summarytools)
tabla_8 <- freq(DATOS2023$EDAD)
tabla_8
## Frequencies  
## DATOS2023$EDAD  
## Type: Numeric  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##          16      1      0.83           0.83      0.83           0.83
##          17     27     22.31          23.14     22.31          23.14
##          18     47     38.84          61.98     38.84          61.98
##          19     23     19.01          80.99     19.01          80.99
##          20     13     10.74          91.74     10.74          91.74
##          21      4      3.31          95.04      3.31          95.04
##          22      2      1.65          96.69      1.65          96.69
##          23      1      0.83          97.52      0.83          97.52
##          24      1      0.83          98.35      0.83          98.35
##          25      1      0.83          99.17      0.83          99.17
##          27      1      0.83         100.00      0.83         100.00
##        <NA>      0                               0.00         100.00
##       Total    121    100.00         100.00    100.00         100.00

(b)Histograma y tabla de frecuencias usando Regla de Sturges

Usando la libreria “agricolae”
library(agricolae)
h2<-graph.freq(DATOS2023$EDAD, col=colors()[75]) #[86]

(c)Tabla de fecuencias agrupadas Regla de Sturges

Usando la libreria “agricolae”
summary(h2)

(d)Polígono de frecuencia absolutas

frequency : counts (1) and relative (2)
plot(h2,  col=colors()[70], frequency = 1)
polygon.freq(h2, col = "red", frequency = 1, lwd = 2)

(e)Polígono de frecuencia relativas

frequency : counts (1) and relative (2)
plot(h2,  col=colors()[70], frequency = 2)
polygon.freq(h2, col = "red", frequency = 2, lwd = 2)

(f)Ojivas - usando R

fr_por_clase2<-h2$counts
fr_por_clase2
## [1] 28 47 36  4  2  2  1  1
total_n2<-sum(h2$counts)
total_n2
## [1] 121
fr_relativos2<-fr_por_clase2/total_n2
fr_porcentuales2<-100*fr_relativos2
fr_porcentuales2
## [1] 23.1404959 38.8429752 29.7520661  3.3057851  1.6528926  1.6528926  0.8264463
## [8]  0.8264463
cumsum(fr_por_clase2)
## [1]  28  75 111 115 117 119 120 121
cumsum(fr_relativos2)
## [1] 0.2314050 0.6198347 0.9173554 0.9504132 0.9669421 0.9834711 0.9917355
## [8] 1.0000000
cumsum(fr_porcentuales2)
## [1]  23.14050  61.98347  91.73554  95.04132  96.69421  98.34711  99.17355
## [8] 100.00000

(f)Ojivas - frecuencias porcentuales

p4<-cumsum(fr_porcentuales2)
plot(p4, col = "red")
lines(p4, col = "red")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.34 Evaluación. Realizar todo el apartado 1.27 con la variable: Variable ESTATURA

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 24. LABORATORIO 6. Ejemplo de aplicación Tablas de frecuencias agrupadas - Histograma de Frecuencias acumuladas y ojiva: USANDO STATGRAPHICS 19 - EVIDENCIAS 50 PUNTOS - SEGUNDO CORTE

1.35 Clase N° 24. Video Usando el Statgraphics - - EVIDENCIAS 50 PUNTOS - SEGUNDO CORTE

embed_youtube("qz-p5xfx2rQ")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

SEMANA 7

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 25. Datos agrupados: Medidas de Tendencia Central

1.36 Media aritmética agrupada

\[Media = \bar{x} = \sum_{i} \frac{x_{i}*f_{i}}{n}\]

Donde:

\(x_{i} =\) Marca de clase.
\(f_{i} =\) es la frecuencia de la clase.

1.37 Mediana agrupada

\[Mediana = \widetilde{x} = L_{i} + \left( \frac{0.5n-F_{i-1}}{f_{i}} \right)A_{i}\]

Donde:

\(L_{i} =\) Límite inferior de la clase mediana.
\(F_{i-1} =\) es la frecuencia acumulada anterior a la clase de la mediana.
\(f_i =\) es la frecuencia absoluta de la clase de la mediana.
\(A_{i} =\) Amplitud del intervalo de la mediana.

1.38 Moda agrupada

\[Moda = \widehat{x} = L_{i} + \left( \frac{D_1}{D_1+D_2} \right)A_{i}\]

Donde:

\(L_{i} =\) Límite inferior de la clase modal.
\(D_1 =\) es la diferencia entre la frecuencia absoluta modal y la frecuencia absoluta premodal.
\(D_2 =\) es la diferencia entre la frecuencia absoluta modal y la frecuencia absoluta postmodal.
\(A_{i} =\) Amplitud del intervalo modal.

1.39 Percentiles agrupada

\[Percentil = \widehat{P}_k = L_{i} + \left( \frac{0.kn-F_{i-1}}{f_{i}} \right)A_{i}\]

Donde:

\(L_{i} =\) Límite inferior del \(\widehat{P}_k\).
\(F_{i-1} =\) es la frecuencia acumulada anterior a la clase del \(\widehat{P}_k\).
\(f_i =\) es la frecuencia absoluta de la clase del \(\widehat{P}_k\).
\(A_{i} =\) Amplitud del intervalo del \(\widehat{P}_k\)

1.40 Clase N° 24. Medidas de Tendencia central agrupadas.

embed_youtube("d8EbV5bnpRw")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 26. Datos agrupados: Medidas de Variación

1.41 La varianza muestral

¿Qué es la varianza muestral?. La varianza muestral es una medida de dispersión que indica la variabilidad de una muestra estadística. Para calcular la varianza muestral se deben sumar los cuadrados de todos los residuos de la muestra y luego dividir por el tamaño de la muestra menos uno.

\[Varianza = S^2 = \sum_{i} \frac{(x_{i}-\bar{x})^2*f_{i}}{n-1}\]

Si los datos se encuentran agrupadoa se tiene que:

\(x_{i} =\) Marca de clase.
\(f_{i} =\) es la frecuencia de la clase.

1.42 La varianza Poblacional

¿Qué es la varianza poblacional?. La varianza muestral es una medida de dispersión que indica la variabilidad de una población estadística. Para calcular la varianza poblacional se deben sumar los cuadrados de todos los residuos de la muestra y luego dividir por el tamaño de la poblacion.

\[Varianza = \sigma^2 = \sum_{i} \frac{(x_{i}-\mu)^2*f_{i}}{N}\]

1.43 Desviación típica poblacional y muestral

La raíz de la varianza se conoce como desviación típica.

\[\sigma= \sqrt{Varianza} = \sqrt{\sigma^2} =\sqrt{\sum_{i} \frac{(x_{i}-\mu)^2*f_{i}}{N}}\]

\[S =\sqrt{Varianza} =\sqrt{ S^2} =\sqrt{ \sum_{i} \frac{(x_{i}-\bar{x})^2*f_{i}}{n-1}}\]

1.44 Coeficiente de variación

El coeficiente de variación es una medida estadística que sirve para determinar la dispersión de un conjunto de datos respecto a su media. El coeficiente de variación se calcula dividiendo la desviación típica de los datos entre su promedio y se expresa en porcentajes.

\[C.V_{Poblacional}= \frac{\sigma}{\mu}*100\]

\[C.V_{muestral} =\frac{S}{\bar{x}}*100\]

Ejemplo.** Para los datos de la Tabla de fecuencias agrupadas, calcule la varianza, la desviación y el coeficiente de variación**

Usando la libreria “agricolae”
summary(h2)

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 27. Taller de Datos agrupados: Medidas de Tendencia Central - 100 PUNTOS

1.45 Construya la Tabla de frecuencia agrupada a partir de los datos de las pruebas saber

Valor Frecuencia Valor Frecuencia Valor Frecuencia Valor Frecuencia Valor Frecuencia
204 1 273 3 305 1 333 4 364 1
210 1 275 1 310 2 338 1 365 2
214 1 278 2 311 1 340 1 368 1
230 2 280 3 313 2 341 2 369 2
240 1 283 1 315 1 342 1 370 1
242 1 285 1 316 1 345 1 380 1
250 1 288 1 318 2 350 1
253 1 289 3 319 1 352 2
255 2 290 1 322 1 353 2
257 1 292 2 323 1 354 2
260 1 294 1 325 1 355 1
263 1 297 2 327 1 356 3
265 1 298 5 328 2 357 1
269 1 300 4 329 1 358 1
270 2 302 1 330 1 361 1
Paso 1.Determinar el rango de los datos. Rango es igual al mayor valor menos el menor valor. \(R = x_{mayor} - x_{menor} = 380 - 204 = 176\)
Paso 2.Determinar el número de clases (o barras) –por ejemplo, la regla de Sturges. $c = 1+3.22log(n) = 1+3.322log(100) $
Paso 3.Establecer la amplitud de clase. \(anchura = w = \frac{R}{c} = \frac{176}{8}=22\)
Paso 4.Construir los intervalos de clases: inicie en el valor mínimo y si es posible finalice en el valor máximo
Clase
[204 - 226)
[226 - 248)
[248 - 270)
[270 - 292)
[292 - 314)
[314 - 336)
[336 - 358)
[358 - 380]
Paso 5.Construir la tabla de frecuencias agrupadas
Clase \(x_j\) \(f_j\) \(F_j\) \(f_{r({\%})}\) \(F_{a({\%})}\)
[204 - 226)
[226 - 248)
[248 - 270)
[270 - 292)
[292 - 314)
[314 - 336)
[336 - 358)
[358 - 380]
Paso 6.Graficar el histograma.
Paso 7.Graficar el polígono de frecuencias.
Paso 8.Construya el Histograma de frecuencias acumulada.
Paso 9.Ojiva o polígono de frecuencias acumulada.
Paso 10.Medidas de Tendencia central para los datos agrupados.

\[Media = \bar{x} = \sum_{i} \frac{x_{i}*f_{i}}{n}\]

\[Mediana = \widetilde{x} = L_{i} + \left( \frac{0.5n-F_{i-1}}{f_{i}} \right)A_{i}\]

\[Moda = \widehat{x} = L_{i} + \left( \frac{D_1}{D_1+D_2} \right)A_{i}\]

\[Percentil = \widehat{P}_{36} = L_{i} + \left( \frac{0.36n-F_{i-1}}{f_{i}} \right)A_{i}\]

Paso 11.Medidas de dispersión para los datos agrupados: Calcule la varianza, la desviación estandar y el coeficiente de variación para los datos

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 28. LABORATORIO 7. ACTIVIDADES EN EL LABORATORIO DE ESTADISTICA I USANDO RStudio

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.46 LABORATORIO 7 Parte I: Inicio en RStudio Cloud

(a) VER Video 2: Inicio en RStudio Cloud

embed_youtube("Q2y2vOvkfvk")

(b) LABORATORIO 7 - Parte II: Las librerias de Uso frecuente con R

  • Un paquete (package) es una colección de funciones, datos y código R que se almacenan en una carpeta conforme a una estructura bien definida, fácilmente accesible para R. En la web de R se puede consultar la lista de paquetes disponibles

(c) Ver el siguiente video:¿Cómo Instalar Paquetes (Librerías) en RStudio y Escribir Comandos? | Tutorial #3

embed_youtube("w5NO_r9saCM")

(d) Instalemos las siguientes Paquetes y librerias en RStudio

library(ggplot2) # Util para hacer gráficos, se puede hacer cualquier tipo de gráficos
library(gridExtra)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following object is masked from 'package:gridExtra':
## 
##     combine
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readr)

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

1.47 LABORATORIO 7 R como una calculadora

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

(a)Ejemplo 1. : Asignación de VariablesSuponga que deseamos comprar 10 mangos, 15 manzanas y 5 aguacates y queremos conocer el precio total, si cada mango tiene un costo de $1000, una manzana de $2500 y un aguacate de 4500.

mango<-1000 #1500, 2000, 2500
manzana<-2500 #3000, 3500, 4000
aguacate<-4500 # 5000, 6000, 7000
precio_total<-5*aguacate+15*manzana+10*mango
precio_total
## [1] 70000
print(paste("precio_total es=", precio_total))
## [1] "precio_total es= 70000"

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

(b)**EVALUACIÓN (30 PUNTOS). Repita el Ejemplo 1 con los precios que aparecen despues del #, SUPONIENDO QUE SE COMPRAN 1050 MANGOS, 2350 MANZANAS Y 5000 AGUACATES.** Enviar pdf del ejercicio al correo

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

(c)Ejemplo 2.Tipos de variables en R

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

(d) Variable numérica

Edad1<-19
Edad2<-c(19, 20)
class(c(Edad1, Edad2))
## [1] "numeric"

(e) Variable categorica

J<-"Julio"
# observa la clase del nombre
class(J)
## [1] "character"

(f) Variables logica

# es 1 mayor que 2
x<-1>2

# cual es la clase de esto
class(x)
## [1] "logical"

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

(f) EJEMPLO 3: R es una calculadora

3+5 # Suma
## [1] 8
3*5 #Multiplicacion
## [1] 15
3**5 # Potencia
## [1] 243
8/2 #división
## [1] 4
8-2 #resta
## [1] 6
x<-10 # asignación de variable
y<-20 #asignación de variable
3*x 
## [1] 30
2*x+6*y
## [1] 140
x^2+y^2
## [1] 500
z<-1:10
print(paste("La suma de los primeros 10 numeros es=", sum(z)))
## [1] "La suma de los primeros 10 numeros es= 55"
print(paste("La suma de los cuadrados de losprimeros 10 numeros es=", sum(z^2)))
## [1] "La suma de los cuadrados de losprimeros 10 numeros es= 385"
sum(z)
## [1] 55
sum(z^2)
## [1] 385

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

(g) Sumando un escalar a un vector

Edad <- c(17, 18, 19, 20, 21, 22, 23, 24, 25)
5 +Edad
## [1] 22 23 24 25 26 27 28 29 30

(h) Multiplicar y/o dividir por un escalar

Peso <-c(50, 55, 60, 65, 70, 75, 80, 85, 90)
3*Peso
## [1] 150 165 180 195 210 225 240 255 270
Peso**2
## [1] 2500 3025 3600 4225 4900 5625 6400 7225 8100
Peso/5
## [1] 10 11 12 13 14 15 16 17 18

(i) Álgebra de vectores

Edad2 <- c(15, 16, 17, 18, 19, 20, 21, 22, 23)
Peso2 <-c(48, 50, 52, 56, 60, 65, 70, 75, 80)

Edad+Edad2
## [1] 32 34 36 38 40 42 44 46 48
Edad-Edad2
## [1] 2 2 2 2 2 2 2 2 2
Edad*Edad2
## [1] 255 288 323 360 399 440 483 528 575
2*Peso-3*Peso2
## [1] -44 -40 -36 -38 -40 -45 -50 -55 -60

(j) Longitud del vector

length(Peso2)
## [1] 9

(k) Promedio del vector Peso2

Peso2
## [1] 48 50 52 56 60 65 70 75 80
mean(Peso2)
## [1] 61.77778

(l) Promedio y desviación del vector Edad2

Edad2
## [1] 15 16 17 18 19 20 21 22 23
mean(Edad2)
## [1] 19
sd(Edad2)
## [1] 2.738613

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

SEMANA 8. Estadistica descriptiva Bivariada y Regresión Lineal Simple

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 29. Estadistica descriptiva Bivariada y Regresión Lineal

embed_youtube("Z-1q5elVOcA")

1.48 Clase N° 29. Estadistica descriptiva Bivariada - Dos variables cualitativas

(a)Recordemos nuestra base de datos original

library(readxl)
data2<-DATOS2023 <- read_excel("DATOS2023.xlsx")
data2

(b)Algunas tablas bivariadas - Contamos Sexo vs Curso -ambas cualitativas

table_bv1<-table(DATOS2023$SEXO, DATOS2023$CURSO)
table_bv1
##    
##     ESTADISTICA I PROBABILIDAD
##   F            49           13
##   M            37           22

(c)Algunas tablas bivariadas - Diagrama de barras Contamos Sexo vs Curso

barp_bv1<-barplot(table_bv1,
        main = "Gráfico de barras CURSO vs SEXO",
        xlab = "CURSO", ylab = "Frecuencia",
        col = c("pink", "blue"),
        legend.text = rownames(table_bv1),
        beside = TRUE) # Barras agrupadas
text(barp_bv1, table_bv1-5, labels = table_bv1)

(d)Algunas tablas bivariadas - Diagrama de barras Contamos Estrato vs Curso

table_bv2<-table(DATOS2023$ESTRATO, DATOS2023$CURSO)
table_bv2
##      
##       ESTADISTICA I PROBABILIDAD
##   I              19            7
##   II             27           16
##   III            21            9
##   IV             12            1
##   V               3            1
##   VI              3            0
##   VII             0            1
barp_bv2<-barplot(table_bv2,
        main = "Gráfico de barras CURSO vs ESTRATO",
        xlab = "CURSO", ylab = "Frecuencia",
        col = rainbow(5),
        legend.text = rownames(table_bv2),
        beside = TRUE) # Barras agrupadas
text(barp_bv2, table_bv2-1, labels = table_bv2)

1.49 Clase N° 29. Estadistica descriptiva Bivariada - Una variable cualitativa y la otra cuantitativa

(a)Una variable cualitativa y la otra cuantitativa: es necesario un boxplot

x = DATOS2023$EDAD
y = DATOS2023$SEXO
boxplot(x~y, horizontal = TRUE, col = rainbow(3))

(b)Una variable cualitativa y la otra cuantitativa: es necesario un boxplot

library(ggplot2)
x = DATOS2023$EDAD
z = DATOS2023$ESTRATO
boxplot(x~z, horizontal = TRUE, xlab = "EDAD", ylab = "ESTRATOS", col = rainbow(3))

(c)Una variable cualitativa y la otra cuantitativa: es necesario un boxplot

library(ggplot2)
x = DATOS2023$ESTATURA
z = DATOS2023$SEXO
boxplot(x~z, horizontal = TRUE, xlab = "ESTATURA", ylab = "SEXO", col = rainbow(3))

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 30. Estadistica descriptiva Bivariada - Dos variables cuantitativas

1.50 Clase N° 30. Estadistica descriptiva Bivariada - Dos variables cuantitativas

(a)Dos variables cuantitativas: es necesario un diagrama de dispersión

library(ggplot2)
x = DATOS2023$ESTATURA
y = DATOS2023$PESO
plot(x,y,  xlab = "ESTATURA", ylab = "PESO", col = rainbow(3))
#dibujar una línea punteada vertical en el valor medio
mean(x)
## [1] 167.9339
mean(y)
## [1] 63.23967
abline (v = mean (x), lwd = 3, lty = 2)
 #dibujar una línea punteada horizontal en el valor medio
abline (h = mean (y), lwd = 3, lty = 2)

mean(x)
## [1] 167.9339
mean(y)
## [1] 63.23967

(b)Conclusión: Del diagrama de dispersión se observa la existencia de una relación lineal directa entre las variables \(x\) e \(y\), puesto que un alto porcentaje de puntos, se encunetran en el I y III cuadrante

(c)Recta de regresión lineal Simple

Debemos encontrar la relación lineal

\[Y = \beta_0 + \beta_1x + \varepsilon\]

Donde:

\(\beta_0\) : Es el intercepto
\(\beta_1\) : Es la pendiente

A partir de los datos se encuentra la relación lineal estimada

\[\widehat{Y} = a + bx\] #### Donde:

\[b = \frac{\sum_{i=1}^{n}x_iy_i-n\bar{x}\bar{y}}{\sum_{i=1}^{n}x_i^2-n\bar{x}^2}\]

\[a = \bar{y}-b\bar{x}\]

1.51 Dos variables cuantitativas: Coeficiente de Correlación de Pearson

Dependiendo de lo alejado o próximo que esté el coeficiente de correlación a +1 ó -1, tendremos las siguientes opciones:

Cuando r = -1, existe una relación lineal perfecta negativa.

Si r está próximo a -1, existe una relación lineal negativa muy fuerte.

Cuando r está próximo a 0, significa que no hay una relación lineal.

Si r está próximo a +1, existe una relación lineal positiva muy fuerte.

Cuando r = +1, existe una relación lineal perfecta positiva.

\[r = \frac{\sum_{i=1}^{n}x_iy_i-n\bar{x}\bar{y}}{\sqrt{\sum_{i=1}^{n}x_i^2-n\bar{x}^2}\sqrt{\sum_{i=1}^{n}y_i^2-n\bar{y}^2}}=\frac{S_{xy}}{S_{x}S_{y}}\] ## 1.52 Dos variables cuantitativas: Coeficiente de Correlación de Pearson usando RStudio

(a)Coeficiente de Correlación de Pearson

cor(x,y)
## [1] 0.4352732

Se concluye que existe una cierta relación lineal entre La estatura y el Peso:

(b)Recta de regresión lineal Simple

Haciendo uso de RStudio construimos la recta de regresión usando la función lm.

regresion1 = lm(y~x, data=DATOS2023)
regresion1
## 
## Call:
## lm(formula = y ~ x, data = DATOS2023)
## 
## Coefficients:
## (Intercept)            x  
##    -13.2018       0.4552

\[\widehat{Y} = a + bx = -13.2018+0.4552x\]

(c)Recta de regresión lineal Simple2

Haciendo uso de RStudio construimos la recta de regresión usando la función lm.

regresion2 = lm(x~y, data=DATOS2023)
regresion2
## 
## Call:
## lm(formula = x ~ y, data = DATOS2023)
## 
## Coefficients:
## (Intercept)            y  
##    141.6116       0.4162

\[\widehat{x} = c + dy = 141.6116+0.4162y\]

(e)Recta de regresión lineal Simple

Haciendo uso de RStudio con la función summary.

summary(regresion2)
## 
## Call:
## lm(formula = x ~ y, data = DATOS2023)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -67.418  -3.585   0.420   5.577  20.988 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 141.61164    5.09334  27.803  < 2e-16 ***
## y             0.41623    0.07892   5.274 6.06e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11.18 on 119 degrees of freedom
## Multiple R-squared:  0.1895, Adjusted R-squared:  0.1827 
## F-statistic: 27.82 on 1 and 119 DF,  p-value: 6.057e-07

Conclusión.El modelo muestra que un 18.95% de la variabilidad observada en el PESO, alcanza a ser explicada por el modelo, dado que \(R^2 = 18.95%\)

1.53 Diagrama de Dispersión y linea de regresión

library(ggplot2)
x = DATOS2023$ESTATURA
y = DATOS2023$PESO
plot(x,y,  xlab = "ESTATURA", ylab = "PESO", col = rainbow(3), main = "y_ajus= a + bx = -13.2018+0.4552x, r= 0.4352732")
#dibujar una línea punteada vertical en el valor medio
abline (v = mean (x), lwd = 3, lty = 2)
 #dibujar una línea punteada horizontal en el valor medio
abline (h = mean (y), lwd = 3, lty = 2)

#ajustar un modelo de regresión lineal a los datos
 regresion1 <- lm (y ~ x, data = DATOS2023)

#definir los valores de intersección y pendiente
 a <- -13.20178 #Intercepto 
b <- 0.4552 # pendiente

#agregue la línea de regresión ajustada al diagrama de dispersión
 abline (a = a, b = b, col = "steelblue")

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 31. Taller de Estadistica descriptiva Bivariada - Dos variables cuantitativas

1.54 Clase N° 31. Estadistica descriptiva Bivariada - Dos variables cuantitativas

Problema de aplicación:En la siguiente base de datos se encuentran consignados los pesos y estaturas de 50 estudiantes seleccionados al azar de un grupo de Estudiantes de Estadística I de la UTB.Complete el siguiente formulario de preguntas:

(a)Datos

taller_rl <- data.frame (x = c (88, 77, 68, 80, 68, 55, 89, 61, 72, 72, 79, 75, 68, 65, 70, 52, 78, 55, 96, 75, 44, 57, 60, 50, 93), y = c (175, 183, 158, 165, 175, 160, 160, 156, 174, 171, 160, 184, 163, 176, 167, 172, 168, 167, 181, 175, 153, 154, 169, 168, 187))

(b)Diagrama de dispersión

plot(taller_rl$x,taller_rl$y,  xlab = "PESO", ylab = "ESTATURA", col = rainbow(3))
#dibujar una línea punteada vertical en el valor medio
mean(taller_rl$x)
## [1] 69.88
mean(taller_rl$y)
## [1] 168.84
abline (v = mean (taller_rl$x), lwd = 3, lty = 2)
 #dibujar una línea punteada horizontal en el valor medio
abline (h = mean (taller_rl$y), lwd = 3, lty = 2)

(c)Coeficiente de Correlación de Pearson

cor(taller_rl$x,taller_rl$y)
## [1] 0.5133798

Se concluye que existe una cierta relación lineal entre La estatura y el Peso:

(d)Recta de regresión lineal Simple

Haciendo uso de RStudio construimos la recta de regresión usando la función lm.

regresion3 = lm(taller_rl$y~taller_rl$x, data=taller_rl)
regresion3
## 
## Call:
## lm(formula = taller_rl$y ~ taller_rl$x, data = taller_rl)
## 
## Coefficients:
## (Intercept)  taller_rl$x  
##    143.9296       0.3565

\[\widehat{Y} = a + bx = 143.9296+0.3565x\]

(e)Recta de regresión lineal Simple

Haciendo uso de RStudio con la función summary.

summary(regresion3)
## 
## Call:
## lm(formula = taller_rl$y ~ taller_rl$x, data = taller_rl)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -15.656  -6.614   1.404   6.247  13.335 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 143.9296     8.8404  16.281 4.06e-14 ***
## taller_rl$x   0.3565     0.1242   2.869  0.00867 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.315 on 23 degrees of freedom
## Multiple R-squared:  0.2636, Adjusted R-squared:  0.2315 
## F-statistic: 8.231 on 1 and 23 DF,  p-value: 0.008673
plot(taller_rl$x,taller_rl$y,  xlab = "PESO", ylab = "ESTATURA", col = rainbow(3))
#dibujar una línea punteada vertical en el valor medio
mean(taller_rl$x)
## [1] 69.88
mean(taller_rl$y)
## [1] 168.84
abline (v = mean (taller_rl$x), lwd = 3, lty = 2)
 #dibujar una línea punteada horizontal en el valor medio

abline (h = mean (taller_rl$y), lwd = 3, lty = 2)

#ajustar un modelo de regresión lineal a los datos
 regresion3 = lm(taller_rl$y~taller_rl$x, data=taller_rl)

#definir los valores de intersección y pendiente
 a <- 143.9296 #Intercepto 
b <- 0.3565 # pendiente

#agregue la línea de regresión ajustada al diagrama de dispersión
 abline (a = a, b = b, col = "steelblue")

1.55. Interpretación del Coeficiente de correlación lineal Simple

Coeficiente de correlación Interpretación
\(r=1\) o \(r=-1\) Correlación Perfecta
\(0.8<r<1\) o \(-1<r<-0.8\) Correlación muy alta
\(0.6<r<0.8\) o \(-0.8<r<-0.6\) Correlación alta
\(0.4<r<0.6\) o \(-0.6<r<-0.4\) Correlación moderada
\(0.2<r<0.4\) o \(-0.4<r<-0.2\) Correlación Baja
\(0.0<r<0.2\) o \(-0.2<r<0.0\) Correlación muy baja
\(r=0.0\) Correlación Nula
Coeficiente \(R^2\) Interpretación
\(r^2=1\) La variabilidad del Modelo \(b_0+b_1*x\) explica en un 100% la variabilidad observada en \(Y\)
\(0.8<r^2<1\) La variabilidad del Modelo \(b_0+b_1*x\) explica en un muy alto porcentaje la variabilidad observada en \(Y\)
\(0.6<r^2<0.8\) La variabilidad del Modelo \(b_0+b_1*x\) explica en un alto porcentaje la variabilidad observada en \(Y\)
\(0.4<r^2<0.6\) La variabilidad del Modelo \(b_0+b_1*x\) explica en moderado porcentaje la variabilidad observada en \(Y\)
\(0.2<r^2<0.4\) La variabilidad del Modelo \(b_0+b_1*x\) explica en un bajo porcentaje la variabilidad observada en \(Y\)
\(0.0<r^2<0.2\) La variabilidad del Modelo \(b_0+b_1*x\) explica en un muy bajo porcentaje la variabilidad observada en \(Y\)
\(r^2=0.0\) La variabilidad del Modelo \(b_0+b_1*x\) No explica la variabilidad observada en \(Y\)

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

Clase N° 32. Laboratorio 8. Estadistica descriptiva Bivariada - Dos variables cuantitativas - Use Excel o IntroStat o Statgraphics

1.56 Clase N° 32. Laboratorio 8. Estadistica descriptiva Bivariada - Dos variables cuantitativas - Use IntroStat o Statgraphics

Para realizar el taller debe ver los siguientes videos:

Video 1:

embed_youtube("QRe33fZGiT0")

Enunciado del Problema de aplicación:En Economía y Negocios se consideran que dos pruebas realizadas con la demanda de un producto se encuentran relacionadas. Se han escogidos 20 clientes consumidoras de un producto y se les ha aplicado las dos pruebas.

OJO:En tu hoja de Reporte cambia PESO por PRUEBA 1 y ESTATURA por PRUEBA 2. En el Paso 9, dice Prediga el puntaje en PRUEBA2 para un cliente que obtuvo 23 puntos en PRUEBA1. Prediga el puntaje en PRUEBA1 para un cliente que obtuvo 28 puntos en PRUEBA2.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%