Distribucin de Frecuencias Bidimensionales

  • Published on
    03-Oct-2015

  • View
    51

  • Download
    6

DESCRIPTION

Distribucin de Frecuencias Bidimensionales

Transcript

- 1 - 7. DISTRIBUCIN DE FRECUENCIAS BIDIMENSIONALES Este captulo est enfocado al anlisis bivariado que tiene por objeto describir de manera conjunta dos variables pertenecientes a una poblacin o muestra. Dos variables (X, Y) est compuesta por un par de valores (xi , yi) en los que xi son valores de la variable X e yi son valores de la variable Y. Con mayor frecuencia todo anlisis Estadstico relaciona dos o ms variables enfrentndose a lo siguiente: Cmo estn distribuidos de manera conjunta el nivel de ingresos con el nivel de gastos? Cmo saber si existe covarianza entre los siguientes pares de variables: los impuestos y la renta, los benficos empresariales y el volumen de ventas, los salarios y la cualificacin profesional? Cmo saber si existe correlacin entre el precio y la produccin de un bien, los gastos en publicidad y sus beneficios por ventas, los costos y el nmero de empleados? Cmo saber se existe correlacin entre el nivel de gastos y la edad y adems con el estado civil? Qu relacin existe entre el ingreso familiar e inters de los alumnos por seguir estudios universitarios? Existe relacin entre el tiempo dedicado al estudio, ya sea individual o colectivo, y el aprovechamiento logrado por los alumnos en cada una de las materias? Tan pronto como empezamos a indagar acerca de las relaciones entre las variables, nos adentramos en el campo de la correlacin, covariacin y regresin. Donde una de las dos variables es la variable independiente y la otra ser la variable dependiente. 7.1. VARIABLES BIDIMENSIONALES 7.1.1. Diagrama de dispersin El diagrama dispersin son puntos cardinales representados por los valores de la variable X en el eje de las abscisas y los valores de la variable Y en el eje de las ordenada. Generalmente la variable X representa la variable independiente y la variable Y la variable dependiente. El punto que viene determinado por la media de X y la media de Y constituye el centroide o centro de gravedad de la nube de puntos. - 2 - EJEMPLO 7.1. Graficar el diagrama de dispersin de las siguientes variables X = Nmero de trabajadores Y = Produccin expresado en millones de unidades Empresa N de Trabajadores Produccin 1 50 10 2 30 5 3 60 25 4 60 30 5 95 50 6 120 70 7 72 40 8 27 8 9 50 25 10 40 35 11 53 15 12 43 20 010203040506070800 20 40 60 80 100 120 140- 3 - 7.2. TABLAS ESTADSTICAS DE DOBLE ENTRADA La tabla de doble entrada aplicado a variables cuantitativas se denomina tabla de correlacin a variables cualitativas o mixtas recibe el nombre de tabla de contingencia. El procedimiento para la construccin de la distribucin de frecuencias bidimensional se realiza tabulando de manera cruzada de variables. Por tanto, para la tabla de doble entrada se utiliza el siguiente formato universal de frecuencias absolutas conjuntas, porcentuales conjuntas y marginales, vase las tablas 7.1 y 7.2 TABLA 7.1 DOBLE ENTRADA FRECUENCIAS ABSOLUTAS Variable X Variable Y y1 y2 yj yr fi x1 f11 f12 f1j f1r f1 x2 f21 f22 f2j f2r f2 xi fi1 fi2 fij fir fi xk fk1 fk2 fkj fkr fk fj f1 f2 fj fr f= n TABLA 7.2 DOBLE ENTRADA FRECUENCIAS PORCENTUALES Variable X Variable Y y1 y2 yj yr pi x1 p11 p12 p1j p1r p1 x2 p21 p22 p2j p2r p2 xi pi1 pi2 pij pir pi xk pk1 pk2 pkj pkr pk pj p1 p2 pj pr 100 Tambin es posible realizar una sola tabla de doble entrada en la que contenga las frecuencias absolutas y porcentuales segn los requerimientos de la investigacin. Para el caso, los valores agrupados en intervalos, estas sern correspondidas por las marcas de clase o centro del intervalo. Si los valores no son numricos estarn representados por sus atributos, propiedades o cualidades. - 4 - 7.2.1. Frecuencia conjunta En la tabla 7.1 la frecuencia absoluta conjunta denotando por fij indica el nmero de veces que se repite el par ordenado (xi , yi) de valores de la variable (X, Y). En la tabla 7.2 la frecuencia porcentual conjunta denotada por pij indica el porcentaje de observaciones que hay en el par ordenado (xi , yi). Se obtiene dividiendo la frecuencia absoluta conjunta con el nmero total de observaciones y el resultado multiplicar por 100. La frecuencia relativa conjunta se obtiene dividiendo la frecuencia porcentual conjunta sobre 100 e indica la proposicin de observaciones que hay en el par ordenado repite el par ordenado (xi , yi) y se representa por frij. Propiedades de la frecuencia conjunta Propiedad 7.1. La suma de todas las frecuencias absolutas conjuntas, extendida a todos los pares ordenados (xi , yi) es igual al total de las observaciones. Propiedad 7.2. La suma de todos los porcentajes de los pares ordenados (xi , yi) da el 100% Propiedad 7.3. La suma de las frecuencias relativas conjuntas, extendida a todos los pares ordenados (xi , yi) es la unidad. 7.2.2. Frecuencia marginal En las tablas de doble entrada 7.1 y 7.2, las ltimas filas y columnas representan las frecuencias marginales. La frecuencia absoluta marginal de X, denotado por fi indica el nmero de veces que se repite el valor xi de X, sin tener en cuenta el valor de la variable Y. - 5 - Mientras que la frecuencia absoluta marginal de Y, indica el nmero de veces que se repite el valor de yi de Y, sin tener en cuenta el valor de la variable X. La frecuencia porcentual marginal de X, indica el porcentaje de observaciones del valor xi de X, sin tener en cuenta el valor de la variable Y. De la misma manera la frecuencia porcentual marginal de Y Propiedades de la frecuencia marginal Propiedad 7.4. La suma de las frecuencias absolutas marginales tanto de X como de Y, es igual al total de observaciones. Propiedad 7.5. La suma de las frecuencias porcentuales marginales tanto de X como de Y da el 100%. Propiedad 7.6. La suma de las frecuencias relativas marginales tanto de X como de Y es la unidad. 7.2.3. Medias y varianzas marginales La media marginal de X La media marginal de Y - 6 - La varianza marginal de X ( ) [ ] La varianza marginal de Y ( ) [ ] 7.2.4. Frecuencia condicional Del total de observaciones de la tabla de doble entrada solo interesa analizar una fila o columna de datos, esta situacin condiciona la i-sima frecuencia de la variable X con respecto a la variable Y o viceversa. Por tanto se tiene dos maneras de condicionar las variables (X, Y). La variable X condicionada a Y = yj se denota por: Es un subconjunto de las frecuencias absolutas conjuntas fij de los valores xi de la variable X referente a un yi valor fijo de la variable Y. La distribucin de frecuencias absolutas de esta nueva distribucin es exactamente la columna j de la tabla de doble entrada. Donde la totalidad de las observaciones cumple: Es decir: ( ) {( ) } Por tanto las frecuencias porcentuales condicionadas sern: - 7 - Llamada tambin porcentaje de columna vase la siguiente tabla: TABLA 7.3 FRECUENCIA CONDICIONADA X|Y=yj X|Y = yj fi|j pi|j x1 f1|j p1|j X1 f2|j p2|j Xi fi|j pi|j Xk fk|j pk|j fj 100 Analgicamente para la variable Y condicionada a X = xi se denota por: La distribucin de frecuencias absolutas de esta nueva distribucin es la fila i de la tabla de doble entrada: Donde la totalidad de observaciones se cumple: Es decir: ( ) {( ) } Por tanto las frecuencias porcentuales condicionadas sern: TABLA 7.4 FRECUENCIA CONDICIONADA Y|X=xi X|Y = xi y1 y2 yi yk fj|i f1|i f2|i fj|i fr|i fi pj|i p1|i p2|i pj|i pr|i 100 - 8 - 7.2.5. Medias y varianzas condicionales La media de la variable X condicionada a Y=yj est dado por La media de la variable Y condicionada a X=xi est dado por La varianza de la variable X condicionada a Y=yj est dado por ( ) La varianza de la variable Y condicionada a X=xi est dado por ( ) 7.2.6. Independencia estadstica En la tabla de doble entrada, dos variables estadsticas X e Y son independientes si la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales. ( ) En trminos de frecuencia conjunta se tiene: Despejando fij: Para X|Y = yj Es lo mismo: Es decir las filas de frecuencias relativas condicionadas coinciden entre s, y a su vez con las frecuencias relativas de la marginal de Y. - 9 - Para Y|X = yi Es lo mismo: Es decir las filas de frecuencias relativas condicionadas coinciden entre s, y a su vez con las frecuencias relativas de la marginal de Y. EJEMPLO 7.2. En la fbrica se registran los siguientes datos: Obrero X Y Obrero X Y Obrero X Y 1 4 1 22 2 4 43 1 2 2 5 2 23 3 1 44 4 1 3 1 4 24 4 2 45 4 2 4 1 1 25 2 4 46 2 3 5 3 2 26 2 3 47 2 2 6 1 2 27 2 2 48 1 3 7 5 1 28 1 3 49 1 2 8 4 3 29 1 2 50 2 2 9 3 1 30 3 1 51 2 2 10 1 2 31 3 4 52 4 1 11 1 3 32 3 3 53 1 2 12 1 2 33 2 3 54 1 3 13 4 1 34 2 1 55 5 1 14 3 2 35 1 4 56 5 2 15 1 3 36 1 4 57 3 2 16 5 1 37 3 2 58 3 1 17 1 3 38 5 1 59 4 2 18 2 1 39 5 2 60 2 3 19 3 2 40 1 3 61 2 2 20 2 2 41 1 2 62 4 1 21 2 1 42 1 2 Dnde: X = Aos de antigedad del obrero de la fabrica y = Cantidad de artculos defectuosas que elabora el obrero Construir: a. La tabla de frecuencia de doble entrada b. La distribucin marginal de X e Y c. La distribucin condicionada X|Y =3 e Y|X=2 - 10 - a. a.1. Tabla de doble entrada de frecuencias absolutas Artculos defectuosos 1 2 3 4 Antigedad 1 1 9 7 3 20 2 3 6 4 2 15 3 4 5 1 1 11 4 5 3 1 0 9 5 4 3 0 0 7 17 26 13 6 n=62 a.2. Tabla de doble entrada de frecuencias porcentuales Artculos defectuosos 1 2 3 4 Antigedad 1 2 14 11 5 32 2 5 10 6 3 24 3 6 8 2 2 18 4 8 5 2 0 15 5 6 5 0 0 11 27 42 21 10 100 b. b.1. Distribucin marginal de X fi pi Antigedad 1 20 32 2 15 24 3 11 18 4 9 15 5 7 11 62 100 Interpretacin: p1=32, indica que el 32% delos obreros tienen una antigedad de 1 aos en la fbrica y equivale a 20 obreros de los 62. p2=24, indica que el 24% delos obreros tienen una antigedad de 2 aos en la fbrica y equivale a 15 obreros de los 62. p3=18, indica que el 18% delos obreros tienen una antigedad de 3 aos en la fbrica y equivale a 11 obreros de los 62. p4=15, indica que el 15% delos obreros tienen una antigedad de 4 aos en la fbrica y equivale a 9 obreros de los 62. p5=11, indica que el 11% delos obreros tienen una antigedad de 5 aos en la fbrica y equivale a 7 obreros de los 62. - 11 - b.2. Distribucin marginal de Y fj pj Artculos defectuosos 1 17 27 2 26 42 3 13 21 4 6 10 62 100 Interpretacin f1 =17, indica que 17 obreros elaboran 1 artculos defectuosos y corresponde a p1 =27% f2 =26, indica que 26 obreros elaboran 2 artculos defectuosos y corresponde a p2 =42% f3 =13, indica que 13 obreros elaboran 3 artculos defectuosos y corresponde a p3 =21% f4 =6, indica que 6 obreros elaboran 4 artculos defectuosos y corresponde a p4 =10% c. c.1. Frecuencia condicionada X|Y=3 Artculos defectuosos X|Y=3 f 3|i p 3|1 Antigedad 1 7 2 4 3 1 4 1 5 0 f3 = 13 100,0 Interpretacin: p1|3=53,8; indica que del grupo de obreros que elaboran exclusivamente 3 artculos defectuosos, el 53,8% de ellos tienen un ao de antigedad. p2|3=30,8; indica que del grupo de obreros que elaboran exclusivamente 3 artculos defectuosos, el 30,8% de ellos tienen 2 aos de antigedad. p3|3=7,7; indica que del grupo de obreros que elaboran exclusivamente 3 artculos defectuosos, el 7,7% de ellos tienen 3 aos de antigedad. - 12 - p4|3=7,7; indica que del grupo de obreros que elaboran exclusivamente 3 artculos defectuosos, el 7,7% de ellos tienen 4 aos de antigedad. p5|3=0; indica que del grupo de obreros que elaboran exclusivamente 3 artculos defectuosos, ninguno de ellos tienen 5 aos de antigedad. c.2. Frecuencia condicionada Y|X=2 Artculos defectuosos Y|X=2 f j|2 p 3|1 Antigedad 1 3 2 6 3 4 4 2 f2 = 15 100,0 Interpretacin: p1|2=20,0; indica que del grupo de obreros con 2 aos de antigedad el 20%elaboran un artculo defectuoso. p2|2=40,0; indica que del grupo de obreros con 2 aos de antigedad el 20%elaboran 2 artculos defectuosos. p3|2=26,7; indica que del grupo de obreros con 2 aos de antigedad el 20%elaboran 3 artculos defectuosos. p4|2=13,3; indica que del grupo de obreros con 2 aos de antigedad el 20%elaboran 4 artculos defectuosos. 7.3. GRFICOS PARA LAS TABLAS DE DOBLE ENTRADA 7.3.1. Grfico de barras en 3D En el plano cartesiano para cada punto (xi , yi) se levantan paraleleppedos rectangulares cuyas alturas son proporcionales a sus frecuencias conjuntas correspondientes. Si todas las frecuencias fueran unitarias, entonces habra que recurrir a un diagrama de dispersin. Artculos defectuosos 1 2 3 4 Antigedad 1 1 9 7 3 2 3 6 4 2 3 4 5 1 1 4 5 3 1 0 5 4 3 0 0 - 13 - En base a la tabla anterior del EJEMPLO 7.2 se elabor la grfica siguiente: 7.3.2. Grfico de barras mltiples En base a los valores de la variable X, consiste en levantar barras agrupadas en funcin a los valores de la variable Y. Estas barras pueden ser horizontales o verticales proporcional a sus frecuencias absolutas o porcentuales. hombres Mujeres Moroso 15 35 No moroso 55 45 Con los datos de la tabla se construy la grfica: 4321024681012345Articulos defectuosos Frecuencias Antigedad 0102030405060Hombres MujeresFrecuencias MorosoNo moroso- 14 - 7.3.3. Grfico de barras apiladas En base a los atributos de la variable X, consiste en levantar barras apiladas proporcional a la frecuencia conjunta de los atributos de la variable Y. La suma de cada barra apilada representa a la frecuencia marginal. hombres Mujeres Moroso 15 35 No moroso 55 45 Total 70 80 BIBLIOGRAFIA [1] CORIA D. (2012) Anlisis de datos estadsticos. 1ra edicin, Bolivia. 0102030405060708090Hombres MujeresFrecuencias No morosoMoroso