Medidas de tendencia central, variación y forma para datos no agrupados

Publicación animada

Tema Medidas de tendencia central, variación y forma para datos no agrupados

Estadística I

Medidas de tendencia central, variación y forma para datos no agrupados

En esta ocasión nos centraremos en las medidas de tendencia central, específicamente en la variación y forma de datos no agrupados, ya que para las

variables numéricas se necesita más que la simple imagen visual de una

variable obtenida a partir de gráficas. Por ejemplo, en el caso en el que a usted

le gustaría determinar no solo si durante el año 2023 los fondos más riesgosos tuvieron un rendimiento superior, sino también si tuvieron más variación y cómo

se distribuyeron en cada grupo de riesgo. También si desea examinar si existió

alguna relación entre el coeficiente de gastos y los rendimientos de ese año.

Esta lectura le permitirá aprender algunos métodos de medición, tales como los

siguientes:

• Tendencia central : es la medida que describe cómo todos los valores de los datos se agrupan en torno a un valor central. • Variación : es la cantidad de disgregación o dispersión de los valores con respecto a un valor central. • Forma : es el patrón de distribución de los valores desde el menor hasta el mayor.

También aprenderá sobre la covarianza y el coeficiente de correlación , que

ayudan a medir la fuerza de asociación entre dos variables numéricas.

Recordemos que la variación mide la distribución o dispersión de valores que

conforman el conjunto de datos. Una medida simple de la variación es el rango,

que es la diferencia entre los valores máximo y mínimo. En la estadística, son de uso más común la desviación estándar y la varianza. La forma de un conjunto

de datos representa un patrón para todos los valores, desde el mínimo hasta el

máximo.

La media

La media aritmética (por lo general, llamada la media ) es la medida más común de tendencia central, en la que todos los valores desempeñan el mismo papel. Esta sirve como “punto de equilibrio” del conjunto de datos (como el punto de apoyo de un balancín). La media se calcula sumando todos los valores del

conjunto de datos y dividiendo el resultado por el número de valores

considerados.

Para representar a la media de una muestra, utilizamos el símbolo X̅ (llamado equis barra). Si se considera una muestra que contiene n valores, la ecuación de

su media se describe como sigue:

Suma de los valores Número de valores

X̅=

La mediana

Es el valor que divide en dos partes iguales a un conjunto de datos ya ordenado;

en otras palabras, es el valor medio de un conjunto de datos ordenado de menor a mayor. La mediana no se ve afectada por los valores extremos, de manera que

puede utilizarse cuando están presentes.

Para calcular la mediana del conjunto de datos, primero ordenamos los valores de menor a mayor, y para calcular la clasificación del valor que corresponde a la

mediana utilizamos la siguiente fórmula:

n+1 2

Mediana=

El 50 % de los valores son menores que la mediana y el otro 50 % son mayores.

Es importante mencionar que para calcular el valor de la mediana se siguen una de las dos reglas siguientes:

• Regla 1: si en el conjunto de datos hay un número impar de valores, la mediana es el valor colocado en medio.

• Regla 2: si en el conjunto de datos hay un número par de valores,

entonces la mediana es el promedio de los dos valores colocados en

medio.

La moda

Es el valor del conjunto de datos que aparece con mayor frecuencia. Al igual que

en la mediana y en la diferencia de la media, los valores extremos no afectan a la moda. Solo debemos utilizar la moda con propósitos descriptivos, ya que

varía más de una muestra a otra que la media o la mediana. Con frecuencia, en

un conjunto de datos no existe moda, o bien, hay varias modas.

El rango

Es la medida numérica descriptiva más sencilla de la variación de un conjunto

de datos. El rango es igual al valor mayor menos el valor menor, tal como se

muestra a continuación:

Rango=X mayor −X menor

La varianza y la desviación estándar

Son dos medidas de la variación muy utilizadas para tomar en cuenta cómo se distribuyen los datos. Estos estadísticos miden la dispersión “promedio”

alrededor de la media, es decir, qué tanto varían los valores más grandes que

están por encima de ella y cómo se distribuyen los valores menores que están por debajo de ella.

La varianza para una muestra es la suma de las diferencias con respecto a la

media elevada al cuadrado y dividida por el tamaño de la muestra menos 1, la fórmula es la siguiente:

∑ (X i −X̅) 2 n i=1 n−1

S 2 =

La desviación estándar de una muestra es la raíz cuadrada de la varianza:

S=√S 2

Tablas de frecuencias

La importancia de la agrupación de datos

Para un mejor análisis estadístico en cuanto a la descripción de datos, es importante agrupar los datos en una tabla de frecuencias.

En la tabla de frecuencias, utilizamos el número de clases, el ancho del intervalo

y la frecuencia relativa. Por ejemplo: si se tienen 50 datos y se quieren organizar los datos, primero debemos calcular el número de clases deseado.

La fórmula que utilizamos para tal fin es:

2 c ≥n

El valor “c” es un entero positivo, el cual se busca sustituyendo en la fórmula; hay varios valores “c” que satisfacen la ecuación, pero el valor “c” que se utiliza

es el primer entero que satisface esa desigualdad. Si nuestro tamaño es 50, el

primer valor “c” que satisface la ecuación es 2 elevado a la 6, es decir, 64.

C equivale a 6, por tanto, hay 6 clases.

Otra fórmula que necesitamos es la del ancho del intervalo, la cual es la

siguiente:

Dato mayor− Dato menor Número deseado de clases

Ancho=

Por ejemplo: si el dato mayor es 234 y el menor es 143 y se tienen 6 clases, el

ancho corresponde a (234 - 143) / 6 = 15.2, que es aproximadamente 15.

Las clases se generan de la siguiente manera, sumando 15, iniciando en 140 o

en el primer valor menor de 143, y así sucesivamente iniciando la siguiente clase

en el siguiente entero.

Por ejemplo:

Clase

143 - 158

159 - 174

175 - 190

La frecuencia es la cantidad de datos en una clase y la frecuencia relativa es escribir la frecuencia como porcentaje.

Clases

Frecuencia

Frecuencia relativa

Frecuencia acumulada

40-52

7

29%

7

53-65

2

8%

9

66-78

6

25%

15

79-91

5

21%

20

92-104

4

17%

24

24

100%

Por ejemplo, tomando en cuenta la tabla anterior, si la frecuencia es 7, su frecuencia relativa se calcula dividiendo 7 entre el total de 24, equivalente a 29%.

Por su parte, la frecuencia acumulada se obtiene de sumar la frecuencia anterior

a la siguiente, por ejemplo: 9 proviene de sumar 7 + 2. Siguiendo con el ejemplo, 15 proviene de sumar 9 + 6 y así sucesivamente. La última frecuencia

acumulada en orden ascendente debe ser el total de datos, en este caso, 24.

Gráficos de barra, línea y circular Los gráficos de barra se generan seleccionando las columnas de clase y frecuencia, y es igual para los gráficos de línea; en cambio, el gráfico de pastel se crea seleccionando la frecuencia relativa únicamente. En los gráficos de barra se representa información resumida, la cual puede incluir variables cuantitativas y cualitativas. El gráfico de línea se utiliza en el análisis de

tendencia y controles de calidad; por su parte, en el gráfico circular se

representan únicamente porcentajes.

Fórmulas en Excel Para calcular las medidas de tendencia central haremos uso de Excel. Por lo general, utilizamos la versión de Office 365 en línea, ya que todos tenemos esa

versión.

Las funciones o fórmulas que utilizaremos son las siguientes:

Medida

Versión en español

Versión en inglés

Media

=promedio()

=average()

Mediana

=mediana()

=median()

Moda

=moda()

=mode()

Varianza

=var.m()

=var.s()

Desviación

=desvest.m()

=desvest.s()

Análisis de datos

Existe otra herramienta para el cálculo de las medidas de tendencia central y

dispersión, la cual e s una aplicación dentro de Excel llamada “Análisis de datos” .

Esta sirve para calcular las medidas descriptivas sin utilizar las fórmulas, y solo

se seleccionan los datos y se escogen medidas descriptivas.

El único inconveniente es que solo se puede instalar en las versiones de desktop (escritorio) u offline, pues la función aún no está implementada en la versión en línea de Office 365.

Los pasos para instalar el análisis de datos se detallan a continuación:

1. Haga clic en el menú Herramientas . 2. A continuación, haga clic en Complementos de Excel .

3. En el cuadro

Complementos disponibles , active la casilla

Herramientas para análisis .

4. A continuación, haga clic en Aceptar .

Bibliografía

Webster, A. L. (2000). Estadística aplicada a los negocios y la economía. McGraw-Hill.

Estadística I

Made with FlippingBook flipbook maker