Las notas del tío statistic

Las notas del tío statistic gy angclruedab ‘IOF6pR 17, 2011 43 pagos Conceptos base Quien se enfrenta por primera vez a la Estadística es bombardeado con una pila de números que regularmente no tienen conexión con nada hasta antes conocido en su entorno; acto seguido se le guía hacia el análisis de esa lista de datos. El tiempo consumido en el análisis no permite al estudiante abundar sobre el objetivo o las implicaciones de su ejecución. or tanto, el aprendiz puede confundirse fácilmente respecto al alcance, delimitación y objeto de la Estadística como ciencia. En l campo de la investigación, la toma de datos es el pan de cada día. Los datos se acumulan en grandes cantidades, y en efecto, después de tomarlos deben ser analizados. La Estadística es «una serie de técnicas que aplicadas al conocimiento empírico lo convierten en conocimiento científico». Dicho de otra forma, análisis de datos pro limita a dos grandes de parámetros pobla muestrales (e. g. : C], S oras as.

La e de mientas para el ción» y su alcance se s es la estimación rtir de estimadores ual nxi,’ n) o mediante intervalos de confianza (P [L < p <L = [10) para los parámetros que representan tales los estimadores. El segundo campo de acción de la Estad(stica es el de «las pruebas de hipótesis» sobre los parámetros; es decir, evalúa la posibilidad de que estos parámetros puedan ser superiores o i Swipe to View nexr page inferiores comparados con un valor de referencia; o bien, compara dos o más estimaciones (CII, respecto a su igualdad o diferencia.

Las pruebas de hipótesis y los intervalos de confianza siempre se refieren a los parámetros poblaclonales, pese a que usen los estimadores en el proceso. Al calcular valores como una media aritmética (D) o la varianza musetral (02), ello implica que se ha tomado una muestra de ndividuos de alguna población de interés, que en dicha muestra se ha medido una variable que el investigador considera trascendente y que al medir tal variable un numero dado de veces se ha generado una lista de datos a partir de la cual es posible calcular tanto la media y la varianza como otros estimadores.

La media obtenida de tales datos representa solo una estimación de la media verdadera en la población (p) de la que la muestra fue extraída (al igual que S2 estima 02). A los valores poblacionales les conocemos como parámetros; los valores calculados en la muestra son sus estimadores. La Estadística es usada para medir la variación y para tratar de manipularla o modificarla a nuestro favor, por lo que el concepto de variable es de hecho el punto de partida.

Una variable aleatoria se genera, cuando en el interés por comprender o manipular un fenómeno, se mide una característica de forma rutinaria y repetitiva en varios individuos u objetos (unidades experimentales). Si la variable es en efecto una medición (g, m, L, s, kg/cm2, 0C, etc. ) esta será una variable cuantitativa y su resultad 2 3 efecto una medición (g, m, L, s, kg/cm2, cc, etc. ) esta será una variable cuantitativa y su resultado teórico implicará ualquier valor en la recta real; frecuentemente se adaptará a la distribución normal.

Si la variable es una caracteristica distintiva (verde, vivo, muerto, liso), se tratará de una variable cualitativa y su rango abarcará teoricamente cualquier valor en el conjunto de los números naturales; no tenemos aquí una medición sino un conteo. Existen un sinfín de factores afectando a cualquier variable que deseemos estimar; estos factores (que son también variables) son los responsables de que exista la variación cuando se toman varios datos de la variable de interés, en condiciones similares. Una variable aleatoria está plenamente caracterizada si se conocen sus medidas de tendencia central y de dispersión.

Ha de precisarse también que las condiciones para aplicar las técnicas de la Estadística están perfectamente definidas: los datos deben provenir de una muestra aleatoria de individuos (tomada al azar) de la población sobre la cual se pretende inferir; la caracter[stica que nos interese medir debe presentar variación entre y/o dentro de los individuos en los que se lleven a cabo las mediciones; y los factores que afectan a la variable que nos interesa deben conocerse y se debe estar en la posibilidad e manipular su magnitud.

Las estimaciones de parámetros o pruebas de hipótesis que se realicen en base a los datos, tomados en una muestra aleatoria de unidades experimentales, deben dirigi 43 base a los datos, tomados en una muestra aleatoria de unidades experimentales, deben dirigirse a la obtención de algún beneficio práctico, ya sea económico o productivo. Una población es el conjunto de todos los elementos o individuos en los que se está interesado en inferir al conducir un experimento. n individuo u objeto de medición es cada uno de los elementos que componen la población y son susceptibles e ser seleccionados en la muestra; es decir, son susceptibles de ser unidades experimentales. Una muestra es un conjunto representativo (que conserve las características propias) de individuos de la población; el número de individuos en una muestra es menor que el de la población.

El muestreo es forma en que se seleccionan aquellos individuos en los que se hará el experimento, obtenidos como una proporción representativa de la población; es decir, como una muestra de la población. un dato es cada uno de los valores que se ha obtenido al realizar una medición unitaria en un individuo. Cuando calculamos valores como la C], s2 ó bl en una muestra de individuos (en base a las mediciones de la variable en esos individuos); lo que se obtiene es una estimación de esos valores en la población; a tal aproximación se le llama un estimador o estadístico.

Sin embargo, los valores reales que representan a la población se denominan parámetros, y pese que los llamamos también Media (p), Varianza (02) o Coeficiente de Regresión (Pl). Los parámetros, son valores únicos que solo pueden ser aproximados (no podemos con 4 43 Regresión (Pl Los parámetros, son valores únicos que solo ueden ser aproximados (no podemos conocer su magnitud real) mediante los estadísticos obtenidos en una muestra y por tanto no son estimables directamente. or ejemplo la p (media poblacional) es estimada por la media aritmética Ü (media de la variable en los individuos de la muestra). Cálculo de medidas descriptivas Medidas de tendencia central A lo largo de toda la recta real, al menos teóricamente, todos los valores son igualmente probables como mediciones de una variable aleatoria en particular; por ello cada vez que se pretende describir una variable la pregunta natural inicial seria ¿Dónde stá?.

Las medidas de tendencia central conducen a un punto especifico de la recta real y dan una idea precisa de la localización física de la variable en la recta, situación por la que también son llamadas medidas de localización. Cada uno de los datos puede dar una idea parcial de la localización de la «nube de datos», pero son las estimaciones de la media, la mediana y la moda, las que nos dicen en concreto a que parte de la recta real ir para encontrar nuestra variable para representar la «nube de datos» gráflcamente. ara el cálculo de medidas de tendencia central plique las fórmulas anotadas en el Cuadro 1. La media es la medida más precisa para localizar una variable aleatoria, significa el centro geométrico y aritmético de una distribución de datos y por tanto la distancia desde cualquier dato hasta este punto es en promedio menor respec s 3 datos y por tanto la distancia desde cualquier dato hasta este punto es en promedio menor respecto a la distancia entre los datos y cualquier otro punto localizado sobre a recta real.

La medana es meramente la posición central de los datos cuando se ordenan ascendentemente, en este sentido no está ligada la magnitud de los datos. La moda solo es aquel valor que circunstancialmente se ha repetido en la toma de datos un mayor número de veces. Si una distribución es simétrica respecto a su media, las tres medidas de tendencia central coinciden, señalando al mismo punto como la localización de la distribución de la variable en la recta real. Las medidas de tendencia central no dan ninguna información respecto a la dlspersión (distancia entre el centro de localizaclón cada uno de los datos.

Dada la localización de una serie de datos, la variable no se encontraré totalmente definida sino hasta que e especifique la cercanía o lejanía (dispersión) que los datos respecto a la posición definida como su localización. Medidas de dispersión Una vez ubicado el punto en que nuestra variable aleatoria se localiza en la recta real, será necesario, para completar la definición de la misma: especificar «el espacio físico que ocupa». Esta es una metáfora, pero en la gráfica de una función, es un hecho muy concreto.

Además del espacio ocupado, debe especificarse su densidad; es decir, la frecuencia o concentración de datos a diferentes distancias desde su media aritmética. Las mencionadas condiciones refieren a la dis 3 diferentes distancias desde su media aritmética. Las mencionadas condiciones refieren a la dispersión de los datos; las medidas de dispersión explican que tan separados, disgregados o dispersos están los datos respecto a su media. Las medidas de dispersión más importantes son, la varianza y la desviación estándar y el rango.

El rango es la diferencia entre los valores máximo y mínimo de una serie de datos en la distribución de una variable aleatoria. La desviación estándar es la diferencia promedio entre «cada uno de los valores de la variable aleatoria» y la media aritmética; ritméticamente es la raiz de la de la varianza. La varianza es la media aritmética del «cuadrado de las desviaciones» de la media respecto a los datos (el dlvisor es n-l para la varianza muestral). Para calcular las medidas de dispersión aplique las fórmulas del Cuadro 1. Propiedades de la varianza: 1 .

La varianza será siempre un valor positivo o cero, el cero implica que los datos son idénticos. 2. Si a todos los valores de la variable se les suma una constante la varianza no cambia. 3. Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por l cuadrado de dicho valor. 4. Si tenemos varias distribuciones con la misma media y conocemos sus respectivas varianzas se puede calcular la varianza compartida o general. Observaciones: 1. La varianza, al igual que la media, es un índice muy sensible a las datos extremos; es decir, lejanos a la media. . En los casos que no se pueda hallar I sensible a las datos extremos; es decir, lejanos a la media. 2. En los casos que no se pueda hallar la media tampoco será posible hallar la varianza. 3 La varianza no está expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al uadrado. Propiedades de la desviación estándar: 1. La desviación estándar será siempre un valor positivo o cero, cero implicará que los datos sean idénticos. 2. Si a todos los valores de la variable se les suma una constante la desviación estándar no cambia. . Si todos los valores de la variable se multiplican por una constante la desviación estándar queda multiplicada por dicho valor. 4. Si tenemos varias distribuciones con la misma media y conocemos sus respectivas desviaclones estándar se puede calcular la desviación típica compartida. Observaciones: 1. La desviación stándar, al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas. 2. En los casos que no se pueda hallar la media tampoco será posible hallar la desviación estándar. . Entre más pequeña sea la desviación estándar mayor será la concentración de datos alrededor de la media. Datos agrupados Dado el volumen de información que puede acumularse al tomar medlciones de variables aleatorias en la práctica, es común que los datos se clasifiquen o agrupen para poderlos manipular e interpretar más rápido La técnica más frecuente de agrupación on las tablas de frecuencia. Una tabla de frecuencia se construye agrupando los n datos en k intervalos 43 de frecuencia.

Una tabla de frecuencia se construye agrupando los n datos en k intervalos o clases de anchura A idéntica; cada clase abarca todos los dato que sean mayores a su límite inferior Li y menores o iguales a su límite superior i (intenaalo abierto por la izquierda y cerrado por la derecha). Las tablas de frecuencia se construyen usando un límite inferior de la primera clase (LI), un ancho de clase (A) y un número de intervalos (k) totalmente arbitrarios a conveniencia. La tabla de frecuencias contiene las siguientes columnas: 1. Los límites de clase Li – L i. 2.

La frecuencia absoluta fi de datos que pertenecen a cada clase (conteo simple). 3. La frecuencia relativa pi de cada intervalo; es decir fi/n. 4. Puede agregarse la frecuencia absoluta acumulada Fi y la frecuencia relativa acumulada Pi. Note que se usa una f para denotar la frecuencia absoluta y una p para denotar frecuencia relativa; si estas letras aparecen en mayúsculas (F ó P), implicarán frecuencias acumuladas hasta la clase i en la que aparezcan. Cuadro 1. Fórmulas para el cálculo de las principales medidas escriptivas en datos completos y en tablas de frecuencia.

Datos Originales Tablas de Frecuencia I Media (Cl) I 1 Medidas de tendencia central Mediana (pe) pe=Valor central omedia de los dos centrales I pe = Lpe + A(O. 5-Pi )pi I Moda (VIO) I po : Dato que se repite más veces vo : vide la clase con mayor fi varianza (S2) ) se repite más veces I po : vide la clase con mayor fi varianza (S2) (Xi-o )2n-1 1 0)2fi (Ei=l kfi)- 1 Medidas de dispersión Desviación estándar(S) I S=S2 1 S=S2 coeficiente de variación (C. V. ) I C. V. = C. V. = Rango Rango=máx. – mín. Rango=Lk- LI I i: cada uno de los valores de X. n: numero de datos. fi: frecuencia absoluta de la clase i. i: valor central de la clase i. Lpe : Limite inferior de la clase de la mediana. A: amplitud o ancho de clase, constante en todas las clases. pi: frecuencia relativa de la clase i. máx. : valor máximo. mín. : valor mínimo, Lk: l(mlte superior de la última clase (clase k). & LI: límite inferior de la clase 1. Una vez clasificados los datos, es posible calcular las medidas descriptivas haciendo operaciones con 5 a 20 clases o intervalos; lo que será más rápido en comparación con hacer lo mismo sando cientos de datos existentes antes de construir la tabla de frecuencia.

El cálculo de medidas es muy simple y se restringe a la aplicación de una fórmula para cada medida descriptiva (Cuadro 1). La clase de la mediana será aquella para la cual la frecuencia relatlva acumulada hasta esta clase supere o iguale 0. 5 (Pi 20. 5). Con fines de enseñanza, es común que se analicen todas las medidas descriptivas de una serie de datos usándolos todos a la vez, y posteriormente se construya una tabla de frecuencias en donde se vuelvan a calcular todas las medidas que ya fueron calculadas con los