Series de variación y sus elementos. Análisis de series de variación.

Serie de variaciones: definición, tipos, características principales. Método de cálculo
moda, mediana, media aritmética en investigaciones médicas y estadísticas
(mostrar con un ejemplo condicional).

Una serie de variación es una serie de valores numéricos de la característica en estudio, que difieren entre sí en magnitud y están dispuestos en una secuencia determinada (en orden ascendente o descendente). Cada valor numérico de una serie se llama variante (V), y los números que muestran con qué frecuencia ocurre una variante particular en una serie determinada se llaman frecuencia (p).

El número total de casos de observación que componen la serie de variación se denota con la letra n. La diferencia en el significado de las características que se estudian se llama variación. Si una característica variable no tiene una medida cuantitativa, la variación se llama cualitativa y la serie de distribución se llama atributiva (por ejemplo, distribución por resultado de enfermedad, estado de salud, etc.).

Si una característica variable tiene una expresión cuantitativa, dicha variación se llama cuantitativa y la serie de distribución se llama variacional.

Las series de variaciones se dividen en discontinuas y continuas, según la naturaleza de la característica cuantitativa; simples y ponderadas, según la frecuencia de aparición de la variante.

En una serie de variación simple, cada opción ocurre solo una vez (p=1), en una serie ponderada, la misma opción ocurre varias veces (p>1). Se analizarán más ejemplos de tales series en el texto. Si la característica cuantitativa es continua, es decir Entre cantidades enteras existen cantidades fraccionarias intermedias, la serie de variación se llama continua.

Por ejemplo: 10,0 – 11,9

14,0 – 15,9, etc.

Si la característica cuantitativa es discontinua, es decir sus valores individuales (variantes) difieren entre sí en un número entero y no tienen valores fraccionarios intermedios, la serie de variaciones se llama discontinua o discreta.

Usando los datos de frecuencia cardíaca del ejemplo anterior

para 21 estudiantes construiremos una serie de variación (Tabla 1).

tabla 1

Distribución de estudiantes de medicina por frecuencia cardíaca (lpm)

Por tanto, construir una serie de variaciones significa sistematizar y organizar los valores numéricos disponibles (variantes), es decir, organizar en una secuencia determinada (en orden ascendente o descendente) con sus frecuencias correspondientes. En el ejemplo considerado, las opciones están dispuestas en orden ascendente y se expresan como números enteros discontinuos (discretos), cada opción aparece varias veces, es decir Estamos ante una serie de variación ponderada, discontinua o discreta.

Como regla general, si el número de observaciones en la población estadística que estamos estudiando no supera las 30, entonces basta con organizar todos los valores de la característica en estudio en una serie de variación ascendente, como en la Tabla. 1, u orden descendente.

Con un gran número de observaciones (n>30), el número de variantes que aparecen puede ser muy grande; en este caso, se compila un intervalo o una serie de variaciones agrupadas en las que, para simplificar el procesamiento posterior y aclarar la naturaleza de la distribución, las variantes se combinan en grupos.

Normalmente, el número de opciones de grupo oscila entre 8 y 15.

Debería haber al menos 5 de ellos, porque... de lo contrario, será una ampliación demasiado aproximada y excesiva, lo que distorsiona la imagen general de la variación y afecta en gran medida la precisión de los valores medios. Cuando el número de variantes del grupo es superior a 20-25, la precisión del cálculo de los valores promedio aumenta, pero las características de la variación de la característica se distorsionan significativamente y el procesamiento matemático se vuelve más complicado.

Al compilar una serie agrupada, es necesario tener en cuenta

− los grupos de opciones deben organizarse en un orden determinado (ascendente o descendente);

− los intervalos en los grupos de opciones deben ser los mismos;

− los valores de los límites del intervalo no deben coincidir, porque no quedará claro en qué grupos clasificar las variantes individuales;

− es necesario tener en cuenta las características cualitativas del material recolectado al establecer límites de intervalo (por ejemplo, al estudiar el peso de los adultos, es aceptable un intervalo de 3 a 4 kg, y para los niños en los primeros meses de vida es no debe exceder los 100 g)

Construyamos una serie agrupada (intervalos) que caracterice los datos sobre la frecuencia del pulso (latidos por minuto) de 55 estudiantes de medicina antes del examen: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Para construir una serie agrupada necesitas:

1. Determinar el tamaño del intervalo;

2. Determine el medio, el principio y el final de los grupos de la serie de variaciones.

● El tamaño del intervalo (i) está determinado por el número de supuestos grupos (r), cuyo número se establece en función del número de observaciones (n) según una tabla especial.

Número de grupos en función del número de observaciones:

En nuestro caso, para 55 alumnos, puedes crear de 8 a 10 grupos.

El valor del intervalo (i) está determinado por la siguiente fórmula:

i = V máx-V mín/r

En nuestro ejemplo, el valor del intervalo es 82-58/8= 3.

Si el valor del intervalo es una fracción, el resultado debe redondearse al número entero más cercano.

Hay varios tipos de promedios:

significado aritmetico,

● media geométrica,

● media armónica,

● media cuadrática,

● promedio progresivo,

● mediana

EN estadísticas medicas Los promedios aritméticos son los más utilizados.

La media aritmética (M) es un valor generalizador que determina lo que es típico para toda la población. Los principales métodos para calcular M son: el método de la media aritmética y el método de los momentos (desviaciones condicionales).

El método de la media aritmética se utiliza para calcular la media aritmética simple y la media aritmética ponderada. La elección del método para calcular la media aritmética depende del tipo de serie de variación. En el caso de una serie de variación simple, en la que cada opción ocurre sólo una vez, la media aritmética simple está determinada por la fórmula:

donde: M – valor medio aritmético;

V – valor de la característica variable (variantes);

Σ – indica la acción – sumatoria;

n – número total de observaciones.

Un ejemplo de cálculo de la media aritmética simple. Frecuencia respiratoria (número de movimientos respiratorios por minuto) en 9 hombres de 35 años: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Para determinar el nivel medio de frecuencia respiratoria en hombres de 35 años, es necesario:

1. Construya una serie de variación, ordenando todas las opciones en orden ascendente o descendente. Hemos obtenido una serie de variación simple, porque Los valores de las opciones ocurren solo una vez.

M = ∑V/n = 171/9 = 19 respiraciones por minuto

Conclusión. La frecuencia respiratoria en hombres de 35 años es de 19 movimientos respiratorios por minuto en promedio.

Si se repiten los valores individuales de una variante, no es necesario anotar cada variante en una línea, basta con enumerar los tamaños que aparecen de la variante (V) y al lado indicar el número de sus repeticiones (p. ). Tal serie de variación, en la que las opciones se pesan, por así decirlo, por el número de frecuencias correspondientes a ellas, se denomina serie de variación ponderada, y el valor promedio calculado es la media aritmética ponderada.

La media aritmética ponderada está determinada por la fórmula: M= ∑Vp/n

donde n es el número de observaciones igual a la suma de frecuencias – Σр.

Un ejemplo de cálculo de la media aritmética ponderada.

La duración de la incapacidad (en días) en 35 pacientes con enfermedades respiratorias agudas (IRA) atendidos por un médico local durante el primer trimestre del año en curso fue: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 días .

El método para determinar la duración promedio de la discapacidad en pacientes con infecciones respiratorias agudas es el siguiente:

1. Construyamos una serie de variación ponderada, porque Los valores individuales de la opción se repiten varias veces. Para ello, puedes ordenar todas las opciones en orden ascendente o descendente con sus correspondientes frecuencias.

En nuestro caso, las opciones están ordenadas en orden ascendente.

2. Calcule el promedio ponderado aritmético usando la fórmula: M = ∑Vp/n = 233/35 = 6,7 días

Distribución de pacientes con infecciones respiratorias agudas por duración de la discapacidad:

Duración de la incapacidad (V) Número de pacientes (p) vicepresidente
∑p = norte = 35 ∑Vp = 233

Conclusión. La duración de la discapacidad en pacientes con enfermedades respiratorias agudas fue en promedio de 6,7 días.

El modo (Mo) es la opción más común en la serie de variaciones. Para la distribución presentada en la tabla, la moda corresponde a una opción igual a 10, ocurre con más frecuencia que otras: 6 veces.

Distribución de pacientes por tiempo de estancia en una cama de hospital (en días)

V
pag

A veces es difícil determinar la magnitud exacta de una moda porque puede haber varias observaciones "más comunes" en los datos que se estudian.

La mediana (Me) es un indicador no paramétrico que divide la serie de variaciones en dos mitades iguales: el mismo número de variantes se ubica a ambos lados de la mediana.

Por ejemplo, para la distribución que se muestra en la tabla, la mediana es 10, porque a ambos lados de este valor hay 14 opciones, es decir el número 10 ocupa una posición central en esta serie y es su mediana.

Dado que el número de observaciones en este ejemplo es par (n=34), la mediana se puede determinar de la siguiente manera:

Yo = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Esto significa que la mitad de la serie cae en la decimoséptima opción, que corresponde a una mediana igual a 10. Para la distribución presentada en la tabla, la media aritmética es igual a:

M = ∑Vp/n = 334/34 = 10,1

Entonces, para 34 observaciones de la tabla. 8, tenemos: Mo=10, Me=10, la media aritmética (M) es 10,1. En nuestro ejemplo, los tres indicadores resultaron ser iguales o cercanos entre sí, aunque son completamente diferentes.

La media aritmética es la suma resultante de todas las influencias; en su formación participan todas las opciones sin excepción, incluidas las extremas, a menudo atípicas para este fenómeno o agregados.

La moda y la mediana, a diferencia de la media aritmética, no dependen del valor de todos los valores individuales de la característica variable (los valores de las variantes extremas y el grado de dispersión de la serie). La media aritmética caracteriza toda la masa de observaciones, la moda y la mediana caracterizan la mayor parte

Series de variación y sus elementos.

Un investigador interesado en la categoría arancelaria de los trabajadores mecánicos.
taller, realizó una encuesta a 100 trabajadores. Coloquemos los valores observados.
premio en orden ascendente. Esta operación se llama clasificación.
Datos estadísticos. Como resultado, obtenemos la siguiente serie, que llama
Xia clasificado:

1,1,..1, 2,2..2, 3,3,..3, 4,4,..4, 5,5,..5, 6,6,..6.

De la serie clasificada se desprende que la característica estudiada (arancel
rango) tomó seis valores diferentes: 1, 2, 3, 4, 5 y 6.

A continuación, llamaremos a diferentes valores de la característica. opción-
mi,
Y debajo variando - Comprender los cambios en los valores de los atributos.

Dependiendo de los valores aceptados por el signo, los signos se dividen
en varían discretamente y varían continuamente.

La categoría arancelaria es una característica que varía discretamente. Número, impresiones-
El número de veces que aparece la opción x en un número de observaciones se denomina hora-
juguete
opción mx.

En lugar de la frecuencia de la opción x, podemos considerar su relación con la frecuencia general.
número de observaciones norte, Lo que es llamado frecuencia opción y su relación denota ancho x .

w x =m x /n=m x /åm x

Una tabla que le permite juzgar la distribución de frecuencias (o frecuencias) entre opciones se llama series de variación discreta.

Junto con el concepto de frecuencia, se utiliza el concepto. frecuencia acumulada,
que denotan t x nak. La frecuencia acumulada muestra cuantas veces
En las observaciones, el signo tomó valores menores que el valor x dado. Actitud
acumulación de frecuencia para numero total las observaciones n se llaman acumulado
frecuencia
y denotar w x desnudo. Es obvio que



w x nak =m x nak /n=m x nak /åm x .

Frecuencias acumuladas (frecuencias para una serie de variación discreta, calculadas en la siguiente tabla:

X mx m x desnudo w x desnudo
0+4=4 0,04
4+6=10 0,10
10+12=22 0,22
22+16=38 0,38
38+44=82 0,82
82+18=100 1,00
Por encima de 6

Sea necesario estudiar la producción por trabajador - maquinista de un taller mecánico en el año del informe como porcentaje del año anterior. Aquí, la característica x que se estudia es la producción en el año del informe como porcentaje del anterior. Esta es una característica que varía continuamente. Identificar rasgos característicos Las variaciones en los valores del atributo se combinarán en grupos de trabajadores cuya producción fluctúe dentro del 10%. Presentamos los datos agrupados en la tabla:

Investigación firmar x Número de trabajadores m Proporción de trabajadores w Acumulado frecuencia m x nak w x desnudo
80-90 8/117 8/117
90-100 15/117 8+15=23 23/117
100-110 46/117 23+46=69 69/117
110-120 29/117 69+29=98 98/117
120-130 13/117 98+13=111 111/117
130-140 3/117 111+3=114 114/117
140-150 3/117 114+3=117 117/117
å

En la tabla de frecuencia, m muestra cuántas observaciones tomó la característica en valores pertenecientes a un intervalo particular. Esta frecuencia se llama intervalo, y su relación con el número total de observaciones es frecuencia de intervalo w. Una tabla que permite juzgar la distribución de frecuencia entre intervalos de variación en los valores de una característica se llama serie de variación de intervalo.

Se construye una serie de variación de intervalo basada en datos observacionales para
un rasgo que varía continuamente, así como uno que varía discretamente, si
el número de variantes observadas es grande. Se construye una serie de variaciones discretas.
sólo para un rasgo discretamente variable

A veces, una serie de variación de intervalo se reemplaza condicionalmente por una discreta.
Entonces el valor medio del intervalo se toma como opción x, y el valor correspondiente
frecuencia del intervalo de deformación - para tx.

Para determinar el intervalo constante óptimo h, a menudo utilizan Fórmula Sturgess:

h=(x máx – x mín)/(1+3,322*lg norte).

Construcción de int.var.rows

Las frecuencias m muestran cuántas observaciones tomó la característica en valores pertenecientes a un intervalo particular. Esta frecuencia se llama frecuencia de intervalo y su relación con el número total de observaciones se llama frecuencia de intervalo w. Una tabla que permite juzgar la distribución de frecuencias (o frecuencias) entre intervalos de variación en los valores de una característica se denomina serie de variación de intervalo.

Se construye una serie de variación de intervalo basándose en datos de observación para un rasgo que varía continuamente, así como para uno que varía discretamente, si el número de variantes observadas es grande. Una serie de variación discreta se construye sólo para una característica que varía discretamente.

A veces, una serie de variación de intervalo se reemplaza condicionalmente por una discreta. Luego, el valor medio del intervalo se toma como opción x y la frecuencia del intervalo correspondiente se toma como mx.

Para construir una serie de variación de intervalo, es necesario determinar el tamaño del intervalo, establecer una escala completa de intervalos y agrupar los resultados de la observación de acuerdo con ella.

Para determinar el intervalo constante óptimo h, a menudo se utiliza la fórmula de Sturgess:

h = (xmáx - xmín) /(1+ 3,322 log n) .

donde xmax xmin son las opciones máxima y mínima, respectivamente. Si, como resultado de los cálculos, h resulta ser un número fraccionario, entonces se debe tomar como valor del intervalo el número entero más cercano o la fracción simple más cercana.

Se recomienda tomar el valor a1=xmin-h/2 como inicio del primer intervalo; el inicio del segundo intervalo coincide con el final del primero y es igual a a2=a1 +h; el comienzo del tercer intervalo coincide con el final del segundo y es igual a a3=a2 + h. La construcción de intervalos continúa hasta que el comienzo del siguiente intervalo en orden sea mayor que xmax. Después de establecer la escala de intervalo, se deben agrupar los resultados de la observación.

5) Concepto, formas de expresión y tipos de indicadores estadísticos.

Indicador estadístico representa una característica cuantitativa de los fenómenos y procesos socioeconómicos en condiciones de certeza cualitativa. La certeza cualitativa del indicador radica en que está directamente relacionado con el contenido interno del fenómeno o proceso en estudio, su esencia.

Sistema de indicadores estadísticos. es un conjunto de indicadores interrelacionados que tiene una estructura de un solo nivel o de varios niveles y tiene como objetivo resolver un problema estadístico específico.

A diferencia de una característica, un indicador estadístico se obtiene mediante cálculo. Puede ser un simple recuento de unidades de población, sumando sus valores característicos, comparando 2 o más valores, o cálculos más complejos.

Existe una distinción entre un indicador estadístico específico y un indicador de categoría.

Indicador estadístico específico Caracteriza el tamaño, magnitud del fenómeno o proceso que se estudia en un lugar determinado y en un momento determinado. Sin embargo, en los trabajos teóricos y en la etapa de diseño de la observación estadística, también operan con indicadores absolutos o indicadores de categorías.

Indicadores-categorías reflejar la esencia, propiedades distintivas generales de indicadores estadísticos específicos del mismo tipo sin indicar el lugar, la hora y el valor numérico. Todos los indicadores estadísticos se dividen según la cobertura de las unidades de población en individuales y libres, y según la forma, en absoluto, relativo y promedio.

Indicadores individuales caracterizar un objeto separado o una unidad separada de una población: una empresa, una firma, un banco, etc. Un ejemplo es el número de personal industrial y de producción de una empresa. A partir de la comparación de dos indicadores absolutos individuales que caracterizan el mismo objeto o unidad, se obtiene un indicador relativo individual.

Indicadores resumidos a diferencia de los individuales, caracterizan un grupo de unidades que representan parte de una población estadística o toda la población en su conjunto. Estos indicadores se dividen en volumétricos y calculados.

Indicadores de volumen se obtienen sumando los valores característicos de unidades individuales de la población. El valor resultante, llamado volumen de una característica, puede actuar como un indicador volumétrico absoluto o puede compararse con otro valor volumétrico absoluto o el volumen de una población. En los 2 últimos casos se obtienen indicadores volumétricos relativos y volumétricos medios.

Indicadores estimados, calculados mediante varias fórmulas, sirven para resolver problemas de análisis estadísticos individuales: medir la variación, las características de los cambios estructurales, evaluar las relaciones, etc. También se dividen en absolutos, relativos o promedio.

Este grupo incluye índices, coeficientes de correlación, errores de muestreo y otros indicadores.

La cobertura de las unidades de población y la forma de expresión son las principales, pero no las únicas, características de clasificación de los indicadores estadísticos. Una característica de clasificación importante es también el factor tiempo. Los procesos y fenómenos socioeconómicos se reflejan en indicadores estadísticos ya sea en un momento determinado, generalmente en una fecha determinada, al comienzo o al final de un mes, año o durante un período determinado: día, semana, mes, trimestre, año. . En el primer caso, los indicadores son momentáneo, en el segundo - intervalo.

Dependiendo de la pertenencia a uno o dos objetos de estudio, distinguen objeto único Y indicadores interobjetos. Si los primeros caracterizan solo un objeto, los segundos se obtienen como resultado de una comparación de dos cantidades relacionadas con objetos diferentes.

Desde el punto de vista de la certeza espacial, los indicadores estadísticos se dividen en territoriales generales, caracterizando el objeto o fenómeno que se estudia en el país en su conjunto, regionales y locales, relativo a cualquier parte del territorio o a un objeto separado.

6) Tipos y relaciones de indicadores relativos..

Indicador relativo es el resultado de dividir un indicador absoluto por otro y expresa la relación entre las características cuantitativas de los procesos y fenómenos socioeconómicos. Por tanto, en relación con los indicadores absolutos, los indicadores relativos o los indicadores en forma de valores relativos son derivados.

Al calcular un indicador relativo, el indicador absoluto que se encuentra en el numerador de la relación resultante se llama actual o comparable. El indicador con el que se realiza la comparación y que está en el denominador se llama base o base de comparación. Las medidas relativas se pueden expresar como porcentajes, ppm, proporciones o pueden denominarse números.

Todos los indicadores relativos utilizados en la práctica se dividen en:

·Altavoces; plan; ·implementación del plan; estructuras; · coordinación; · intensidad y nivel de ecodesarrollo; · comparaciones.

Indicador de dinámica relativa es la relación entre el nivel del proceso o fenómeno en estudio durante un período de tiempo determinado y el nivel del mismo proceso o fenómeno en el pasado.

OPD=indicador actual/anterior. O una línea de base.

El valor calculado de esta manera muestra cuántas veces el nivel actual excede al anterior o qué proporción de este último corresponde. Si este indicador se expresa como una razón múltiple, se llama tasa de crecimiento, al multiplicar este coeficiente por 100% obtenemos tasa de crecimiento.

Índice de estructura relativa representa la relación entre las partes estructurales del objeto en estudio y su conjunto. El indicador de estructura relativa se expresa en fracciones de unidad o como porcentaje. Los valores calculados (d i), llamados respectivamente participación o gravedad específica, muestran qué participación tiene la i-ésima parte en el total general.

Indicadores relativos de coordinación caracterizar la relación entre las partes individuales del todo. En este caso se selecciona como base de comparación la parte que tiene mayor participación o es prioritaria desde el punto de vista económico, social o de cualquier otro tipo. Como resultado, obtenemos cuántas unidades de cada parte estructural hay por 1 unidad de la parte estructural básica.

Índice de intensidad relativa Caracteriza el grado de distribución del proceso o fenómeno que se estudia en su entorno inherente. Este indicador se calcula cuando el valor absoluto es insuficiente para formular conclusiones fundamentadas sobre la escala del fenómeno, su tamaño, saturación y densidad de distribución. Puede expresarse como porcentaje, ppm o una cantidad determinada. Se utilizan diversos indicadores de intensidad relativa. indicadores relativos del nivel de desarrollo ambiental, caracterizando la producción per cápita y desempeñando un papel importante en la evaluación del desarrollo de la economía del estado. En cuanto a la forma de expresión, estos indicadores se acercan a los indicadores promedio, lo que a menudo conduce a su confusión o identificación. La única diferencia entre ellos es que al calcular el indicador promedio, estamos tratando con un conjunto de unidades, cada una de las cuales es portadora de la característica promediada.

Índice de comparación relativa representa la relación de indicadores absolutos del mismo nombre que caracterizan diferentes objetos (empresas, firmas, regiones, distritos, etc.)

Indicadores de variación

El estudio de la variación (cambio en los valores de una característica dentro de una población) ha gran importancia en estadística e investigación socioeconómica en general. Los indicadores de variación absolutos y relativos, que caracterizan la variabilidad de los valores de una característica variable, permiten, en particular, medir el grado de conexión e interrelación, evaluar el grado de homogeneidad de la población, la tipicidad y la estabilidad. del promedio, y determinar la magnitud del posible error de observación del muestreo.

Los indicadores absolutos de variación incluyen el rango de variación, la desviación lineal promedio, la dispersión, la desviación estándar y la desviación trimestral.

El rango de variación muestra en qué medida cambia el valor de una característica que varía cuantitativamente.

R=xmax-xmin, donde xmax(xmin) es el valor máximo (mínimo) de la característica en el agregado (en la serie de distribución).

La desviación lineal promedio d se define como el valor promedio de las desviaciones de las variantes de atributos del promedio a la primera potencia, tomado módulo:

La desviación lineal promedio se utiliza relativamente raramente para evaluar la variación de un rasgo. Normalmente se calculan la varianza y la desviación estándar.

Si es necesario comparar la variabilidad de varias características en una población o la misma característica en varias poblaciones con diferentes indicadores del centro de distribución, entonces se utilizan indicadores relativos de variación.

Estos incluyen los siguientes indicadores:

1. Coeficiente de oscilación:

2. Desviación lineal relativa:

3. Coeficiente de variación:

4. Indicador de variación cuartil relativa:

La medida de variación relativa más utilizada es el coeficiente de variación. Este indicador se utiliza no solo para una evaluación comparativa de la variación, sino también como una característica de la homogeneidad de la población. Una población se considera homogénea si<0,33.

Formularios.

1. Estadísticas. La presentación de informes es una forma organizativa en la que las unidades de observación proporcionan información sobre sus actividades en forma de formularios, aparatos regulatorios.

La peculiaridad de la denuncia es que debe estar justificada, ejecutoriada y legalmente confirmada mediante la firma del gerente o responsable.

2. La observación especialmente organizada es el ejemplo más sorprendente y sencillo de esta forma de observación de los fenómenos. censo. El censo suele realizarse a intervalos regulares, simultáneamente en toda la zona de estudio y al mismo tiempo.

Los organismos estadísticos rusos realizan censos de población de ciertos tipos de subsistencia y organizaciones, recursos materiales, plantaciones perennes, objetos de construcción de salud pública, etc.

4. Forma de registro de observación: basada en el mantenimiento de un registro estadístico. En el registro cada La unidad de observación se caracteriza por una serie de indicadores. En la práctica estadística nacional, los más difundidos son los registros y subregistros US-I.

El registro de población lo realiza la Oficina del Registro Civil

Registro - USRPO led.org. Estadísticas.

Tipos.

se pueden dividir en grupos según lo siguiente. señales:

a) según el momento de la inscripción

b) por cobertura de unidades de la sociedad

Por registro de tiempo. ellos son:

Actual (continua)

Intermitente (periódico y único)

En la actualidad obs. los cambios en los fenómenos y procesos se registran a medida que ocurren (inscripción de nacimiento, defunción, matrimonio, divorcio, etc.)

Periódico obs. llevado a cabo a través de def. Intervalos de tiempo (N censo de población cada 10 años)

Una vez obs. llevado a cabo no regularmente o sólo una vez (referéndum)

Por unidades de cobertura. Observación del estado soviético. hay:

Sólido

No continuo

Observación continua es una encuesta de todas las unidades de la sociedad

Observación continua Se supone que sólo una parte de la investigación está sujeta a observación.

Existen varios tipos de observación no continua:

Método básico formación

Selectivo (por tu cuenta)

Monográfico

Este método se caracteriza por el hecho de que, por regla general, se seleccionan la mayor cantidad de criaturas, generalmente las unidades más grandes. sov-ti en el gato. centro significa. parte de todos los signos.

Con observación monográfica, atenta y. están sujetos al departamento. unidades estudiar el búho o tal vez o típico de una unidad soviética determinada. o presentar nuevas variedades de fenómenos.

Observación múltiple llevado a cabo con el objetivo de identificar tendencias emergentes en el desarrollo de este fenómeno.

Métodos

Observación directa

Observación documental

llamado directamente tales obs. con gato Los propios registradores, midiendo, contando, restringiendo inmediatamente el hecho objeto de registro, y sobre esta base hacen una anotación en el formulario.

Método documental de observación. basado en el uso de diversos documentos como fuentes de información, generalmente registros contables (es decir, informes estadísticos)

Una encuesta es un método de persuasión con un gato. la información necesaria se obtendrá de las palabras del encuestado (es decir, de la persona entrevistada) (oral, corresponsal, cuestionario, personal, etc.)

Determinación de errores de muestreo.

En el proceso de realización de la observación de muestras se distinguen dos tipos de errores: registro y representatividad.

Errores de registro – desviaciones entre el valor del indicador obtenido durante la observación estadística y su valor real. Estos errores pueden aparecer tanto durante la observación continua como durante la observación incompleta. Los errores de registro ocurren debido a información incorrecta o inexacta. Las fuentes de este tipo de error pueden ser la falta de comprensión de la esencia de la pregunta, la falta de atención del registrador, la omisión o el recuento de unidades de observación individuales. Los errores de registro se dividen en sistemático, causado por razones que actúan en cualquier dirección y suavizan los resultados de la encuesta (redondeo de números), y aleatorio, que son el resultado de la acción de varios factores aleatorios (reorganización de números vecinos). Los errores aleatorios tienen diferentes direcciones y, cuando se encuesta un volumen de población suficientemente grande, se anulan entre sí.

Errores de representatividad – desviaciones de los valores del indicador de la población encuestada de su valor en la población original. Estos errores también se dividen en sistemático, resultante de una violación de los principios de selección de unidades a observar de la población original, y aleatorio, que surgen si la población seleccionada no reproduce completamente a toda la población en su conjunto. Se puede estimar la magnitud del error aleatorio.

Sesgo de muestreo– la diferencia entre el valor de una característica en la población general y su valor calculado sobre la base de los resultados de la observación de la muestra. En la práctica de las encuestas por muestreo, la mayoría de las veces se determinan los errores de muestreo promedio y máximo.

El error de muestreo promedio se calcula de manera diferente para diferentes métodos de muestreo. Si se trata de una selección aleatoria o mecánica, entonces

Para promedio: m = s 2 / (n) 1/2

Para una fracción: m = (w(1-w)/n) 1/ 2, donde

m - error de muestreo promedio

s 2 - variación general

n – tamaño de la muestra

Si la población muestral se forma sobre la base de una muestra típica y la selección de unidades se realiza en proporción al tamaño de los grupos típicos, entonces el error promedio es igual a:

Para mediano: m = (s yo 2 / n) 1/2

Para compartir: m = (w i (1-w i) / n) 1/2 , Dónde

s i 2 – promedio de las variaciones intragrupo

wi es la proporción de unidades de este grupo que tienen el rasgo en estudio.

s yo 2 = ås 2 norte yo / ån yo

El error de muestreo serial promedio es:

Para mediano: metro = (d x 2 / r) 1/2

Para compartir: metro = (d 2 w/r) 1/2

re 2 w – varianza de la proporción intergrupal

rex 2 – dispersión intergrupal de un rasgo cuantitativo.

r – número de series seleccionadas/

d 2 x = å(xi -x) 2 / r

re 2 w = å(w yo – w) 2 / r

Si la selección de unidades de la población general se realiza de forma no repetitiva, entonces se modifican las fórmulas del error medio: (1-n/N) 1/2

Error de muestreo marginal D se calcula como el producto del coeficiente de confianza t y el error de muestreo promedio: D = t*metro. D está relacionado con el nivel de confianza de probabilidad que lo garantiza. Este nivel determina el coeficiente de confianza t, y viceversa. Los valores t se dan en tablas matemáticas especiales.

Determinación del tamaño de la muestra.

El tamaño de la muestra se calcula, por regla general, en la etapa de diseño de la encuesta por muestreo. Las fórmulas para determinar el tamaño de la muestra se derivan de las fórmulas para los errores máximos de muestreo.

El volumen de muestreo repetido aleatorio y mecánico real está determinado por las fórmulas:

Para promedio norte = t 2 s 2 / D 2

por una parte norte = t 2 w(1-w) / D 2

En caso de muestreo no repetitivo:

Para promedio norte = t 2 s 2 norte / ND 2 +t 2 s 2

por una parte norte = t 2 w(1-w)N / ND 2 +t 2 w(1-w).

Cantidades s 2 y w desconocido antes de la observación aleatoria. Se encuentran aproximadamente así:

1. tomado de encuestas anteriores;

2. Si se conocen los valores máximo y mínimo de una característica, entonces la desviación estándar se determina según la regla "tres sigma":

s = x máx – x mín / 6

3. al estudiar un rasgo alternativo, si no hay información sobre su participación en la población general, se toma el valor máximo posible w = 0,5

Con la selección típica, proporcional al tamaño de los grupos típicos, el tamaño de la muestra para cada grupo está determinado por la fórmula : n yo = n*N yo / N, Dónde

n yo – tamaño de muestra del i-ésimo grupo

ni yo– volumen del grupo i en la sociedad genética.

Cuando el muestreo es proporcional a la variación de una característica, el tamaño de la muestra de cada grupo se encuentra de la siguiente manera: n yo = nN yo s yo /åN yo s yo .

Con un remuestreo típico proporcional al tamaño de los grupos, el tamaño total de la muestra se encuentra de la siguiente manera:

Para promedio norte = t 2 s 2 yo / D 2

por una parte norte = t 2 w(1-w) / D 2

En el caso de muestreo típico no repetitivo:

Para promedio norte = t 2 s 2 yo norte / re 2 norte + t 2 s 2 yo

por una parte norte = t 2 w(1-w)N / D 2 N+t 2 w(1-w)

Conceptos básicos y requisitos previos para el uso del análisis de correlación y regresión.

Correlación Es una dependencia estadística entre variables aleatorias que no tienen un carácter estrictamente funcional, en la que un cambio en una de las variables aleatorias conduce a un cambio en la expectativa matemática de la otra.

Análisis de correlación– tiene como tarea la determinación cuantitativa de la estrecha relación entre dos características y entre las características efectivas y multifactoriales. La cercanía de la conexión se expresa cuantitativamente por la magnitud de los coeficientes de correlación.

Correlación-regresión El análisis como concepto general incluye medir la estanqueidad, la dirección de la conexión y establecer una expresión analítica (forma) de la conexión (análisis de regresión).

Análisis de regresión Consiste en determinar la expresión analítica de una relación en la que un cambio en un valor (llamado característica dependiente o resultante) se debe a la influencia de uno o más valores independientes (factores), y el conjunto de todos los demás factores que también influencia se supone el valor dependiente - se calcula para valores constantes y promedio. La regresión puede ser unifactorial (emparejada) y multifactorial (múltiple).

El propósito del análisis de regresión. es una evaluación de la dependencia funcional del valor promedio condicional de la característica resultante (Y) de las características del factor (x 1, x 2, ... x k).

La premisa principal del análisis de regresión. es que sólo la característica resultante (U) obedece a la ley de distribución normal, y las características factoriales x 1, x 2,..., x k pueden tener una ley de distribución arbitraria. En el análisis de series de tiempo, el tiempo t actúa como un atributo del factor. Al mismo tiempo, en el análisis de regresión se supone de antemano que existen relaciones de causa y efecto entre las características del factor efectivo (U) (x 1, x 2,..., x k). La ecuación de regresión, o modelo estadístico de la relación entre fenómenos socioeconómicos, expresada por la función Y x = f (x 1, x 2,..., x k), es bastante adecuada al fenómeno o proceso real simulado si la se cumplen las siguientes condiciones requisitos para su construcción.

1. El conjunto de datos iniciales objeto de estudio debe ser homogéneo y estar descrito matemáticamente mediante funciones continuas.

2. La capacidad de describir el fenómeno modelado con una o más ecuaciones de relaciones causa-efecto.

3. Todas las características de los factores deben tener una expresión cuantitativa (numérica).

4. La presencia de un volumen suficientemente grande de la población de muestra en estudio.

5. Las relaciones de causa y efecto entre fenómenos y procesos deben describirse mediante formas de dependencia lineales o reducibles a lineales.

6. Falta de restricciones cuantitativas sobre los parámetros del modelo de comunicación.

7. Constancia de la estructura territorial y temporal de la población estudiada.

La validez teórica de los modelos de relación construidos sobre la base del análisis de correlación y regresión está garantizada mediante el cumplimiento de lo siguiente condiciones básicas.

1. Todas las características y sus distribuciones conjuntas deben obedecer a la ley de distribución normal;

2. La varianza de la característica modelada (V) debe permanecer constante todo el tiempo cuando cambian el valor (V) y los valores de las características del factor.

3. Las observaciones individuales deben ser independientes, es decir, los resultados obtenidos en la i -ésima observación no deben estar relacionados con los anteriores y contener información sobre observaciones posteriores, además de influir en ellas.

OBJETIVOS DEL RESUMEN Y SU CONTENIDO

La observación proporciona información sobre cada unidad del objeto en estudio. Los datos obtenidos no son indicadores generales. Con su ayuda, es imposible sacar conclusiones sobre el objeto en su conjunto sin un procesamiento preliminar de los datos.

Por tanto, el objetivo de la siguiente etapa de la investigación estadística es sistematizar los datos primarios y obtener, a partir de estos, una característica resumida de todo el objeto utilizando patrones estadísticos generalizadores.

Resumen: un conjunto de operaciones secuenciales para generalizar hechos individuales específicos que forman un conjunto, con el fin de identificar características y patrones típicos inherentes al fenómeno estudiado en su conjunto.

Si durante la observación estadística se recopilan datos sobre cada unidad de un objeto, entonces el resultado del resumen son datos detallados que reflejan toda la población en su conjunto.

El resumen estadístico debe realizarse sobre la base de un análisis teórico preliminar de fenómenos y procesos, de modo que durante el resumen no se pierda información sobre el fenómeno en estudio y todos los resultados estadísticos reflejen los rasgos característicos más importantes del objeto.

Según la profundidad del procesamiento del material, el resumen puede ser simple o complejo.

Un resumen simple es la operación de calcular los totales totales para un conjunto de unidades de observación.

Un resumen complejo es un conjunto de operaciones que incluye agrupar unidades de observación, calcular totales para cada grupo y para todo el objeto y presentar los resultados de la agrupación y el resumen en forma de tablas estadísticas.

El resumen está precedido por el desarrollo de su programa, que consta de las siguientes etapas: selección de características de agrupación; determinar el orden de formación del grupo; desarrollo de un sistema estadístico para caracterizar grupos y el objeto en su conjunto; desarrollo de un sistema de diseños de tablas estadísticas en las que se deben presentar los resultados resumidos.

Resumen de la forma de procesamiento de materiales: descentralizado y centralizado.

Con un resumen descentralizado (esto es lo que se utiliza, por regla general, al procesar informes estadísticos), el desarrollo del material se lleva a cabo en etapas sucesivas. Así, los informes de las empresas son elaborados por los órganos estadísticos de las entidades constitutivas de la Federación de Rusia, y los resultados de la región se envían al Comité Estatal de Estadística de Rusia, y allí los resultados de la economía nacional del país como el conjunto está determinado.

Con un resumen centralizado, todo el material primario ingresa a una organización, donde se procesa de principio a fin. Generalmente se utiliza un resumen centralizado para procesar materiales de encuestas estadísticas únicas.

Según la técnica de ejecución, el resumen estadístico se divide en mecanizado y manual.

Resumen mecanizado: en el que todas las operaciones se llevan a cabo mediante computadoras electrónicas. Con el resumen manual, todas las operaciones principales (cálculo de totales generales y de grupo) se realizan manualmente.

Para realizar el resumen se elabora un plan que establece cuestiones organizativas: quién y cuándo se realizarán todas las operaciones, el procedimiento para su realización, la composición de la información a publicar en publicaciones periódicas.

Cerrando filas de din-ki

Al analizar filas de din-ki, surge la necesidad de cerrarlas, combinar dos o más filas en una sola. El cierre es necesario en los casos en que los niveles de las series no sean comparables debido a cambios territoriales, a cambios en los precios y a cambios en el método de cálculo de los niveles de las series. es necesario cerrar (combinar) las dos filas anteriores en una. Esto se puede hacer utilizando el coeficiente de comparabilidad. Multiplicando los datos del año por el coeficiente resultante, obtenemos una serie cerrada (comparable) de dinámicas de valores absolutos. 2. El método para cerrar la serie de dinámicas (método de reducción a una base) es que los niveles del año en el que ocurrieron los cambios, como antes del cambio y después de los cambios, se toman como 100%, y el resto se recalcula como un porcentaje en relación con estos niveles, respectivamente.

30. Métodos para alinear filas de din-ki.

Teóricamente, cualquier serie de dinámicas se puede representar en forma de tres componentes:

Tendencia (la principal tendencia y desarrollo de la serie dinámica);

Fluctuaciones cíclicas (periódicas), incluidas las estacionales;

Fluctuaciones aleatorias.

Una de las tareas que surge al analizar series dinámicas es establecer cambios en los niveles del fenómeno en estudio. En algunos casos, el patrón de cambios en los niveles de la serie din-ki es bastante claro, por ejemplo, una disminución sistemática en los niveles de la serie o su aumento. a veces los niveles de una serie sufren cambios muy diferentes (ya sean crecientes o decrecientes). En este caso, sólo podemos hablar de una tendencia y un desarrollo generales: crecimiento o declive.

La identificación de la tendencia principal y el desarrollo (tendencia) se denomina alineación de series de tiempo, y los métodos para identificar la tendencia principal se denominan alineación.

La identificación directa de una tendencia se puede realizar mediante tres métodos.

* Md ampliación de intervalos. Este MD se basa en la ampliación de períodos de tiempo, que incluyen los niveles de la serie. Por ejemplo, una fila de din-ki

la producción diaria se reemplaza por una serie de proyecciones mensuales, etc.

* Media móvil md. En este método, los niveles iniciales de la serie se reemplazan por valores medios, que se obtienen a partir de un nivel dado y de varios que lo rodean simétricamente. El número entero de niveles sobre los cuales se calcula el valor promedio se denomina intervalo de suavizado. El intervalo de suavizado puede ser impar (3, 5, 7, etc. puntos) o par (2, 4, 6, etc. puntos). Los promedios se calculan utilizando el método deslizante, es decir, excluyendo gradualmente el primer nivel del período deslizante aceptado e incluyendo el siguiente. Con suavizado impar, la media aritmética resultante se asigna al centro del intervalo calculado.

“-” m-dics de suavizado por medias móviles consiste en la convención de determinar niveles suavizados para los puntos al principio y al final de la serie.

* La alineación analítica es la forma más eficaz de identificar la principal tendencia y desarrollo. En este caso, los niveles de la serie dinámica se expresan en función del tiempo: Yt=f(t)

El propósito del alineamiento analítico de una serie es determinar el valor analítico f(t). En la práctica, utilizando las series de tiempo existentes, establecen la forma y encuentran los parámetros de la función f(t), y luego analizan el comportamiento de las desviaciones de la tendencia.

En economía, a menudo se utiliza una función de la forma: Уi = а0 +∑ аi +ti

A partir de una función de la forma (3.12), la mayoría de las veces al nivelar se utiliza la función lineal /(*) = ao + a1 *t o la parabólica f(t) = a0 +att + a2 t2.

Los coeficientes ao,a,a2,...,ap en la fórmula se encuentran mediante mínimos cuadrados.

Según este método, para encontrar los parámetros de un polinomio de grado p, es necesario resolver un sistema de las llamadas ecuaciones normales:

nao+a1∑t=∑Y

ao∑t+ a1∑t*t= ∑Y*t.

La tendencia muestra cómo los factores sistemáticos influyen en la dinámica de la población. La fluctuación de niveles alrededor de la tendencia sirve como medida del impacto de factores residuales (aleatorios). Esta medida de impacto puede evaluarse

utilizando la fórmula de desviación estándar.

Conceptos básicos de análisis de correlación y regresión.

Nombre del parámetro Significado
Tema del artículo: Serie de variación
Rúbrica (categoría temática) Producción

Valores observados variable aleatoria X 1 , X 2 , …, x k son llamados opciones.

Frecuencia opciones X normalmente me llaman el número n yo (i=1,…,k), mostrando cuántas veces ocurre esta opción en la muestra.

Frecuencia Opciones (frecuencia relativa, fracción) xyo (i=1,…,k) generalmente se llama relación de su frecuencia n yo al tamaño de la muestra norte.

Las frecuencias y las frecuencias se llaman escamas.

Frecuencia acumulada Se acostumbra llamar al número de opciones cuyos valores son menores que uno determinado. X:

Frecuencia acumulada Se acostumbra llamar a la relación entre la frecuencia acumulada y el volumen de muestra:

Serie de variación(serie estadística): se acostumbra llamar a una secuencia de opciones escritas en orden ascendente y sus correspondientes pesos.

La serie de variación debe ser discreto(muestreo de valores de una variable aleatoria discreta) y continuo (intervalo)(muestra de valores de una variable aleatoria continua).

La serie de variación discreta tiene la forma:

Cuando el número de variantes es grande o el signo es continuo (la variable aleatoria puede tomar cualquier valor en un intervalo determinado), invente intervalo serie de variaciones.

Para construir una serie de variación de intervalo, realice agrupamiento opción: se dividen en intervalos separados:

El número de intervalos a veces se determina usando Fórmulas de Sturges:

Luego se cuenta el número de opciones que caen en cada intervalo: frecuencias n yo(o frecuencia n yo/norte). Si la opción está en el límite del intervalo, entonces se adjunta al intervalo correcto.

La serie de variación de intervalo tiene la forma:

Opciones
Frecuencias

Función de distribución empírica (estadística) se acostumbra llamar a una función cuyo valor en un punto X es igual a la frecuencia relativa de la variante que toma un valor menor que X(frecuencia acumulada para X):

Polígono de frecuencia Se llama línea discontinua cuyos segmentos conectan puntos con coordenadas ( X 1 ; norte 1), (X 2 ; norte 2), …, (x k; nk). Está construido de manera similar. Polígono de frecuencia, que es un análogo estadístico de un polígono de distribución.

Vale decir que para una serie de variación continua se puede construir un polígono si los valores X 1 , X 2 , …, x k tomar los puntos medios de los intervalos.

Una serie de variación de intervalo generalmente se representa gráficamente usando histogramas.

gráfico de barras– una figura escalonada que consta de rectángulos cuyas bases son intervalos parciales de longitud h= xyo +1 – xyo, i= 0,…,k-1, y las alturas son iguales a las frecuencias (o frecuencias) de los intervalos n yo (yo).

Acumula(curva acumulativa) – una curva de frecuencias acumuladas (frecuencias). Para serie discreta El acumulado representa una línea discontinua que conecta los puntos o , . Para serie de intervalos el acumulado comienza desde un punto cuya abscisa es igual al inicio del primer intervalo, y la ordenada es igual a la frecuencia acumulada (frecuencia) igual a cero. Otros puntos de esta línea discontinua corresponden a los extremos de los intervalos.

Serie de variaciones: concepto y tipos. Clasificación y características de la categoría "Serie Variación" 2017, 2018.

  • - Series de distribución variacional

    Distribución del volumen de negocios del comercio minorista de la Federación de Rusia en 1995 por tipo de propiedad, millones de rublos. Tipos de series de distribución Tema VIII. Series de distribución Como resultado del procesamiento y sistematización de datos estadísticos primarios, obtenemos... .


  • - Serie de variación

    La transformación más sencilla de datos estadísticos es ordenarlos por tamaño. Una muestra de volumen de la población general, ordenada en orden no decreciente de elementos, es decir , se llama serie de variación: . En el caso de que el volumen de observaciones... .


  • - Tarea 2. Serie de variación de intervalos

    1. Con base en la muestra dada correspondiente a la variante de la tarea, construya una serie de variación de intervalo; cree un histograma y acumule (use dos métodos: insertar un gráfico de Excel y el modo "Histograma" del paquete "Análisis de datos"). 2. Analice el histograma resultante. ... .


  • - Compilar una serie de variaciones de la variabilidad de un rasgo en semillas u hojas de frijol de una planta de la misma edad. Identificar patrones de variabilidad de rasgos.

    Una población es una unidad estructural de una especie. Tamaño de la poblacion. Razones de las fluctuaciones demográficas. Relaciones entre individuos en poblaciones y entre diferentes poblaciones de la misma y diferentes especies. 1. Una característica importante de la especie es su asentamiento en grupos, poblaciones en...

  • (definición de una serie de variación; componentes de una serie de variación; tres formas de una serie de variación; viabilidad de construir una serie de intervalo; conclusiones que se pueden extraer de la serie construida)

    Una serie de variación es la secuencia de todos los elementos de la muestra dispuestos en orden no decreciente. Se repiten elementos idénticos

    Las series variacionales son series construidas sobre una base cuantitativa.

    Las series de distribución variacional constan de dos elementos: opciones y frecuencias:

    Las variantes son valores numéricos de una característica cuantitativa en una serie de distribución variacional. Pueden ser positivos y negativos, absolutos y relativos. Entonces, al agrupar empresas según los resultados de la actividad económica, las opciones positivas son ganancias y las negativas son pérdidas.

    Las frecuencias son el número de variantes individuales o de cada grupo de una serie de variaciones, es decir Estos son números que muestran con qué frecuencia ocurren ciertas opciones en una serie de distribución. La suma de todas las frecuencias se llama volumen de la población y está determinada por el número de elementos de toda la población.

    Las frecuencias son frecuencias expresadas como valores relativos (fracciones de unidades o porcentajes). La suma de las frecuencias es igual a uno o 100%. Reemplazar frecuencias con frecuencias permite comparar series de variación con diferentes números de observaciones.

    Hay tres formas de series de variación: series clasificadas, series discretas y series de intervalos.

    Una serie clasificada es la distribución de unidades individuales de una población en orden ascendente o descendente de la característica que se está estudiando. La clasificación le permite dividir fácilmente datos cuantitativos en grupos, detectar inmediatamente los valores más pequeños y más grandes de una característica y resaltar los valores que se repiten con mayor frecuencia.

    Otras formas de series de variación son tablas de grupos compiladas según la naturaleza de la variación de los valores de la característica en estudio. Según la naturaleza de la variación, se distinguen características discretas (discontinuas) y continuas.

    Una serie discreta es una serie variacional, cuya construcción se basa en características con cambio discontinuo (características discretas). Estos últimos incluyen la categoría arancelaria, el número de hijos de la familia, el número de empleados de la empresa, etc. Estas características sólo pueden tomar un número finito de valores específicos.

    Una serie de variación discreta representa una tabla que consta de dos columnas. La primera columna indica el valor específico del atributo y la segunda columna indica el número de unidades en la población con un valor específico del atributo.

    Si una característica tiene un cambio continuo (cantidad de ingresos, duración del servicio, costo de los activos fijos de una empresa, etc., que puede tomar cualquier valor dentro de ciertos límites), entonces para esta característica es necesario construir una serie de variación de intervalo.



    La tabla de grupos aquí también tiene dos columnas. El primero indica el valor del atributo en el intervalo “de - a” (opciones), el segundo indica el número de unidades incluidas en el intervalo (frecuencia).

    Frecuencia (frecuencia de repetición): el número de repeticiones de una variante particular de los valores de los atributos se denota por fi, y la suma de frecuencias igual al volumen de la población en estudio se denota

    Donde k es el número de opciones para los valores de los atributos.

    Muy a menudo, la tabla se complementa con una columna en la que se calculan las frecuencias acumuladas S, que muestran cuántas unidades de la población tienen un valor característico no mayor que este valor.

    Una serie de distribución variacional discreta es una serie en la que los grupos se componen de acuerdo con una característica que cambia discretamente y toma solo valores enteros.

    Una serie de distribución variacional de intervalo es una serie en la que la característica de agrupación que forma la base de la agrupación puede tomar cualquier valor, incluidos los fraccionarios, en un intervalo determinado.

    Una serie de variación de intervalo es un conjunto ordenado de intervalos de variación de los valores de una variable aleatoria con las correspondientes frecuencias o frecuencias de ocurrencia del valor en cada uno de ellos.

    Es aconsejable construir una serie de distribución de intervalos, en primer lugar, con una variación continua de una característica, y también si una variación discreta se manifiesta en un rango amplio, es decir, el número de variantes de una característica discreta es bastante grande.

    De esta serie ya se pueden sacar varias conclusiones. Por ejemplo, el elemento medio de una serie de variación (mediana) puede ser una estimación del resultado de medición más probable. El primer y último elemento de la serie de variación (es decir, el elemento mínimo y máximo de la muestra) muestran la dispersión de los elementos de la muestra. En ocasiones, si el primer o último elemento es muy diferente del resto de la muestra, se excluyen de los resultados de la medición, considerando que estos valores se obtuvieron como resultado de algún tipo de falla grave, por ejemplo, tecnológica.

    Como resultado del dominio de este capítulo, el estudiante deberá: saber

    • indicadores de variación y su relación;
    • leyes básicas de distribución de características;
    • la esencia de los criterios de consentimiento; ser capaz de
    • calcular índices de variación y criterios de bondad de ajuste;
    • determinar las características de distribución;
    • evaluar las características numéricas básicas de las series de distribución estadística;

    propio

    • métodos de análisis estadístico de series de distribución;
    • conceptos básicos del análisis de varianza;
    • Técnicas para verificar que las series de distribución estadística cumplan con las leyes básicas de distribución.

    Indicadores de variación

    En el estudio estadístico de las características de diversas poblaciones estadísticas, es de gran interés estudiar la variación de la característica de las unidades estadísticas individuales de la población, así como la naturaleza de la distribución de las unidades según esta característica. Variación - Estas son diferencias en los valores individuales de una característica entre unidades de la población que se estudia. El estudio de la variación es de gran importancia práctica. Por el grado de variación, se pueden juzgar los límites de variación de una característica, la homogeneidad de la población para una característica determinada, la tipicidad del promedio y la relación de factores que determinan la variación. Los indicadores de variación se utilizan para caracterizar y organizar poblaciones estadísticas.

    Los resultados del resumen y agrupación de materiales de observación estadística, presentados en forma de series de distribución estadística, representan una distribución ordenada de unidades de la población en estudio en grupos según criterios de agrupación (variantes). Si se toma una característica cualitativa como base para la agrupación, entonces dicha serie de distribución se llama atributivo(distribución por profesión, género, color, etc.). Si una serie de distribución se construye sobre una base cuantitativa, entonces dicha serie se llama variacional(distribución por altura, peso, talla salarios etc.). Construir una serie de variación significa organizar la distribución cuantitativa de unidades de población por valores característicos, contar el número de unidades de población con estos valores (frecuencia) y organizar los resultados en una tabla.

    En lugar de la frecuencia de una variante, es posible utilizar su relación con el volumen total de observaciones, lo que se denomina frecuencia (frecuencia relativa).

    Hay dos tipos de series de variación: discretas y de intervalo. Serie discreta- Se trata de una serie de variación, cuya construcción se basa en características con cambio discontinuo (características discretas). Estos últimos incluyen el número de empleados de la empresa, la categoría arancelaria, el número de hijos de la familia, etc. Una serie de variación discreta representa una tabla que consta de dos columnas. La primera columna indica el valor específico del atributo y la segunda columna indica el número de unidades en la población con un valor específico del atributo. Si una característica cambia continuamente (cantidad de ingresos, antigüedad en el servicio, costo de los activos fijos de la empresa, etc., que dentro de ciertos límites puede tomar cualquier valor), entonces para esta característica es posible construir serie de variación de intervalo. Al construir una serie de variación de intervalo, la tabla también tiene dos columnas. El primero indica el valor del atributo en el intervalo “de - a” (opciones), el segundo indica el número de unidades incluidas en el intervalo (frecuencia). Frecuencia (frecuencia de repetición): el número de repeticiones de una variante particular de los valores de los atributos. Los intervalos pueden ser cerrados o abiertos. Los intervalos cerrados están limitados en ambos lados, es decir tener un límite inferior (“desde”) y uno superior (“hacia”). Los intervalos abiertos tienen un límite: superior o inferior. Si las opciones están dispuestas en orden ascendente o descendente, entonces las filas se llaman clasificado.

    Para las series de variación, existen dos tipos de opciones de respuesta de frecuencia: frecuencia acumulada y frecuencia acumulada. La frecuencia acumulada muestra cuántas observaciones el valor de la característica tomó valores menores que uno determinado. La frecuencia acumulada se determina sumando los valores de frecuencia de una característica para un grupo determinado con todas las frecuencias de los grupos anteriores. La frecuencia acumulada caracteriza la proporción de unidades de observación cuyos valores de atributos no exceden el límite superior de un grupo dado. Así, la frecuencia acumulada muestra la proporción de opciones en la totalidad que tienen un valor no mayor al dado. Frecuencia, frecuencia, densidades absolutas y relativas, frecuencia acumulada y frecuencia son características de la magnitud de la variante.

    Las variaciones en las características de las unidades estadísticas de la población, así como la naturaleza de la distribución, se estudian utilizando indicadores y características de la serie de variación, que incluyen el nivel promedio de la serie, la desviación lineal promedio, la desviación estándar, la dispersión. , coeficientes de oscilación, variación, asimetría, curtosis, etc.

    Se utilizan valores medios para caracterizar el centro de distribución. El promedio es una característica estadística generalizadora en la que se cuantifica el nivel típico de una característica que poseen los miembros de la población en estudio. Sin embargo, puede haber casos de coincidencia de medias aritméticas con diferentes patrones de distribución, por lo tanto, como características estadísticas de las series de variación, se calculan las llamadas medias estructurales: moda, mediana y cuantiles, que dividen la serie de distribución en iguales. partes (cuartiles, deciles, percentiles, etc.).

    Moda - Este es el valor de una característica que ocurre en la serie de distribución con más frecuencia que sus otros valores. Para series discretas, esta es la opción con mayor frecuencia. En las series de variación de intervalos, para determinar la moda es necesario determinar primero el intervalo en el que se ubica, el llamado intervalo modal. En una serie de variación con intervalos iguales, el intervalo modal está determinado por la frecuencia más alta, en series con intervalos desiguales, pero por la densidad de distribución más alta. Luego, la fórmula se utiliza para determinar la moda en filas a intervalos iguales.

    donde Mo es el valor de la moda; xMo - límite inferior del intervalo modal; h- ancho del intervalo modal; / Mo - frecuencia del intervalo modal; / Mo j es la frecuencia del intervalo premodal; / Mo+1 es la frecuencia del intervalo posmodal, y para una serie con intervalos desiguales en esta fórmula de cálculo, en lugar de las frecuencias / Mo, / Mo, / Mo, se deben utilizar densidades de distribución. Mente 0 _| , Mente 0> OMU+"

    Si hay una moda única, entonces la distribución de probabilidad de la variable aleatoria se llama unimodal; si hay más de un modo, se llama multimodal (polimodal, multimodal), en el caso de dos modos, bimodal. Como regla general, la multimodalidad indica que la distribución en estudio no obedece a la ley. distribución normal. Las poblaciones homogéneas, por regla general, se caracterizan por distribuciones de un solo vértice. El multivértice también indica la heterogeneidad de la población en estudio. La aparición de dos o más vértices hace necesario reagrupar los datos para identificar grupos más homogéneos.

    En una serie de variación de intervalo, la moda se puede determinar gráficamente mediante un histograma. Para hacer esto, dibuje dos líneas que se crucen desde los puntos superiores de la columna más alta del histograma hasta los puntos superiores de dos columnas adyacentes. Luego, desde el punto de su intersección, se baja una perpendicular al eje de abscisas. El valor de la característica en el eje x correspondiente a la perpendicular es la moda. En muchos casos, al caracterizar una población como un indicador generalizado, se da preferencia a la moda más que a la media aritmética.

    Mediana - Este es el valor central del atributo; lo posee el miembro central de la serie clasificada de la distribución. En series discretas, para encontrar el valor de la mediana, primero se determina su número de serie. Para hacer esto, si el número de unidades es impar, se suma uno a la suma de todas las frecuencias y el número se divide por dos. Si hay un número par de unidades seguidas, habrá dos unidades medianas, por lo que en este caso la mediana se define como el promedio de los valores de las dos unidades medianas. Así, la mediana en una serie de variación discreta es el valor que divide la serie en dos partes que contienen el mismo número de opciones.

    En las series de intervalos, después de determinar el número de serie de la mediana, el intervalo medio se encuentra usando las frecuencias acumuladas (frecuencias), y luego usando la fórmula para calcular la mediana, se determina el valor de la mediana misma:

    donde Me es el valor mediano; xyo- límite inferior del intervalo mediano; h- ancho del intervalo mediano; - la suma de las frecuencias de la serie de distribución; /D - frecuencia acumulada del intervalo premediano; / Yo - frecuencia del intervalo mediano.

    La mediana se puede encontrar gráficamente usando un acumulado. Para ello, en la escala de frecuencias acumuladas (frecuencias) del acumulado, desde el punto correspondiente al número ordinal de la mediana, se traza una línea recta paralela al eje de abscisas hasta que se cruza con el acumulado. A continuación, desde el punto de intersección de la línea indicada con el acumulado, se baja una perpendicular al eje de abscisas. El valor del atributo en el eje x correspondiente a la ordenada dibujada (perpendicular) es la mediana.

    La mediana se caracteriza por las siguientes propiedades.

    • 1. No depende de los valores de los atributos que se encuentran a ambos lados del mismo.
    • 2. Tiene la propiedad de la minimalidad, que radica en el hecho de que la suma de las desviaciones absolutas de los valores de los atributos de la mediana es valor mínimo en comparación con la desviación de los valores de los atributos de cualquier otro valor.
    • 3. Al combinar dos distribuciones con medianas conocidas, es imposible predecir de antemano el valor de la mediana de la nueva distribución.

    Estas propiedades de la mediana se utilizan ampliamente al diseñar la ubicación de puntos de servicios públicos: escuelas, clínicas, gasolineras, bombas de agua, etc. Por ejemplo, si se planea construir una clínica en una determinada cuadra de la ciudad, entonces sería más conveniente ubicarla en un punto de la cuadra que no reduzca a la mitad la longitud de la cuadra, sino el número de residentes.

    La relación entre la moda, la mediana y la media aritmética indica la naturaleza de la distribución de la característica en el agregado y nos permite evaluar la simetría de la distribución. Si x Yo entonces hay una asimetría por el lado derecho de la serie. Con distribución normal X - Yo - Mo.

    Alineación basada en K. Pearson varios tipos Las curvas determinaron que para distribuciones moderadamente asimétricas son válidas las siguientes relaciones aproximadas entre la media aritmética, la mediana y la moda:

    donde Me es el valor mediano; Mo - significado de moda; x aritmo: el valor de la media aritmética.

    Si es necesario estudiar la estructura de la serie de variación con más detalle, calcule valores característicos similares a la mediana. Estos valores característicos dividen todas las unidades de distribución en números iguales y se denominan cuantiles o gradientes. Los cuantiles se dividen en cuartiles, deciles, percentiles, etc.

    Los cuartiles dividen a la población en cuatro partes iguales. El primer cuartil se calcula de forma similar a la mediana utilizando la fórmula para calcular el primer cuartil, habiendo determinado previamente el primer intervalo trimestral:

    donde Qi es el valor del primer cuartil; xq^- límite inferior del rango del primer cuartil; h- anchura del intervalo del primer cuarto; /, - frecuencias de la serie de intervalos;

    Frecuencia acumulada en el intervalo anterior al primer intervalo cuartil; Jq ( - frecuencia del primer intervalo cuartil.

    El primer cuartil muestra que el 25% de las unidades de población son menores que su valor y el 75% son mayores. El segundo cuartil es igual a la mediana, es decir Q 2 = A mí.

    Por analogía, se calcula el tercer cuartil, habiendo encontrado primero el tercer intervalo trimestral:

    ¿Dónde está el límite inferior del rango del tercer cuartil? h- anchura del intervalo del tercer cuartil; /, - frecuencias de la serie de intervalos; /X" - frecuencia acumulada en el intervalo anterior

    GRAMO

    intervalo del tercer cuartil; Jq es la frecuencia del intervalo del tercer cuartil.

    El tercer cuartil muestra que el 75% de las unidades de población son menores que su valor y el 25% son más.

    La diferencia entre el tercer y el primer cuartil es el rango intercuartil:

    donde Aq es el valor del rango intercuartil; Pregunta 3 - valor del tercer cuartil; Q, es el valor del primer cuartil.

    Los deciles dividen a la población en 10 partes iguales. Un decil es un valor de una característica en una serie de distribución que corresponde a décimas del tamaño de la población. Por analogía con los cuartiles, el primer decil muestra que el 10% de las unidades de población son menores que su valor y el 90% son mayores, y el noveno decil revela que el 90% de las unidades de población son menores que su valor y el 10% son mayores. mayor que. La proporción entre el noveno y el primer decil, es decir El coeficiente decil se utiliza ampliamente en el estudio de la diferenciación de ingresos para medir la relación entre los niveles de ingresos del 10% de la población más rica y el 10% de la menos rica. Los percentiles dividen la población clasificada en 100 partes iguales. El cálculo, significado y aplicación de los percentiles son similares a los deciles.

    Los cuartiles, deciles y otras características estructurales se pueden determinar gráficamente por analogía con la mediana utilizando acumulados.

    Para medir el tamaño de la variación, se utilizan los siguientes indicadores: rango de variación, desviación lineal promedio, desviación estándar, dispersión. La magnitud del rango de variación depende enteramente de la aleatoriedad de la distribución de los miembros extremos de la serie. Este indicador es de interés en los casos en los que es importante saber cuál es la amplitud de las fluctuaciones en los valores de una característica:

    Dónde R- el valor del rango de variación; x max - valor máximo del atributo; xtt- valor mínimo del atributo.

    Al calcular el rango de variación, no se tiene en cuenta el valor de la gran mayoría de los miembros de la serie, mientras que la variación está asociada a cada valor del miembro de la serie. Los indicadores que son promedios obtenidos a partir de las desviaciones de los valores individuales de una característica de su valor promedio no tienen este inconveniente: la desviación lineal promedio y la desviación estándar. Existe una relación directa entre las desviaciones individuales del promedio y la variabilidad de un rasgo particular. Cuanto más fuerte sea la fluctuación, mayor será el tamaño absoluto de las desviaciones del promedio.

    La desviación lineal promedio es la media aritmética de los valores absolutos de las desviaciones de las opciones individuales de su valor promedio.

    Desviación lineal promedio para datos no agrupados

    donde /pr es el valor de la desviación lineal promedio; x, - es el valor del atributo; X - PAG - número de unidades de la población.

    Desviación lineal media de las series agrupadas

    donde / vz - el valor de la desviación lineal promedio; x, es el valor del atributo; X - el valor promedio de la característica para la población en estudio; / - el número de unidades de población en un grupo separado.

    En este caso, se ignoran los signos de las desviaciones; de lo contrario, la suma de todas las desviaciones será igual a cero. La desviación lineal promedio, dependiendo de la agrupación de los datos analizados, se calcula mediante varias fórmulas: para datos agrupados y desagrupados. La desviación lineal promedio, debido a su condicionalidad, separada de otros indicadores de variación, se utiliza en la práctica relativamente raramente (en particular, para caracterizar el cumplimiento de las obligaciones contractuales para la uniformidad de la entrega; en el análisis del volumen de negocios comercio Exterior, composición de los trabajadores, ritmo de producción, calidad de los productos, teniendo en cuenta características tecnológicas producción, etcétera).

    La desviación estándar caracteriza cuánto se desvían en promedio los valores individuales de la característica en estudio del valor promedio de la población y se expresa en unidades de medida de la característica en estudio. La desviación estándar, al ser una de las principales medidas de variación, se usa ampliamente para evaluar los límites de variación de una característica en una población homogénea, para determinar los valores de ordenadas de una curva de distribución normal, así como en cálculos relacionados con la organización de la observación de muestras y el establecimiento de la precisión de las características de las muestras. La desviación estándar de datos no agrupados se calcula utilizando el siguiente algoritmo: cada desviación de la media se eleva al cuadrado, se suman todos los cuadrados, después de lo cual la suma de los cuadrados se divide por el número de términos de la serie y se extrae la raíz cuadrada de la cociente:

    donde a Iip es el valor de la desviación estándar; xj- valor de atributo; X- el valor medio de la característica de la población en estudio; PAG - número de unidades de la población.

    Para datos analizados agrupados, la desviación estándar de los datos se calcula utilizando la fórmula ponderada

    Dónde - valor de desviación estándar; xj- valor de atributo; X - el valor promedio de la característica para la población en estudio; fx- el número de unidades de población en un grupo particular.

    La expresión bajo la raíz en ambos casos se llama varianza. Por tanto, la dispersión se calcula como el cuadrado medio de las desviaciones de los valores de los atributos de su valor medio. Para valores de atributos no ponderados (simples), la varianza se determina de la siguiente manera:

    Para valores característicos ponderados

    También existe un método especial simplificado para calcular la varianza: en general

    para valores característicos no ponderados (simples) para valores característicos ponderados
    utilizando el método de base cero

    donde a 2 es el valor de dispersión; x, - es el valor del atributo; X - valor medio de la característica, h- valor del intervalo de grupo, t 1 - peso (A =

    La dispersión tiene su propia expresión en las estadísticas y es uno de los indicadores de variación más importantes. Se mide en unidades correspondientes al cuadrado de las unidades de medida de la característica en estudio.

    La dispersión tiene las siguientes propiedades.

    • 1. La varianza de un valor constante es cero.
    • 2. Reducir todos los valores de una característica por el mismo valor A no cambia el valor de la dispersión. Esto significa que el cuadrado promedio de las desviaciones se puede calcular no a partir de valores dados de una característica, sino a partir de sus desviaciones de un número constante.
    • 3. Reducir cualquier valor característico en k veces reduce la dispersión en k 2 veces y la desviación estándar está en k veces, es decir Todos los valores del atributo se pueden dividir por algún número constante (digamos, por el valor del intervalo de la serie), se puede calcular la desviación estándar y luego multiplicar por un número constante.
    • 4. Si calculamos el cuadrado promedio de las desviaciones de cualquier valor Y difiere en un grado u otro de la media aritmética, entonces siempre será mayor que el cuadrado promedio de las desviaciones calculadas a partir de la media aritmética. El cuadrado promedio de las desviaciones será mayor en una cantidad muy determinada: en el cuadrado de la diferencia entre el promedio y este valor tomado convencionalmente.

    La variación de una característica alternativa consiste en la presencia o ausencia del inmueble estudiado en unidades de la población. Cuantitativamente, la variación de un atributo alternativo se expresa mediante dos valores: la presencia de una unidad del bien estudiado se denota con uno (1), y su ausencia se denota con cero (0). La proporción de unidades que tienen la propiedad en estudio se denota por P, y la proporción de unidades que no tienen esta propiedad se denota por GRAMO. Por lo tanto, la varianza de un atributo alternativo es igual al producto de la proporción de unidades que poseen esta propiedad (P) por la proporción de unidades que no poseen esta propiedad. (GRAMO). La mayor variación de la población se logra en los casos en que parte de la población, que constituye el 50% del volumen total de la población, tiene una característica, y la otra parte de la población, también igual al 50%, no tiene esta característica. , y la dispersión alcanza valor máximo, igual a 0,25, es decir P = 0,5, GRAMO= 1 - P = 1 - 0,5 = 0,5 y o 2 = 0,5 0,5 = 0,25. El límite inferior de este indicador es cero, lo que corresponde a una situación en la que no hay variación en el agregado. Uso práctico La varianza de una característica alternativa consiste en construir intervalos de confianza al realizar una observación muestral.

    Cuanto menores sean la varianza y la desviación estándar, más homogénea será la población y más típico será el promedio. En la práctica de la estadística, a menudo existe la necesidad de comparar variaciones de diversas características. Por ejemplo, es interesante comparar las variaciones en la edad de los trabajadores y sus calificaciones, duración del servicio y salarios, costes y beneficios, duración del servicio y productividad laboral, etc. Para tales comparaciones, los indicadores de variabilidad absoluta de las características no son adecuados: es imposible comparar la variabilidad de la experiencia laboral, expresada en años, con la variación de los salarios, expresada en rublos. Para realizar tales comparaciones, así como comparaciones de la variabilidad de una misma característica en varias poblaciones con diferentes promedios aritméticos, se utilizan indicadores de variación: el coeficiente de oscilación, el coeficiente de variación lineal y el coeficiente de variación, que muestran la medida. de fluctuaciones de valores extremos en torno a la media.

    Coeficiente de oscilación:

    Dónde V R - valor del coeficiente de oscilación; R- valor del rango de variación; X -

    Coeficiente de variación lineal".

    Dónde Vj- el valor del coeficiente de variación lineal; I - el valor de la desviación lineal promedio; X - el valor promedio de la característica para la población en estudio.

    El coeficiente de variación.:

    Dónde va- coeficiente de valor de variación; a es el valor de la desviación estándar; X - el valor promedio de la característica para la población en estudio.

    El coeficiente de oscilación es la relación porcentual del rango de variación con respecto al valor promedio de la característica que se está estudiando, y el coeficiente de variación lineal es la relación entre la desviación lineal promedio y el valor promedio de la característica que se está estudiando, expresada como porcentaje. El coeficiente de variación es el porcentaje de la desviación estándar con respecto al valor promedio de la característica que se está estudiando. Como valor relativo, expresado como porcentaje, el coeficiente de variación se utiliza para comparar el grado de variación de diversas características. Utilizando el coeficiente de variación, se evalúa la homogeneidad de una población estadística. Si el coeficiente de variación es inferior al 33%, entonces la población objeto de estudio es homogénea y la variación es débil. Si el coeficiente de variación es superior al 33%, entonces la población en estudio es heterogénea, la variación es fuerte y el valor promedio es atípico y no puede usarse como indicador general de esta población. Además, los coeficientes de variación se utilizan para comparar la variabilidad de un rasgo en diferentes poblaciones. Por ejemplo, para evaluar la variación en la duración del servicio de los trabajadores en dos empresas. Cómo mas valor coeficiente, más significativa será la variación de la característica.

    A partir de los cuartiles calculados, también es posible calcular el indicador relativo de variación trimestral mediante la fórmula

    donde Q 2 Y

    El rango intercuartil está determinado por la fórmula

    Se utiliza la desviación cuartil en lugar del rango de variación para evitar las desventajas asociadas con el uso de valores extremos:

    Para series de variación de intervalos desiguales, también se calcula la densidad de distribución. Se define como el cociente de la frecuencia o frecuencia correspondiente dividido por el valor del intervalo. En series de intervalos desiguales, se utilizan densidades de distribución absolutas y relativas. La densidad de distribución absoluta es la frecuencia por unidad de longitud del intervalo. Densidad de distribución relativa: frecuencia por unidad de longitud del intervalo.

    Todo lo anterior es cierto para series de distribución cuya ley de distribución está bien descrita por la ley de distribución normal o se aproxima a ella.