El nivel de significación estadística (p). Términos y conceptos básicos de estadística médica.

¿Qué crees que hace que tu "alma gemela" sea especial, significativa? ¿Está relacionado con su personalidad o con tus sentimientos que sientes por esta persona? ¿O tal vez con el simple hecho de que la hipótesis sobre la aleatoriedad de su simpatía, como muestran los estudios, tiene una probabilidad de menos del 5%? Si consideramos que la última declaración es confiable, entonces los sitios de citas exitosos no existirían en principio:

Cuando realiza pruebas divididas o cualquier otro análisis de su sitio, un malentendido de la "importancia estadística" puede conducir a una interpretación incorrecta de los resultados y, por lo tanto, a acciones erróneas en el proceso de optimización de conversión. Esto es cierto para miles de otras pruebas estadísticas realizadas diariamente en cualquier industria existente.

Para comprender qué es "significación estadística", debe sumergirse en la historia de este término, aprender su verdadero significado y comprender cómo esta "nueva" vieja comprensión lo ayudará a interpretar correctamente los resultados de su investigación.

Un poco de historia

Aunque la humanidad ha estado usando estadísticas para resolver varios problemas durante muchos siglos, una comprensión moderna de la significación estadística, la prueba de hipótesis, la aleatorización e incluso el diseño de experimentos (Diseño de experimentos (DOE) comenzó a tomar forma solo a principios del siglo XX y está indisolublemente vinculado con el nombre de Sir Ronald Fisher (Sir Ronald Fisher, 1890-1962):

Ronald Fisher era un biólogo evolutivo y estadístico que tenía una pasión particular por estudiar la evolución y la selección natural en el mundo animal y vegetal. A lo largo de su ilustre carrera, ha desarrollado y popularizado muchas herramientas estadísticas útiles que todavía utilizamos.

Fisher usó sus técnicas para explicar procesos biológicos como el dominio, las mutaciones y las anomalías genéticas. Podemos usar las mismas herramientas hoy para optimizar y mejorar el contenido de los recursos web. El hecho de que estas herramientas de análisis se puedan utilizar para trabajar con objetos que en el momento de su creación ni siquiera existían parece bastante sorprendente. Es igualmente sorprendente que antes las personas realizaran cálculos complejos sin calculadoras ni computadoras.

Para describir los resultados de un experimento estadístico con una alta probabilidad de ser cierto, Fisher usó la palabra "significación" (del significado en inglés).

Además, uno de los desarrollos más interesantes de Fisher es la hipótesis del "hijo sexual". Según esta teoría, las mujeres dan preferencia a los hombres que son ininteligibles en las relaciones sexuales (caminar), porque esto permitirá que sus hijos nacidos de estos hombres tengan la misma disposición y den a luz a más de sus descendientes (tenga en cuenta que esto es solo una teoría).

Pero nadie, ni siquiera los científicos brillantes, son inmunes a cometer errores. Los defectos de Fisher molestan a los expertos hasta el día de hoy. Pero recuerde las palabras de Albert Einstein: "El que nunca cometió un error, no creó nada nuevo".

Antes de pasar al siguiente punto, recuerde: la significación estadística es una situación en la que la diferencia en los resultados de la prueba es tan grande que esta diferencia no puede explicarse por la influencia de factores aleatorios.

¿Cuál es tu hipótesis?

Para comprender lo que significa "significación estadística", primero debe comprender qué es "prueba de hipótesis", ya que estos dos términos están estrechamente entrelazados.
Una hipótesis es solo una teoría. Una vez que desarrolle una teoría, deberá establecer un procedimiento para recolectar suficiente evidencia y, de hecho, recolectar esta evidencia. Hay dos tipos de hipótesis.

Manzanas o naranjas, ¿cuál es mejor?

Hipótesis nula

Como regla general, es en este lugar donde muchos experimentan dificultades. Debe tener en cuenta que la hipótesis nula no es algo que deba probarse, ya que, por ejemplo, demuestra que cierto cambio en el sitio conducirá a un aumento de las conversiones, pero viceversa. La hipótesis nula es una teoría que establece que cuando realice cambios en el sitio, no sucederá nada. Y el objetivo del investigador es refutar esta teoría, no probarla.

Si recurrimos a la experiencia de resolver crímenes, donde los investigadores también plantean la hipótesis de quién es el delincuente, la hipótesis nula toma la forma de la llamada presunción de inocencia, un concepto según el cual el acusado se presume inocente hasta que se pruebe su culpabilidad en el tribunal.

Si la hipótesis nula es que los dos objetos son iguales en sus propiedades, y está tratando de demostrar que uno de ellos todavía es mejor (por ejemplo, A es mejor que B), debe abandonar la hipótesis nula a favor de la alternativa. Por ejemplo, está comparando una u otra herramienta para optimizar la conversión. En la hipótesis nula, ambos tienen el mismo efecto en el objetivo (o no tienen ningún efecto). Como alternativa, el efecto de uno de ellos es mejor.

Su hipótesis alternativa puede contener un valor numérico, por ejemplo, B - A\u003e 20%. En este caso, la hipótesis nula y la alternativa pueden tomar la siguiente forma:

Otro nombre para una hipótesis alternativa es hipótesis de investigación, ya que el investigador siempre está interesado en probar esta hipótesis particular.

Significación estadística y el valor de "p"

Volvamos a Ronald Fisher y su concepto de significación estadística.

Ahora que tiene la hipótesis nula y la alternativa, ¿cómo puede probar una y refutar la otra?

Dado que las estadísticas, por su propia naturaleza, implican el estudio de una determinada población (muestra), nunca puede estar 100% seguro de los resultados. Un buen ejemplo: a menudo los resultados de las elecciones están en desacuerdo con los resultados de encuestas preliminares e incluso grupos de salida.

El Dr. Fisher quería crear una línea divisoria que le permitiera saber si su experimento fue exitoso o no. Entonces apareció el índice de confiabilidad. La credibilidad es el nivel que tomamos para decir lo que consideramos "significativo" y lo que no lo es. Si p, el índice de confianza es 0.05 o menos, entonces los resultados son confiables.

No te preocupes, en realidad, todo no es tan confuso como parece.

Distribución de probabilidad gaussiana. En los bordes hay valores menos probables de la variable, en el centro están los valores más probables. El indicador P (área sombreada en verde) es la probabilidad del resultado observado que ocurre al azar.

La distribución de probabilidad normal (distribución gaussiana) es una representación de todos los valores posibles de una determinada variable en el gráfico (en la figura anterior) y sus frecuencias. Si lleva a cabo su investigación correctamente y luego organiza todas las respuestas en el gráfico, obtendrá exactamente esta distribución. De acuerdo con la distribución normal, obtendrá un gran porcentaje de respuestas similares, y las opciones restantes se colocarán en los bordes del gráfico (las llamadas "colas"). Tal distribución de cantidades a menudo se encuentra en la naturaleza, por eso se le llama "normal".

Usando una ecuación basada en la muestra y los resultados de la prueba, puede calcular lo que se llama "estadísticas de prueba", que indicará qué tan desviados están los resultados. También le dirá qué tan cerca está de asegurarse de que la hipótesis nula sea verdadera.

Para mantener la cabeza en alto, use calculadoras en línea para calcular la significancia estadística:

Un ejemplo de tales calculadoras

La letra "p" indica la probabilidad de que la hipótesis nula sea verdadera. Si el número es pequeño, esto indicará la diferencia entre los grupos de prueba, mientras que la hipótesis nula será que son iguales. Gráficamente, se verá para que las estadísticas de su prueba estén más cerca de una de las colas de su distribución en forma de campana.

El Dr. Fisher decidió establecer un umbral para la confiabilidad de los resultados en p ≤ 0.05. Sin embargo, esta declaración es controvertida, ya que conduce a dos dificultades:

1. Primero, el hecho de que haya demostrado el fracaso de la hipótesis nula no significa que haya probado la hipótesis alternativa. Todo este significado solo significa que no puede probar ni A ni B.

2. En segundo lugar, si el indicador p es igual a 0.049, esto significará que la probabilidad de la hipótesis nula será de 4.9%. Esto puede significar que al mismo tiempo los resultados de sus pruebas pueden ser confiables y erróneos.

Puede usar el indicador p, o puede rechazarlo, pero luego deberá calcular en cada caso la probabilidad de implementación de la hipótesis nula y decidir si es lo suficientemente grande como para no realizar los cambios que planificó y probó.

El escenario más común para realizar una prueba estadística hoy es establecer un umbral de significancia p ≤ 0.05 antes de comenzar la prueba en sí. Solo recuerde examinar cuidadosamente el valor p cuando verifique los resultados.

Errores 1 y 2

Ha pasado tanto tiempo que los errores que pueden ocurrir al usar el indicador de significación estadística, incluso obtuvieron sus propios nombres.

Error 1 (errores tipo 1)

Como se mencionó anteriormente, un valor p de 0.05 significa: la probabilidad de que la hipótesis nula sea verdadera es del 5%. Si lo rechaza, cometerá un error en el número 1. Los resultados indican que su nuevo sitio web ha aumentado las tasas de conversión, pero hay un 5% de posibilidades de que esto no sea así.

Error 2 (errores tipo 2)

Este error es lo opuesto al error 1: acepta la hipótesis nula mientras es falsa. Por ejemplo, los resultados de la prueba le indican que los cambios realizados en el sitio no aportaron ninguna mejora, mientras que hubo cambios. Como resultado: pierde la oportunidad de mejorar su rendimiento.

Este error es común en las pruebas con un tamaño de muestra insuficiente, así que recuerde: cuanto más grande es la muestra, más confiable es el resultado.

Conclusión

Quizás ni un solo término entre los investigadores sea tan popular como la significación estadística. Cuando los resultados de las pruebas no se reconocen como estadísticamente significativos, las consecuencias son muy diferentes: desde el aumento en la tasa de conversión hasta el colapso de la empresa.

Y dado que los especialistas en marketing usan este término para optimizar sus recursos, debe saber lo que realmente significa. Las condiciones de la prueba pueden variar, pero el tamaño de la muestra y los criterios de éxito siempre son importantes. Recuerda esto.

Las principales características de cualquier dependencia entre variables.

Se pueden observar dos propiedades más simples de la dependencia entre las variables: (a) la magnitud de la dependencia y (b) la confiabilidad de la dependencia.

- Valor . La dependencia es más fácil de entender y medir que la fiabilidad. Por ejemplo, si cualquier hombre en la muestra tuvo un recuento de glóbulos blancos (CMI) más alto que cualquier mujer, entonces puede decir que la relación entre las dos variables (Género y CMI) es muy alta. En otras palabras, podría predecir los valores de una variable a partir de los valores de otra.

- Fiabilidad ("verdad"). La confiabilidad de la interdependencia es un concepto menos obvio que la magnitud de la dependencia, pero es extremadamente importante. La confiabilidad de la dependencia está directamente relacionada con la representatividad de una muestra particular, sobre la base de la cual se extraen conclusiones. En otras palabras, la fiabilidad indica la probabilidad de que la dependencia se vuelva a detectar (en otras palabras, se confirme) en los datos de otra muestra extraída de la misma población.

Debe recordarse que el objetivo final es casi nunca estudiar esta muestra particular de valores; la muestra es de interés solo en la medida en que proporciona información sobre toda la población. Si el estudio satisface algunos criterios especiales, la fiabilidad de las dependencias encontradas entre las variables de la muestra se puede cuantificar y presentar utilizando una medida estadística estándar.

La dependencia y la fiabilidad representan dos características diferentes de dependencias entre variables. Sin embargo, no se puede decir que son completamente independientes. Cuanto mayor sea la magnitud de la dependencia (relación) entre las variables en la muestra de volumen normal, más confiable es (consulte la siguiente sección).

La significancia estadística del resultado (nivel p) es una medida estimada de confianza en su "verdad" (en el sentido de "representatividad de la muestra"). Más técnicamente hablando, el nivel p es un indicador que está disminuyendo la dependencia de la confiabilidad del resultado. Un nivel p más alto corresponde a un nivel más bajo de confianza en la dependencia entre las variables encontradas en la muestra. A saber, el nivel p representa la probabilidad de un error asociado con la distribución del resultado observado a toda la población.

Por ejemplo, nivel p \u003d 0.05 (es decir, 1/20) muestra que hay un 5% de probabilidad de que la relación entre las variables encontradas en la muestra sea solo una característica aleatoria de esta muestra. En muchos estudios, el nivel p 0.05 se considera como el "límite aceptable" del nivel de error.

No hay forma de evitar la arbitrariedad al decidir qué nivel de importancia debería considerarse realmente "significativo". La elección de un cierto nivel de significación, por encima del cual los resultados se rechazan como falsos, es bastante arbitraria.



En la práctica, la decisión final generalmente depende de si el resultado fue predicho a priori (es decir, antes del experimento) o a posteriori detectado como resultado de muchos análisis y comparaciones hechas con muchos datos, así como la tradición en este campo de investigación.

Por lo general, en muchas áreas, un resultado de p .05 es un margen aceptable de significación estadística, pero tenga en cuenta que este nivel aún incluye una probabilidad de error bastante alta (5%).

Los resultados significativos en p .01 generalmente se consideran estadísticamente significativos, y los resultados en p .005 o p. 001 como altamente significativo. Sin embargo, debe entenderse que esta clasificación de niveles de significación es bastante arbitraria y es solo un acuerdo informal, adoptado sobre la base de la experiencia práctica. en un campo de estudio particular.

Está claro que cuanto mayor sea el número de análisis que se realizará con la totalidad de los datos recopilados, mayor será el número de resultados significativos (en el nivel seleccionado) que se encontrarán puramente por accidente.

Algunos métodos estadísticos, que incluyen muchas comparaciones y, por lo tanto, tienen una posibilidad significativa de repetir dichos errores, hacen un ajuste especial o ajuste para el número total de comparaciones. Sin embargo, muchos métodos estadísticos (especialmente métodos simples de análisis exploratorio de datos) no ofrecen ninguna forma de resolver este problema.

Si la conexión entre las variables es débil "objetivamente", entonces no hay otra forma de probar tal relación que estudiar una muestra grande. Incluso si la muestra es completamente representativa, el efecto no será estadísticamente significativo si la muestra es pequeña. Del mismo modo, si la dependencia es "objetivamente" muy fuerte, se puede detectar con un alto grado de significación incluso en una muestra muy pequeña.

Cuanto más débil es la relación entre las variables, mayor es la muestra requerida para detectarla significativamente.

Diseñado por muchos diferentes medidas de interconexión entre variables La elección de una medida específica en un estudio en particular depende del número de variables, las escalas de medición utilizadas, la naturaleza de las dependencias, etc.

Sin embargo, la mayoría de estas medidas están sujetas a un principio general: intentan evaluar la dependencia observada comparándola con la "dependencia máxima concebible" entre las variables en cuestión. Técnicamente hablando, la forma habitual de hacer tales estimaciones es observar cómo varían los valores de las variables y luego calcular cuánto de la variación total disponible puede explicarse por la presencia de una variación "común" ("conjunta") de dos (o más) variables.

La importancia depende principalmente del tamaño de la muestra. Como ya se explicó, en muestras muy grandes, incluso las relaciones muy débiles entre variables serán significativas, mientras que en muestras pequeñas, incluso las relaciones muy fuertes no son confiables.

Por lo tanto, para determinar el nivel de significación estadística, necesitamos una función que represente la relación entre la "magnitud" y la "significación" de la relación entre las variables para cada tamaño de muestra.

Tal función indicaría exactamente "cuán probable es obtener una dependencia de una cantidad dada (o más) en una muestra de un volumen dado, suponiendo que no exista tal dependencia en la población". En otras palabras, esta función le daría un nivel de importancia.
(nivel p) y, por lo tanto, la probabilidad de rechazar erróneamente el supuesto de que esta dependencia no está en la población.

Esta hipótesis "alternativa" (que no hay dependencia en una población) generalmente se llama hipótesis nula.

Sería ideal si la función que calcula la probabilidad de error fuera lineal y tuviera solo diferentes pendientes para diferentes tamaños de muestra. Desafortunadamente, esta función es mucho más compleja y no siempre es exactamente la misma. Sin embargo, en la mayoría de los casos se conoce su forma y puede usarse para determinar los niveles de significación en el estudio de muestras de un tamaño determinado. La mayoría de estas funciones están asociadas con una clase de distribuciones llamada normal .

El nivel de significación en las estadísticas es un indicador importante que refleja el grado de confianza en la precisión y la verdad de los datos recibidos (pronosticados). El concepto es ampliamente utilizado en varios campos: desde la realización de investigaciones sociológicas, hasta la prueba estadística de hipótesis científicas.

Definición

El nivel de significación estadística (o resultado estadísticamente significativo) muestra cuál es la probabilidad de una ocurrencia accidental de los indicadores estudiados. La significación estadística general del fenómeno se expresa mediante el coeficiente valor p (nivel p). En cualquier experimento u observación, es probable que los datos obtenidos se deban a errores de muestreo. Esto es especialmente cierto para la sociología.

Es decir, una estadística es estadísticamente significativa cuya probabilidad de ocurrencia accidental es extremadamente pequeña o tiende a extremos. Extremo en este contexto se considera el grado de desviación de las estadísticas de la hipótesis nula (una hipótesis que se verifica para verificar su coherencia con los datos de muestra obtenidos). En la práctica científica, el nivel de significación se elige antes de la recopilación de datos y, por regla general, su coeficiente es 0.05 (5%). Para sistemas donde los valores precisos son extremadamente importantes, este indicador puede ser 0.01 (1%) o menos.

Antecedentes

El concepto de nivel de significancia fue introducido por el estadístico y genetista británico Ronald Fisher en 1925 cuando desarrolló una metodología para probar hipótesis estadísticas. Al analizar un proceso, hay una cierta probabilidad de ciertos fenómenos. Surgen dificultades cuando se trabaja con probabilidades de porcentaje pequeñas (o no obvias) que se enmarcan en el concepto de "error de medición".

Al trabajar con estadísticas que no son lo suficientemente específicas para probar, los científicos se enfrentaron con el problema de la hipótesis nula, que "interfiere" con pequeñas cantidades. Fisher propuso que dichos sistemas determinen la probabilidad de eventos al 5% (0.05) como una porción selectiva conveniente que permite rechazar la hipótesis nula en los cálculos.

La introducción de un coeficiente fijo

En 1933, los científicos Jerzy Neumann y Egon Pearson en sus trabajos recomendaron por adelantado (antes de la recopilación de datos) establecer un cierto nivel de importancia. Los ejemplos del uso de estas reglas son claramente visibles durante la elección. Supongamos que hay dos candidatos, uno de los cuales es muy popular y el segundo es poco conocido. Obviamente, el primer candidato gana las elecciones, y las posibilidades del segundo tienden a cero. Se esfuerzan, pero no son iguales: siempre existe la posibilidad de fuerza mayor, información sensacional, decisiones inesperadas que pueden cambiar los resultados electorales predichos.

Neumann y Pearson acordaron que el nivel de significancia propuesto de Fisher de 0.05 (indicado por el símbolo α) es lo más conveniente. Sin embargo, el propio Fisher en 1956 se opuso a la fijación de este valor. Él creía que el nivel de α debería establecerse de acuerdo con circunstancias específicas. Por ejemplo, en física de partículas, es 0.01.

Valor p

El término valor p se utilizó por primera vez en el trabajo de Brownley en 1960. El nivel P (valor p) es un indicador que está inversamente relacionado con la verdad de los resultados. El valor p del coeficiente más alto corresponde al nivel más bajo de confianza en la muestra de la dependencia entre las variables.

Este valor refleja la probabilidad de errores asociados con la interpretación de los resultados. Suponga que p-level \u003d 0.05 (1/20). Muestra la probabilidad del cinco por ciento de que la relación entre las variables encontradas en la muestra es solo una característica aleatoria de la muestra. Es decir, si esta dependencia está ausente, con repetidos experimentos, en promedio, en cada vigésimo estudio, uno puede esperar la misma o mayor dependencia entre las variables. A menudo, el nivel p se considera como el "margen aceptable" del nivel de error.

Por cierto, el valor p puede no reflejar la dependencia real entre las variables, sino que solo muestra un cierto valor promedio dentro de los supuestos. En particular, el análisis final de los datos también dependerá de los valores seleccionados de este coeficiente. Con un nivel de p \u003d 0.05, habrá algunos resultados, y con un coeficiente de 0.01, otros.

Prueba de hipótesis estadísticas

El nivel de significación estadística es especialmente importante cuando se prueban hipótesis. Por ejemplo, cuando se calcula una prueba de dos lados, el área de rechazo se divide por igual en ambos extremos de la distribución de la muestra (en relación con la coordenada cero) y se calcula la verdad de los datos.

Supongamos que, al monitorear un determinado proceso (fenómeno), resulta que la nueva información estadística indica pequeños cambios en relación con los valores anteriores. Además, las discrepancias en los resultados son pequeñas, no obvias, pero importantes para el estudio. El dilema surge ante el especialista: ¿realmente se están produciendo cambios o son estos errores de muestreo (mediciones inexactas)?

En este caso, la hipótesis nula se utiliza o se rechaza (todo se atribuye al error o el cambio en el sistema se reconoce como un hecho consumado). El proceso de resolución del problema se basa en la relación de significancia estadística total (valor p) y nivel de significancia (α). Si nivel p< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Valores utilizados

El nivel de significación depende del material que se analiza. En la práctica, se utilizan los siguientes valores fijos:

  • α \u003d 0.1 (o 10%);
  • α \u003d 0,05 (o 5%);
  • α \u003d 0.01 (o 1%);
  • α \u003d 0.001 (o 0.1%).

Cuanto más precisos sean los cálculos, menor será el coeficiente α utilizado. Naturalmente, los pronósticos estadísticos en física, química, farmacéutica y genética requieren una mayor precisión que en ciencias políticas, sociología.

Umbrales de relevancia en áreas específicas.

En áreas de alta precisión, como la física de partículas y las actividades de fabricación, la significación estadística a menudo se expresa como la relación de la desviación estándar (denotada por el coeficiente sigma - σ) en relación con la distribución de probabilidad normal (distribución gaussiana). σ es un indicador estadístico que determina la dispersión de valores de un determinado valor en relación con las expectativas matemáticas. Se usa para trazar la probabilidad de eventos.

Dependiendo del campo de conocimiento, el coeficiente σ varía mucho. Por ejemplo, al predecir la existencia del bosón de Higgs, el parámetro σ es cinco (σ \u003d 5), que corresponde al valor p \u003d 1 / 3.5 millones. En los estudios de genomas, el nivel de significancia puede ser 5 × 10 -8, lo cual no es raro para esto zona.

Eficiencia

Debe tenerse en cuenta que los coeficientes α y valor p no son características precisas. Cualquiera que sea el nivel de significación en las estadísticas del fenómeno estudiado, no es una base incondicional para aceptar la hipótesis. Por ejemplo, cuanto menor es el valor de α, mayor es la posibilidad de que la hipótesis establecida sea significativa. Sin embargo, existe un riesgo de error, lo que reduce el poder estadístico (importancia) del estudio.

Los investigadores que se centran únicamente en resultados estadísticamente significativos pueden llegar a conclusiones erróneas. Al mismo tiempo, es difícil verificar dos veces su trabajo, ya que ellos aplican supuestos (que, de hecho, son valores α y p). Por lo tanto, siempre se recomienda, junto con el cálculo de la significación estadística, determinar otro indicador: la magnitud del efecto estadístico. La magnitud de un efecto es una medida cuantitativa de la fuerza de un efecto.

La confiabilidad estadística es esencial en la práctica de diseño de la FCC. Anteriormente se observó que se pueden seleccionar muchas muestras de la misma población general:

Si se seleccionan correctamente, sus indicadores promedio e indicadores de la población general difieren ligeramente entre sí en la magnitud del error de representatividad, teniendo en cuenta la confiabilidad aceptada;

Si se seleccionan de diferentes generalidades, la diferencia entre ellos es significativa. En estadística, la comparación de muestras se considera ampliamente;

Si difieren insignificantemente, sin principios, insignificantemente, es decir, de hecho pertenecen a la misma población general, la diferencia entre ellos se llama estadísticamente poco confiable.

Estadísticamente significante la diferencia en las muestras se llama muestra, que difiere significativamente y fundamentalmente, es decir, pertenece a diferentes poblaciones generales.

En la FCC, evaluar la significación estadística de las diferencias muestrales significa resolver muchos problemas prácticos. Por ejemplo, la introducción de nuevos métodos de enseñanza, programas, series de ejercicios, pruebas y ejercicios de control está asociada con su verificación experimental, lo que debería mostrar que el grupo de prueba es fundamentalmente diferente del control. Por lo tanto, se utilizan métodos estadísticos especiales, llamados criterios de confiabilidad estadística, que permiten detectar la presencia o ausencia de una diferencia estadísticamente significativa entre las muestras.

Todos los criterios se dividen en dos grupos: paramétricos y no paramétricos. Los criterios paramétricos requieren la presencia de una ley de distribución normal, es decir. Me refiero a la definición obligatoria de los principales indicadores de la ley normal: el valor medio aritmético y la desviación estándar s. Los criterios paramétricos son los más precisos y correctos. Los criterios no paramétricos se basan en diferencias de rango (ordinales) entre elementos de muestra.

Aquí están los criterios principales para la confiabilidad estadística utilizada en la práctica de la FCC: la prueba del estudiante y el criterio de Fisher.

Criterio del estudiante lleva el nombre del científico inglés C. Gosset (el estudiante es un seudónimo), quien descubrió este método. El criterio del alumno es paramétrico; se utiliza para comparar indicadores absolutos de muestras. Las muestras pueden variar en volumen.

Criterio del estudiante definido de la siguiente manera.

1. Encontramos el criterio de estudiante t por la siguiente fórmula:


donde están la media aritmética de las muestras comparadas; t 1, t 2: errores de representatividad identificados sobre la base de indicadores de las muestras comparadas.

2. La práctica en la FCC ha demostrado que para el trabajo deportivo es suficiente aceptar la fiabilidad de la puntuación P \u003d 0,95.

Para la confiabilidad de la cuenta: P \u003d 0.95 (a \u003d 0.05), con el número de grados de libertad

k \u003d n 1 + n 2 - 2 de acuerdo con la tabla del Apéndice 4, encontramos el valor del valor límite del criterio ( t gr).

3. Sobre la base de las propiedades de la ley de distribución normal en el criterio de Student, se comparan t y t gr.

Sacamos conclusiones:

si t t gr, entonces la diferencia entre las muestras comparadas es estadísticamente significativa;

si t t gr, entonces la diferencia no es estadísticamente significativa.

Para los investigadores en el campo de la FCC, la evaluación de la confiabilidad estadística es el primer paso para resolver un problema específico: las muestras comparadas son fundamentalmente o sin principios. El siguiente paso es evaluar esta diferencia desde un punto de vista pedagógico, que está determinado por la condición del problema.

Considere la aplicación del criterio del alumno para un ejemplo específico.

Ejemplo 2.14. Se evaluó un grupo de sujetos en la cantidad de 18 personas a frecuencia cardíaca (lpm) antes de xi y después y yo calentamientos.

Evaluar la efectividad del calentamiento por frecuencia cardíaca. Los datos de origen y los cálculos se presentan en la tabla. 2.30 y 2.31.

Tabla 2.30

Procesando la frecuencia cardíaca antes del calentamiento


Los errores en ambos grupos coincidieron, ya que los tamaños de muestra fueron iguales (el mismo grupo se estudió en diferentes condiciones), y las desviaciones estándar fueron s x \u003d s y \u003d 3 lpm. Procedemos a la definición del criterio del alumno:

Establecemos la confiabilidad de la cuenta: P \u003d 0.95.

El número de grados de libertad k 1 \u003d n 1 + n 2 - 2 \u003d 18 + 18-2 \u003d 34. De acuerdo con la tabla del Apéndice 4, encontramos t gr= 2,02.

La conclusión estadística. Como t \u003d 11.62 y el límite t gr \u003d 2.02, entonces 11.62\u003e 2.02, es decir t\u003e t gr, por lo tanto, la diferencia entre las muestras es estadísticamente significativa.

La conclusión pedagógica. Se encontró que, en términos de frecuencia cardíaca, la diferencia entre el estado del grupo antes y después del calentamiento es estadísticamente significativa, es decir. significativo, fundamental. Entonces, en términos de frecuencia cardíaca, podemos concluir que el calentamiento es efectivo.

Prueba de Fisher es paramétrico Se utiliza al comparar los índices de dispersión de muestras. Esto, por regla general, significa una comparación en términos de la estabilidad del rendimiento deportivo o la estabilidad de los indicadores funcionales y técnicos en la práctica de la educación física y el deporte. Las muestras pueden ser de diferentes tamaños.

El criterio de Fisher se determina en la siguiente secuencia.

1. Encontramos el Criterio F de Fisher por la fórmula


donde, son las variaciones de las muestras comparadas.

Las condiciones del criterio de Fisher establecen que en el numerador de la fórmula F hay una gran dispersión, es decir el número F siempre es mayor que uno.

Establecemos la confiabilidad del cálculo: P \u003d 0.95 - y determinamos el número de grados de libertad para ambas muestras: k 1 \u003d n 1 - 1, k 2 \u003d n 2 - 1.

De acuerdo con la tabla del Apéndice 4, encontramos el valor límite del criterio F gramo.

Comparación de los criterios F y F gramopermite sacar conclusiones:

si F\u003e F gr, entonces la diferencia entre las muestras es estadísticamente significativa;

si F< F гр, то различие между выборками статически недо­стоверно.

Damos un ejemplo concreto.

Ejemplo 2.15. Analicemos dos grupos de jugadores de balonmano: x i (n 1 \u003d 16 personas) e y i (n 2 \u003d 18 personas). Estos grupos de atletas fueron investigados por el tiempo de repulsión (s) al lanzar la pelota a la portería.

¿Son iguales los indicadores de repulsión?

Los datos de origen y los cálculos básicos se presentan en la tabla. 2.32 y 2.33.

Tabla 2.32

Procesando los indicadores de repulsión del primer grupo de jugadores de balonmano


Defina el criterio de Fisher:





De acuerdo con los datos presentados en la tabla del Apéndice 6, encontramos Fgr: Fgr \u003d 2.4

Llamamos la atención sobre el hecho de que en la tabla del Apéndice 6, la enumeración de los números de grados de libertad de la varianza mayor y menor se vuelve más gruesa al aproximarse a los números grandes. Entonces, el número de grados de libertad de mayor dispersión sigue en este orden: 8, 9, 10, 11, 12, 14, 16, 20, 24, etc., y menos: 28, 29, 30, 40, 50, etc. re.

Esto se explica por el hecho de que con un aumento en el tamaño de la muestra, las diferencias del criterio F disminuyen y se pueden usar valores tabulares cercanos a los datos iniciales. Entonces, en el ejemplo 2.15 \u003d 17 está ausente y podemos tomar el valor k \u003d 16 más cercano a él, de donde obtenemos Fgr \u003d 2.4.

La conclusión estadística. Dado que la prueba de Fisher F \u003d 2.5\u003e F \u003d 2.4, las muestras son distinguibles estadísticamente significativamente.

La conclusión pedagógica. Los valores de los tiempos de repulsión al lanzar la pelota hacia la portería para los jugadores de balonmano de ambos grupos difieren significativamente. Estos grupos deben considerarse como diferentes.

La investigación adicional debería mostrar la razón de esta diferencia.

Ejemplo 2.20.(sobre fiabilidad estadística de la muestra ) ¿Ha mejorado la calificación de un jugador de fútbol si el (los) tiempo (s) desde la señalización hasta patear la pelota al comienzo del entrenamiento fue x i y al final i.

Los datos de origen y los cálculos básicos se dan en la tabla. 2.40 y 2.41.

Tabla 2.40

Indicadores de tiempo de procesamiento desde la señalización hasta golpear la pelota al comienzo de un entrenamiento


Defina la diferencia en los grupos de indicadores según el criterio del alumno:

Con confiabilidad P \u003d 0.95 y grados de libertad k \u003d n 1 + n 2 - 2 \u003d 22 + 22 - 2 \u003d 42 de acuerdo con la tabla en el Apéndice 4 encontramos t gr\u003d 2.02. Desde t \u003d 8.3\u003e t gr\u003d 2.02 - la diferencia es estadísticamente significativa.

Defina la diferencia entre los grupos de indicadores de acuerdo con el criterio de Fisher:


De acuerdo con la tabla del Apéndice 2, con confiabilidad P \u003d 0.95 y grados de libertad k \u003d 22-1 \u003d 21, el valor de F gr \u003d 21. Dado que F \u003d 1,53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

La conclusión estadística. Según el promedio aritmético, la diferencia en los grupos de indicadores es estadísticamente significativa. En términos de dispersión (varianza), la diferencia entre los grupos de indicadores no es estadísticamente significativa.

La conclusión pedagógica.La calificación de un jugador de fútbol ha aumentado significativamente, pero se debe prestar atención a la estabilidad de su testimonio.

Preparación para el trabajo

Antes de realizar este trabajo de laboratorio en la disciplina "Metrología deportiva" todos los estudiantes del grupo de estudio deben formar equipos de trabajo de 3-4 estudiantes en cada, para completar conjuntamente la asignación de trabajo de todo el trabajo de laboratorio.

En preparación para el trabajo lea las secciones relevantes de la literatura recomendada (consulte la sección 6 de estas pautas) y las notas de clase. Estudiar las secciones 1 y 2 para este trabajo de laboratorio, así como la tarea de trabajo para este (sección 4).

Para preparar un formulario de informe en hojas estándar de papel de escribir en formato A4 y poner en él los materiales necesarios para el trabajo.

El informe debe contener :

La página del título que indica el departamento (CC y TR), el grupo de estudio, apellido, nombre, segundo nombre del estudiante, número y nombre del trabajo de laboratorio, la fecha de finalización, así como el apellido, el grado académico, el rango académico y la posición del maestro que acepta el trabajo;

Objetivo;

Fórmulas con valores numéricos que explican los resultados intermedios y finales de los cálculos;

Tablas de valores medidos y calculados;

Material gráfico requerido por encargo;

Breves conclusiones sobre los resultados de cada una de las etapas de la tarea y, en general, sobre el trabajo realizado.

Todos los gráficos y tablas se dibujan con precisión utilizando herramientas de dibujo. Las designaciones gráficas y de letras convencionales deben cumplir con GOST. Se permite elaborar un informe utilizando tecnología informática (informática).

Tarea de trabajo

Antes de tomar todas las medidas, cada miembro del equipo debe estudiar las reglas para usar el juego deportivo Darts, que se proporciona en el Apéndice 7, que son necesarias para los siguientes pasos de investigación.

I etapa de investigacion "Estudio de los resultados de golpear el objetivo de un juego deportivo de dardos por cada miembro de la brigada para cumplir con la ley de distribución normal por el criterio χ 2Pearson y el criterio de tres sigma "

1. para medir (probar) su velocidad (personal) y la coordinación de acciones, lanzando dardos 30-40 veces al objetivo circular del juego deportivo Darts.

2. Los resultados de las mediciones (pruebas) x i (en gafas), complete en forma de serie de variación e ingrese en la tabla 4.1 (columnas, realice todos los cálculos necesarios, complete las tablas necesarias y extraiga las conclusiones apropiadas sobre la correspondencia de la distribución empírica obtenida con la ley de distribución normal, por analogía con cálculos, tablas y conclusiones similares del Ejemplo 2.12, Consulte la Sección 2 de estas pautas en las páginas 7-10.

Tabla 4.1

Cumplimiento de la velocidad y coordinación de los sujetos con la ley de distribución normal.

No. p / p rotundamente
Total

II etapa de investigación

"Evaluación de los indicadores promedio de la población total de golpes del objetivo del juego deportivo Darts de todos los estudiantes del grupo de estudio de acuerdo con los resultados de medición de los miembros de un equipo"

Evaluar los indicadores promedio de velocidad y coordinación de acciones de todos los estudiantes del grupo de estudio (de acuerdo con la lista del grupo de estudio del diario de la clase) en función de los resultados de golpear a todos los miembros del equipo en el objetivo del juego deportivo Darts obtenido en la primera etapa de investigación de este trabajo de laboratorio.

1. Informar medidas de velocidad y coordinación de acciones. al lanzar dardos al objetivo circular del juego deportivo Darts de todos los miembros de su equipo (2 a 4 personas), que son una muestra de mediciones de la población general (resultados de mediciones de todos los estudiantes en el grupo de estudio, por ejemplo, 15 personas), colocándolos en la segunda y tercera columnas tabla 4.2.

Tabla 4.2

Procesamiento de indicadores de velocidad y coordinación de acciones.

miembros de la brigada

No. p / p
Total

En la tabla 4.2 debajo debe entenderse , puntaje promedio del partido (ver los resultados del cálculo en la tabla 4.1) miembros de tu equipo ( , obtenido en la primera etapa de investigación. Se debe notar que, generalmente, la tabla 4.2 contiene el valor promedio calculado de los resultados de medición obtenidos por un miembro del equipo en la primera etapa de la investigación. , ya que la probabilidad de que coincidan los resultados de la medición por parte de diferentes miembros de la brigada es muy pequeña. Luego, generalmente valores en la columna tabla 4.2 para cada fila - igual a 1, y en la línea "Total "Columnas" ", está escrito el número de miembros de su equipo.

2. Realice todos los cálculos necesarios para completar la tabla 4.2, así como otros cálculos y conclusiones similares a los cálculos y conclusiones del ejemplo 2.13, que se dan en la segunda sección de este desarrollo metodológico en las páginas 13-14. Tenga en cuenta al calcular errores de representatividad "METRO" es necesario usar la fórmula 2.4 en la página 13 de este desarrollo metodológico, ya que la muestra es pequeña (n, y se conoce el número de elementos en la población general N, y es igual al número de estudiantes en el grupo de estudio, según la lista de la revista del grupo de estudio).

III - investigación escénica

Evaluación de la efectividad del calentamiento mediante el indicador "Velocidad y coordinación de acciones" por cada miembro del equipo utilizando el criterio del Alumno

Para evaluar la efectividad del calentamiento lanzando dardos al objetivo del juego deportivo Darts, realizado en la primera etapa de investigación de este trabajo de laboratorio, por cada miembro del equipo de acuerdo con el indicador "Velocidad y coordinación de acciones", utilizando la prueba t de Student, un criterio paramétrico de confiabilidad estadística de la ley de distribución empírica a la ley de distribución normal .

… Total

2. diferencia y DIS , los resultados de las mediciones del indicador "Velocidad y coordinación de acciones" de acuerdo con los resultados del calentamiento, dado en la tabla 4.3, (ver cálculos similares dados inmediatamente después de la tabla 2.30 del ejemplo 2.14 en la página 16 de este desarrollo metodológico).

3. A cada miembro del equipo de trabajo. tomar una medida (prueba) de su velocidad (personal) y coordinación después del calentamiento,

… Total

5. Calcular el promedio diferencia y DIS , los resultados de las mediciones del indicador "Velocidad y coordinación de acciones" después del calentamiento, dado en la tabla 4.4, anote todo el resultado de la medición a partir de los resultados del calentamiento (ver cálculos similares dados inmediatamente después de la tabla 2.31 del ejemplo 2.14 en la página 17 de este desarrollo metodológico).

6. Realice todos los cálculos y conclusiones necesarios, de manera similar a los cálculos y conclusiones del ejemplo 2.14, que se dan en la segunda sección de este desarrollo metodológico en las páginas 16-17. Tenga en cuenta al calcular errores de representatividad "METRO" es necesario usar la fórmula 2.1, que se da en la página 12 de este desarrollo metodológico, ya que la muestra es n, y el número de elementos en la población N (desconocido.

IV etapa de investigación

Evaluar la uniformidad (estabilidad) de los indicadores "Velocidad y coordinación de acciones" de dos miembros del equipo utilizando el criterio de Fisher

Evaluar la uniformidad (estabilidad) de los indicadores “Velocidad y coordinación de acciones” de dos miembros del equipo utilizando el criterio de Fisher, de acuerdo con los resultados de medición obtenidos en la tercera etapa de investigación de este trabajo de laboratorio.

Para hacer esto, haga lo siguiente.

Utilizando los datos de las tablas 4.3 y 4.4, los resultados del cálculo de las variaciones para estas tablas, obtenidos en la tercera etapa de investigación, así como el método de cálculo y la aplicación del criterio de Fisher para evaluar la uniformidad (estabilidad) de los indicadores deportivos, que se muestra en el Ejemplo 2.15 en las páginas 18-19 de este desarrollo metodológico, sacar conclusiones estadísticas y pedagógicas relevantes.

V etapa de investigación

Evaluación de los grupos de indicadores "Velocidad y coordinación de acciones" de un miembro del equipo antes y después del calentamiento

Al fundamentar la conclusión estadística, la pregunta debe resolverse, ¿dónde está la línea entre la aceptación y el rechazo de la hipótesis nula? Debido a la presencia de efectos aleatorios en el experimento, este límite no se puede dibujar exactamente. Se basa en el concepto de nivel significativo. Nivel significativo llamado la probabilidad de rechazo erróneo de la hipótesis nula. O, en otras palabras, nivel significativo - esta es la probabilidad de un error del primer tipo al tomar una decisión. Para denotar esta probabilidad, por regla general, use la letra griega α o la letra latina r.En el futuro usaremos la letra r.

Históricamente, en las ciencias aplicadas que usan estadísticas, y en particular en psicología, se cree que el nivel más bajo de significación estadística es p \u003d0,05; suficiente - nivel r\u003d 0.01 y nivel superior p \u003d0.001. Por lo tanto, las tablas estadísticas, que se dan en el apéndice de los libros de texto sobre estadísticas, generalmente dan valores tabulares para los niveles. p \u003d0,05, p \u003d0.01 y r\u003d 0.001. A veces se dan valores tabulares para niveles. r -0.025 y p \u003d0,005.

Los valores de 0.05, 0.01 y 0.001 son los llamados niveles estándar de significancia estadística. En un análisis estadístico de datos experimentales, el psicólogo, dependiendo de las tareas e hipótesis del estudio, debe elegir el nivel de significación necesario. Como puede ver, aquí el valor más grande, o el límite inferior del nivel de significancia estadística, es 0.05, esto significa que se permiten cinco errores en una muestra de cien elementos (casos, sujetos) o un error de veinte elementos (casos, sujetos). Se cree que ni seis, ni siete, ni más de cien de cada cien, podemos cometer un error. El precio de tales errores será demasiado alto.

Tenga en cuenta que en los paquetes informáticos estadísticos modernos, no se utilizan niveles de significación estándar, sino niveles calculados directamente en el proceso de trabajar con el método estadístico correspondiente. Estos niveles están indicados por la letra rpuede tener una expresión numérica diferente en el rango de 0 a 1, por ejemplo, p \u003d0,7, r\u003d 0.23 o r\u003d 0.012. Está claro que en los primeros dos casos, los niveles de significancia obtenidos son demasiado altos y no se puede decir que el resultado sea significativo. Al mismo tiempo, en el último caso, los resultados son significativos a nivel de 12 milésimas. Este es un nivel confiable.

La regla para hacer una conclusión estadística es la siguiente: en base a los datos experimentales obtenidos, el psicólogo calcula las llamadas estadísticas empíricas, o valor empírico, de acuerdo con el método estadístico elegido. Este valor se indica convenientemente como H emp . Luego estadísticas empíricas H emp en comparación con dos valores críticos que corresponden a niveles de significancia de 5% y 1% para el método estadístico seleccionado y que se denotan como H cr . Cantidades H cr son para este método estadístico de acuerdo con las tablas correspondientes que figuran en el apéndice de cualquier libro de texto sobre estadísticas. Estos valores, como regla, siempre son diferentes y se pueden llamar como H kr1 y H kr2 . Los valores críticos encontrados en las tablas. H kr1 y H kr2 Es conveniente presentar en la siguiente forma de entrada estándar:

Sin embargo, enfatizamos que usamos la notación H emp y H cr como abreviatura de la palabra "número". Todos los métodos estadísticos tienen sus propias designaciones simbólicas de todas estas cantidades: tanto las cantidades empíricas calculadas usando el método estadístico correspondiente, como los valores críticos encontrados en las tablas correspondientes. Por ejemplo, al calcular el coeficiente de correlación de rango de Spearman a partir de la tabla de valores críticos de este coeficiente, se encontraron los siguientes valores de valores críticos, que se denotan con la letra griega ρ ("ro") para este método. Entonces para p \u003d0.05 según la tabla, se encuentra el valor ρ cr 1 \u003d 0.61 y para p \u003dValor 0.01 ρ cr 2 = 0,76.

En la forma estándar de notación adoptada en la siguiente declaración, esto es lo siguiente:

Ahora necesitamos comparar nuestro valor empírico con los dos valores críticos encontrados en las tablas. Esto se hace mejor colocando los tres números en el llamado "eje de significación". El "eje de significación" es una línea recta con 0 en su extremo izquierdo, aunque generalmente no está marcado en esta línea recta, y la serie de números aumenta de izquierda a derecha. De hecho, este es el eje de abscisa escolar habitual OHsistema de coordenadas Cartesianas. Sin embargo, la peculiaridad de este eje es que tiene tres secciones, "zonas". Una zona extrema se llama zona de insignificancia, la segunda zona extrema, la zona de significación e intermedia, la zona de incertidumbre. Los límites de las tres zonas son H kr1 para p \u003d0.05 y H kr2 para p \u003d0.01, como se muestra en la figura.

Dos opciones son posibles dependiendo de la regla de decisión (regla de inferencia) prescrita en este método estadístico.

Primera opción: se acepta una hipótesis alternativa si H empH cr .

O la segunda opción: se acepta una hipótesis alternativa si H empH cr .

Contado H emp por cualquier método estadístico, necesariamente debe caer en una de las tres zonas.

Si el valor empírico cae en la zona de insignificancia, entonces se acepta la hipótesis H 0 sobre la ausencia de diferencias.

Si un H emp cayó en la zona de importancia, se acepta la hipótesis alternativa H 1 acerca de diferencias, y la hipótesis H 0 es rechazada.

Si un H emp cae en una zona de incertidumbre, el investigador se enfrenta a un dilema. Entonces, dependiendo de la importancia del problema a resolver, puede considerar confiable la estimación estadística obtenida al nivel del 5% y, por lo tanto, aceptar la hipótesis H 1, rechazando la hipótesis H 0 , o - poco confiable al nivel del 1%, aceptando así la hipótesis H 0. Sin embargo, enfatizamos que este es precisamente el caso cuando el psicólogo puede cometer errores del primer o segundo tipo. Como se mencionó anteriormente, en estas circunstancias es mejor aumentar el tamaño de la muestra.

También enfatizamos que la cantidad H emp puede coincidir exactamente H kr1 o H kr2 . En el primer caso, podemos suponer que la estimación es exacta exactamente al 5% y aceptar la hipótesis H 1 o, por el contrario, aceptar la hipótesis H 0. En el segundo caso, como regla, se acepta la hipótesis alternativa H 1 sobre la presencia de diferencias, y se rechaza la hipótesis H 0.