Seleccionar página

Crédito: Pixabay.

Al hacer ciencia, nunca puedes permitirte certezas. Una perspectiva escéptica siempre te hará bien, pero si este es el caso, ¿cómo pueden los científicos saber si sus resultados son significativos en primer lugar? Bueno, en lugar de confiar en la intuición, cualquier investigador que se precie dejará que los datos hablen por sí mismos. Es decir, un resultado será significativo si es estadísticamente significativo. Pero para que un resultado estadístico sea significativo para todos los involucrados, también necesita un estándar para medir las cosas.

Cuando se hace referencia a la significancia estadística, la unidad de medida elegida es la desviación estándar. Típicamente denotado por la letra griega minúscula sigma (), este término describe cuánta variabilidad hay en un conjunto dado de datos, alrededor de una media o promedio, y se puede considerar como cuán amplia es la distribución de puntos o valores. Las muestras con una desviación estándar alta se consideran más dispersas, lo que significa que tienen más variabilidad y los resultados son más interpretables. Sin embargo, una desviación estándar baja gira más estrechamente en torno a la media.

Tirar los dados

Para entender cómo los científicos usan la desviación estándar en su trabajo, es útil considerar un ejemplo estadístico familiar: el lanzamiento de una moneda. La moneda solo tiene dos caras, cara o cruz, por lo que la probabilidad de obtener una cara de la otra después de un lanzamiento es del 50 por ciento. Sin embargo, si lanzas una moneda 100 veces, es probable que no obtengas 50 instancias de cara y 50 de cruz. Más bien, es probable que obtengas algo así como 49 contra 51. Si repites esta prueba de 100 monedas al aire otras 100 veces, obtendrás resultados aún más interesantes. A veces obtendrá algo como 45 contra 55 y en un par de casos extremos 20 contra 80.

Si traza todas estas pruebas de lanzamiento de monedas en un gráfico, normalmente debería ver una curva en forma de campana con el punto más alto de la curva en el medio, disminuyendo en ambos lados. Esto es lo que llamaría una distribución normal, mientras que la desviación es qué tan lejos está un punto dado del promedio.

Una desviación estándar o un sigma, representada por encima o por debajo del valor promedio, incluye el 68 por ciento de todos los puntos de datos. Dos sigma incluye el 95 por ciento y tres sigma incluye el 99,7 por ciento. Los valores sigma más altos significan que es cada vez menos probable que el descubrimiento sea un error accidental o una casualidad aleatoria.

Aquí hay otra forma de verlo. El coeficiente intelectual humano medio es 100. Los datos sugieren que el 68 por ciento de la población se encuentra en lo que se denomina una desviación estándar de la media (one-sigma) y el 27,2 por ciento de la población se encuentra a dos desviaciones estándar de la media, siendo brillante o más bien intelectualmente desafiados dependiendo del lado de la curva de campana en el que se encuentren. Alrededor del 2,1 por ciento de la población se encuentra a 3 desviaciones estándar de la media (3-sigma), estas son personas brillantes. Alrededor del 0,1% de la población está a 4 desviaciones estándar de la media, los genios.

La desviación estándar se convierte en una herramienta fundamental a la hora de probar la verosimilitud de una hipótesis. Por lo general, lo que hacen los científicos es construir dos hipótesis, una en la que digamos que dos fenómenos A y B no están conectados (la hipótesis nula) y otra en la que A y B están conectados (la hipótesis de investigación).

Lo que hacen los científicos es que primero asumen que la hipótesis nula es verdadera, porque eso es lo más intelectualmente conservador que se puede hacer, y luego calculan la probabilidad de obtener datos tan extremos como los que están observando. Este cálculo genera el valor p. Un valor p cercano a cero indica que su hipótesis nula es falsa y, por lo general, es muy probable que exista una diferencia. Los valores p grandes (p se expresa como un valor entre 0 y 1) implican que no hay una diferencia detectable para el tamaño de muestra utilizado. Un valor p de .05, por ejemplo, indica que tendría solo un 5 % de posibilidades de extraer la muestra que se está probando si la hipótesis nula fuera realmente cierta. Dependiendo del campo, típicamente psicología y otras ciencias sociales, verá que los artículos usan el valor p para ilustrar la importancia estadística, mientras que las matemáticas y la física emplearán sigma.

Las probabilidades de que un valor se encuentre dentro de 1 sigma, 2 sigma y 3 sigma de la media para una distribución normal. Crédito: Wikimedia Commons.

no estés tan seguro

A veces, solo dos desviaciones estándar por encima o por debajo del promedio, lo que da un nivel de confianza del 95 por ciento, es razonable. Two-sigma es, de hecho, una práctica estándar entre los encuestadores y la desviación está directamente relacionada con ese margen de error de muestreo. Si una encuesta encontró que el 55 por ciento de toda la población favorece al candidato A, entonces el 95 por ciento de las veces, una segunda encuesta que muestrea la misma cantidad de personas (al azar) encontrará que el candidato A es favorecido en algún lugar entre el 52 y el 58 por ciento.

La siguiente tabla resume varios niveles hasta dos decimales.

Confianza en que el resultado es real
1 84,13%
1.5 93,32%
2 97,73%
2.5 99,38%
3 99.87%
3.5 99,98%
> 4 100% ( casi )

Sin embargo, para algunos campos de la ciencia, 2-sigma no es suficiente, ni tampoco 3 o 4-sigma. En física de partículas, por ejemplo, los científicos trabajan con millones o incluso miles de millones de puntos de datos, cada uno correspondiente a una colisión de protones de alta energía. En 2012, los investigadores del CERN informaron sobre el descubrimiento del bosón de Higgs y los comunicados de prensa lanzaron el término 5-sigma. Five-sigma corresponde a un valor p, o probabilidad, de 310 -7, o aproximadamente 1 en 3,5 millones. Aquí es donde debe poner sus límites de pensamiento porque 5-sigma no significa que hay una probabilidad de 1 en 3,5 millones de que el bosón de Higgs sea real o no. Más bien, significa que si el bosón de Higgs no existe (la hipótesis nula), solo hay una probabilidad de 1 en 3,5 millones de que los datos del CERN sean al menos tan extremos como lo que observaron.

A veces, 5-sigma no es suficiente para estar súper seguro de un resultado. Ni siquiera Six Sigma, que se traduce aproximadamente en una posibilidad entre quinientos millones de que el resultado sea una casualidad aleatoria. Por ejemplo, en 2011, otro experimento del CERN llamado OPERA descubrió que los neutrinos casi sin masa viajan más rápido que la luz. Esta afirmación, que tenía la confianza de 6 sigma, fue legítimamente controvertida porque viola directamente el principio de relatividad de Einstein, que dice que la velocidad de la luz es constante para todos los observadores y que nada puede viajar más rápido que ella. Más tarde, cuatro experimentos independientes no lograron obtener el mismo nivel de confianza y los científicos de OPERA creen que su medición original puede descartarse debido a un elemento defectuoso del sistema de temporización de fibra óptica de los experimentos.

Por lo tanto, tenga en cuenta que el hecho de que un resultado se encuentre dentro de un intervalo aceptado de importancia no significa necesariamente que sea verdaderamente significativo. El contexto es importante, especialmente si sus resultados infringen las leyes de la física conocida.

"