Inferencia Estadística

Pruebas de hipótesis e intervalos de confianza para medias, proporciones, ANOVA, tablas χ² y varianzas: estadístico, gl, p-valor, valor crítico, IC, tamaño del efecto y decisión vs α, con la región de rechazo graficada.

Elegí la prueba

Datos

Media (x̄)

Desvío (s)

Tamaño (n)

Media bajo H₀ (μ₀)

Prueba

Hipótesis alternativa

Nivel de significancia (α)

Estadístico observadoValor críticoRegión de rechazo

Resultado

Se rechaza H₀

p-valor = 0.01424 vs. α = 0.05

Estadístico

2.608

p-valor

0.01424

Estimación puntual: 5
Error estándar: 0.3834
Grados de libertad: 29
Valor crítico: ±2.045
IC 95%: [4.216, 5.784]
Tamaño del efecto (d de Cohen): 0.4762

Fundamentos y Explicación

¿Qué es la inferencia estadística?

Es el puente entre una muestra (lo que medís) y la población (lo que querés concluir). En lugar de afirmar un valor exacto, cuantificás cuánta evidencia hay y con cuánta incertidumbre, mediante dos herramientas complementarias:

Prueba de hipótesis: ¿los datos contradicen una afirmación previa ( $H_0$ )?
Intervalo de confianza: ¿en qué rango de valores es plausible que esté el parámetro?

El estadístico de prueba

Casi toda prueba se reduce a una misma idea: medir cuántos errores estándar separan lo observado de lo esperado bajo $H_0$ .

\text{estadístico}=\dfrac{\text{estimación}-\text{valor bajo }H_0}{\text{error estándar}}

La misma receta cubre las proporciones: el estadístico es $z=(\hat{p}-p_0)/\sqrt{p_0(1-p_0)/n}$ , con el error estándar calculado bajo $H_0$ (por eso usa $p_0$ y no $\hat{p}$ ).

Para una media con $\sigma$ desconocida se usa la t de Student con $\nu=n-1$ grados de libertad:

t=\dfrac{\bar{x}-\mu_0}{s/\sqrt{n}}

Para dos medias, el método de Welch (recomendado por defecto) no asume varianzas iguales y ajusta los grados de libertad:

t=\dfrac{(\bar{x}_1-\bar{x}_2)-\Delta_0}{\sqrt{s_1^2/n_1+s_2^2/n_2}}

\nu=\dfrac{\left(s_1^2/n_1+s_2^2/n_2\right)^2}{\dfrac{(s_1^2/n_1)^2}{n_1-1}+\dfrac{(s_2^2/n_2)^2}{n_2-1}}

Hipótesis, p-valor y decisión

Toda prueba confronta dos escenarios: la Hipótesis Nula ( $H_0$ ), que asume "no hay efecto" o "no hay diferencia", y la Hipótesis Alternativa ( $H_a$ ), que representa lo que queremos demostrar. La forma de $H_a$ determina cómo leemos el estadístico:

Dos colas ( $\neq$ ): Buscamos diferencias en cualquier dirección. $p = 2\,P(T \ge |t|)$ .
Una cola ( $<$ o $>$ ): Buscamos una diferencia direccional. $p = P(T \ge t)$ o $P(T \le t)$ .

El p-valor es la probabilidad de observar un estadístico tan o más extremo si $H_0$ fuera cierta (el área sombreada del gráfico). La regla es directa: se rechaza $H_0$ si $p < \alpha$ . Es exactamente equivalente a comparar el estadístico con el valor crítico.

Errores Tipo I y Tipo II

El nivel de significancia $\alpha$ no es arbitrario: es la tolerancia máxima al Error Tipo I (falso positivo, rechazar $H_0$ cuando es verdadera). Reducir $\alpha$ (ej. a 0.01) te hace más exigente, pero aumenta el riesgo de cometer un Error Tipo II ( $\beta$ ): fallar en detectar un efecto real (falso negativo). El complemento $1-\beta$ se conoce como la potencia de la prueba.

Más allá de las medias: χ² y F

No todo se compara restando. Cuando lo que se acumula son desviaciones al cuadrado, el estadístico ya no puede ser negativo y su distribución de muestreo deja de ser simétrica:

χ² (chi-cuadrado): compara conteos observados con esperados ( $\chi^2=\textstyle\sum (O-E)^2/E$ ) o una varianza muestral con una de referencia ( $\chi^2=(n-1)s^2/\sigma_0^2$ ).
F: compara dos varianzas como cociente. El ANOVA usa esta idea para comparar 3+ medias: si los grupos difieren, la variación entre grupos supera a la variación dentro de ellos ( $F=\mathrm{MSB}/\mathrm{MSW}$ ).

Por eso el ANOVA y las pruebas χ² de conteos son de cola derecha: solo un estadístico grande indica desacuerdo con $H_0$ . Las pruebas de varianza sí admiten dos colas, pero como χ² y F no son simétricas, los dos valores críticos no son uno el negativo del otro.

El intervalo de confianza

Un IC del $100(1-\alpha)\%$ da el rango de valores compatibles con los datos. Para una media:

\bar{x}\;\pm\;t_{1-\alpha/2,\,\nu}\,\dfrac{s}{\sqrt{n}}

Hay una dualidad útil: en una prueba de dos colas, rechazar $H_0$ al nivel $\alpha$ equivale a que el valor de $H_0$ quede fuera del IC del $100(1-\alpha)\%$ .

Significancia ≠ tamaño del efecto

Un p-valor pequeño dice que el efecto es detectable, no que sea grande. Por eso se reporta también el tamaño del efecto (la $d$ de Cohen, $d=(\bar{x}-\mu_0)/s$ ): cuántos desvíos estándar mide la diferencia, independientemente de $n$ .

Cada familia tiene el suyo: $h$ de Cohen para proporciones, $\eta^2$ en ANOVA (fracción de la variación explicada por los grupos), $w$ y la $V$ de Cramér para tablas de conteos. Todos responden la misma pregunta: ¿el efecto importa, además de ser estadísticamente detectable?

Qué dice (y qué no) el p-valor

El p-valor no es la probabilidad de que $H_0$ sea cierta, ni la probabilidad de equivocarse. Es la rareza de los datos suponiendo $H_0$ . Tampoco "aceptamos" $H_0$ : cuando $p \ge \alpha$ simplemente no hay evidencia suficiente para rechazarla.

¿Qué prueba usar?

Pregunta	Prueba
Una media vs. un valor	t 1 muestra
Dos grupos independientes	t 2 muestras (Welch)
Antes vs. después (mismos sujetos)	t pareada
$\sigma$ conocida / n grande	z
Una o dos proporciones	z de proporciones
3+ medias a la vez	ANOVA (F)
Conteos por categoría	χ² (ajuste / indep.)
Una varianza / dos varianzas	χ² / F

Supuestos Clave

Para que el p-valor sea válido, los datos deben cumplir ciertas condiciones:

Independencia: Las observaciones no deben estar correlacionadas (fundamental en todas las pruebas).
Normalidad: Pruebas como la t asumen población normal, aunque con muestras grandes ( $n \ge 30$ ) el Teorema del Límite Central flexibiliza esto.
Tamaño muestral: Para proporciones y conteos, se requieren al menos 5 éxitos o frecuencias esperadas.

Valores críticos comunes

$\alpha$ (dos colas)	$z^\*$
0.10	1.645
0.05	1.960
0.02	2.326
0.01	2.576

Con la t, el valor crítico es algo mayor (colas más pesadas) y se acerca a estos valores a medida que $\nu$ crece.

También te puede interesar:

Distribuciones de Probabilidad Estadística Descriptiva Regresión Lineal (2D)Validez Diagnóstica (Teorema de Bayes)