Pruebas de hipótesis e intervalos de confianza para medias, proporciones, ANOVA, tablas χ² y varianzas: estadístico, gl, p-valor, valor crítico, IC, tamaño del efecto y decisión vs α, con la región de rechazo graficada.
Datos
Prueba
Hipótesis alternativa
Nivel de significancia (α)
Estadístico observadoValor críticoRegión de rechazo
Es el puente entre una muestra (lo que medís) y la población (lo que querés concluir). En lugar de afirmar un valor exacto, cuantificás cuánta evidencia hay y con cuánta incertidumbre, mediante dos herramientas complementarias:
Prueba de hipótesis: ¿los datos contradicen una afirmación previa (H0)?
Intervalo de confianza: ¿en qué rango de valores es plausible que esté el parámetro?
El estadístico de prueba
Casi toda prueba se reduce a una misma idea: medir cuántos errores estándar separan lo observado de lo esperado bajo H0.
estadıˊstico=error estaˊndarestimacioˊn−valor bajo H0
La misma receta cubre las proporciones: el estadístico es z=(p^−p0)/p0(1−p0)/n, con el error estándar calculado bajoH0 (por eso usa p0 y no p^).
Para una media con σ desconocida se usa la t de Student con ν=n−1 grados de libertad:
t=s/nxˉ−μ0
Para dos medias, el método de Welch (recomendado por defecto) no asume varianzas iguales y ajusta los grados de libertad:
Toda prueba confronta dos escenarios: la Hipótesis Nula (H0), que asume "no hay efecto" o "no hay diferencia", y la Hipótesis Alternativa (Ha), que representa lo que queremos demostrar. La forma de Ha determina cómo leemos el estadístico:
Dos colas (=): Buscamos diferencias en cualquier dirección. p=2P(T≥∣t∣).
Una cola (< o >): Buscamos una diferencia direccional. p=P(T≥t) o P(T≤t).
El p-valor es la probabilidad de observar un estadístico tan o más extremo si H0 fuera cierta (el área sombreada del gráfico). La regla es directa: se rechaza H0 si p<α. Es exactamente equivalente a comparar el estadístico con el valor crítico.
Errores Tipo I y Tipo II
El nivel de significancia α no es arbitrario: es la tolerancia máxima al Error Tipo I (falso positivo, rechazar H0 cuando es verdadera). Reducir α (ej. a 0.01) te hace más exigente, pero aumenta el riesgo de cometer un Error Tipo II (β): fallar en detectar un efecto real (falso negativo). El complemento 1−β se conoce como la potencia de la prueba.
Más allá de las medias: χ² y F
No todo se compara restando. Cuando lo que se acumula son desviaciones al cuadrado, el estadístico ya no puede ser negativo y su distribución de muestreo deja de ser simétrica:
χ² (chi-cuadrado): compara conteos observados con esperados (χ2=∑(O−E)2/E) o una varianza muestral con una de referencia (χ2=(n−1)s2/σ02).
F: compara dos varianzas como cociente. El ANOVA usa esta idea para comparar 3+ medias: si los grupos difieren, la variación entre grupos supera a la variación dentro de ellos (F=MSB/MSW).
Por eso el ANOVA y las pruebas χ² de conteos son de cola derecha: solo un estadístico grande indica desacuerdo con H0. Las pruebas de varianza sí admiten dos colas, pero como χ² y F no son simétricas, los dos valores críticos no son uno el negativo del otro.
El intervalo de confianza
Un IC del 100(1−α)% da el rango de valores compatibles con los datos. Para una media:
xˉ±t1−α/2,νns
Hay una dualidad útil: en una prueba de dos colas, rechazar H0 al nivel α equivale a que el valor de H0quede fuera del IC del 100(1−α)%.
Significancia ≠ tamaño del efecto
Un p-valor pequeño dice que el efecto es detectable, no que sea grande. Por eso se reporta también el tamaño del efecto (la d de Cohen, d=(xˉ−μ0)/s): cuántos desvíos estándar mide la diferencia, independientemente de n.
Cada familia tiene el suyo: h de Cohen para proporciones, η2 en ANOVA (fracción de la variación explicada por los grupos), w y la V de Cramér para tablas de conteos. Todos responden la misma pregunta: ¿el efecto importa, además de ser estadísticamente detectable?
Qué dice (y qué no) el p-valor
El p-valor no es la probabilidad de que H0 sea cierta, ni la probabilidad de equivocarse. Es la rareza de los datos suponiendo H0. Tampoco "aceptamos" H0: cuando p≥α simplemente no hay evidencia suficiente para rechazarla.
¿Qué prueba usar?
Pregunta
Prueba
Una media vs. un valor
t 1 muestra
Dos grupos independientes
t 2 muestras (Welch)
Antes vs. después (mismos sujetos)
t pareada
σ conocida / n grande
z
Una o dos proporciones
z de proporciones
3+ medias a la vez
ANOVA (F)
Conteos por categoría
χ² (ajuste / indep.)
Una varianza / dos varianzas
χ² / F
Supuestos Clave
Para que el p-valor sea válido, los datos deben cumplir ciertas condiciones:
Independencia: Las observaciones no deben estar correlacionadas (fundamental en todas las pruebas).
Normalidad: Pruebas como la t asumen población normal, aunque con muestras grandes (n≥30) el Teorema del Límite Central flexibiliza esto.
Tamaño muestral: Para proporciones y conteos, se requieren al menos 5 éxitos o frecuencias esperadas.
Valores críticos comunes
α (dos colas)
z\*
0.10
1.645
0.05
1.960
0.02
2.326
0.01
2.576
Con la t, el valor crítico es algo mayor (colas más pesadas) y se acerca a estos valores a medida que ν crece.