Recta de regresión y correlaciones
Regresión y líneas de regresión
Con frecuencia, las variables que constituyen una distribución bidimensional (ver t61) muestran un cierto grado de dependencia entre ellas. Un ejemplo típico de esta relación aparece en las tablas de peso y altura de los grupos de población: aunque no existe una ley causal que relacione ambas variables, en términos estadísticos se aprecia una dependencia entre ellas (cuando aumenta la altura, suele hacerlo también el peso). Esta dependencia se refleja en la nube de puntos que representa a la distribución, de modo que los puntos de esta gráfica aparecen condensados en algunas zonas.
La concentración de puntos en algunas regiones de la nube refleja la existencia de una dependencia estadística, y la posibilidad de definir una ecuación de regresión.
En tales casos, se pretende definir una ecuación de regresión que sirva para relacionar las dos variables de la distribución. La representación gráfica de esta ecuación recibe el nombre de línea de regresión, y puede adoptar diversas formas: lineal, parabólica, cúbica, hiperbólica, exponencial, etcétera.
Regresión lineal
Cuando la línea de regresión se asemeja a una recta (regresión lineal), puede ajustarse a esta forma geométrica por medio de un método general conocido como método de los mínimos cuadrados. La recta de ajuste tendrá por ecuación y = ax + b, donde los coeficientes a y b se calculan teniendo en cuenta que:
- La recta debe pasar por el punto (
). - La separación de los puntos de la gráfica de dispersión con respecto a la recta de regresión debe ser mínima.
Estas dos condiciones conducen a una recta de ajuste expresada por la ecuación:
donde
es la media aritmética de la primera variable,
la media aritmética de la segunda variable, sx la desviación típica de la primera variable y sxy un valor denominado covarianza, que se define por la expresión:

Correlación
En una distribución bidimensional, se define correlación, denotada por r, como el grado de dependencia que existe entre las dos variables del modelo, de modo que:
- Cuando al aumentar el valor de una variable crece también el de la otra, la correlación es directa, e inversa en caso contrario.
- Si no existe dependencia entre las variables, la correlación es nula.
Para conocer si una correlación es directa o inversa, basta con determinar su covarianza:
- Si la covarianza es positiva, la correlación es directa.
- Cuando la covarianza es negativa, existe una correlación inversa entre las variables.
Ejemplos de correlación inversa.
Coeficiente de correlación
La medida exacta del grado de dependencia entre las dos variables de una distribución bidimensional se obtiene por medio del denominado coeficiente de correlación. Este parámetro se define como el cociente entre la covarianza de la distribución y el producto de las desviaciones típicas de cada una de las variables. Es decir:

- Si r = +1, la correlación es máxima directa. Cuando r = -1, la correlación es máxima inversa. En ambos casos, existe entre las variables una dependencia funcional (todos los puntos están situados sobre la recta de regresión).
- Si -0,5 £ r £ +0,5, se dice que entre las variables existe una dependencia baja.
La escuela británica
A finales del siglo XIX, una generación de biólogos y genetistas británicos sentó las bases de la estadística moderna, a partir de estudios sobre las leyes de la herencia y la transmisión genética. Los más destacados de estos científicos, que definieron y desarrollaron los conceptos de regresión y correlación, fueron Francis Galton (1822- 1911) y Karl Pearson (1857- 1936), que dio nombre al coeficiente de correlación.
Francis Galton
El inglés Francis Galton (1822-1911) destacó como explorador, biólogo y antropólogo, y fue un ardiente defensor de la eugenesia. En el ámbito matemático, sobresalió como fundador del cálculo correlacional, una disciplina de la estadística aplicada.
