4. LA REGRESIÓN LOGÍSTICA

 

 

4. LA REGRESIÓN LOGÍSTICA

1. Clave de la regresión logística.

-Regresión logística: Un modelo estadístico que se utiliza para predecir la probabilidad de una variable dependiente categórica. En el caso de la regresión logística binaria, esta variable toma dos posibles valores (0 o 1, verdadero o falso, positivo o negativo).

- Función Sigmoide: El modelo de regresión logística utiliza la función sigmoide para transformar valores lineales en probabilidades (entre 0 y 1).

- Estimación de Máxima Verosimilitud: Se utiliza para estimar los coeficientes del modelo. Busca maximizar la probabilidad de observar los datos dados los parámetros del modelo.

- Odds Ratio: Los coeficientes de regresión logística se pueden interpretar como odds ratios, indicando cuánto aumenta o disminuye la probabilidad de la variable dependiente con una unidad de cambio en la variable independiente.

 2. Implementación en un Caso de Estudio

Supongamos un caso de estudio de diagnóstico médico, donde queremos clasificar si un paciente tiene o no una enfermedad en función de ciertas características (datos ficticios).

Pasos:

1. Preparación de Datos: Crear un conjunto de datos ficticio.

2. Construcción del Modelo: Implementar la regresión logística.

3. Entrenamiento del Modelo: Ajustar el modelo con los datos.

4. Predicción y Evaluación: Utilizar el modelo para hacer predicciones y evaluar su rendimiento.

3. Interpretación de los Coeficientes y Evaluación del Modelo

- Interpretación de Coeficientes: Los coeficientes indican el cambio en el logaritmo de odds de la variable dependiente por una unidad de cambio en la variable independiente.

- Evaluación del Modelo: Comúnmente se usan métricas como la precisión, la sensibilidad, la especificidad, el área bajo la curva ROC (AUC-ROC) y la matriz de confusión para evaluar el modelo.

 Utilizando Python, se crea datos ficticios y luego construyendo el modelo de regresión logística. Además, incluye gráficos para una mejor interpretación de los resultados.


 

La implementación de la regresión logística en nuestro caso de estudio ficticio de diagnóstico médico ha generado resultados interesantes.

Evaluación del Modelo

Aquí está el reporte de clasificación:


 

- Precisión: Indica la proporción de predicciones correctas entre las predicciones totales. Por ejemplo, la precisión para "Enfermedad" es del 100%.

- Recall (Sensibilidad): Muestra cuántos casos reales de cada clase fueron identificados correctamente. Por ejemplo, solo el 50% de los casos reales de "Enfermedad" fueron identificados.

- F1-Score: Es el promedio armónico de la precisión y el recall, útil cuando se necesita un balance entre estas métricas.

- Accuracy (Exactitud): Muestra el porcentaje total de predicciones correctas, que es del 90% en este caso.

El modelo tiene una alta precisión pero una sensibilidad moderada para la clase "Enfermedad", lo que sugiere que es bueno identificando a los no enfermos pero no tan eficiente en identificar a todos los enfermos.

Interpretación de los Coeficientes

Los coeficientes del modelo son: `[0.207 (para la edad), 1.343 (para el nivel de sangre)]`. Estos coeficientes representan el cambio en el logaritmo de odds de tener la enfermedad por cada unidad de cambio en las variables correspondientes. Un coeficiente mayor implica un mayor impacto en la probabilidad de la presencia de la enfermedad. Por ejemplo, el nivel de sangre tiene un impacto más significativo en la probabilidad de tener la enfermedad que la edad.

Gráfico: Matriz de Confusión

La matriz de confusión visualizada muestra la cantidad de predicciones correctas e incorrectas con respecto a las categorías reales.

![Matriz de Confusión](attachment:image.png)

En este gráfico, los valores a lo largo de la diagonal principal (de arriba a la izquierda a abajo a la derecha) representan las clasificaciones correctas, mientras que los otros valores indican los errores de clasificación.

 

Entonces se puede indicar que implementado y evaluado un modelo de regresión logística para un caso de estudio ficticio, proporciona insights valiosos tanto sobre la interpretación de los coeficientes como sobre la evaluación del rendimiento del modelo.

La función sigmoide, también conocida como función logística, juega un papel crucial en la regresión logística. Es una función matemática que tiene la forma `S(x) = 1 / (1 + e^(-x))`, donde `e` es la base del logaritmo natural. La característica más importante de la función sigmoide es su capacidad para convertir cualquier número real en un valor entre 0 y 1, lo que la hace ideal para modelar probabilidades.

 

Características de la Función Sigmoide

- Rango entre 0 y 1: Esto la hace útil para situaciones donde necesitamos una probabilidad (como en la regresión logística).

- Forma de "S": La curva tiene una forma de "S", siendo plana en los extremos y más empinada en el centro.

- Simetría: La función es simétrica alrededor de `x = 0`.

Ahora, voy a realizar un script en Python que demuestre la función sigmoide. Crearé un conjunto de datos ficticios, aplicaré la función sigmoide a estos datos y luego los graficaré para visualizar su comportamiento.

Ejemplo con Datos Ficticios

1. Generar Datos Ficticios: Crear una serie de valores `x` que van desde un valor negativo a un valor positivo.

2. Aplicar la Función Sigmoide: Calcular `S(x)` para cada valor de `x`.

3. Graficar la Función Sigmoide: Mostrar cómo `S(x)` varía con `x`.


El gráfico anterior muestra la función sigmoide aplicada a un conjunto de datos ficticios. En este gráfico, el eje horizontal (`X`) representa los valores de entrada y el eje vertical (`Sigmoid(X)`) muestra el resultado de la función sigmoide para esos valores.

Observaciones del Gráfico

- Forma de "S": La función tiene una clara forma de "S". Esto es característico de la función sigmoide.

- Rango entre 0 y 1: Todos los valores de salida de la función sigmoide están en el rango de 0 a 1, lo que la hace ideal para representar probabilidades.

- Punto de Inflexión: La curva tiene un punto de inflexión en `X = 0`, donde `Sigmoid(X) = 0.5`. Aquí, la curva cambia de cóncava a convexa.

Aplicación en Regresión Logística

En la regresión logística, esta función se utiliza para convertir la combinación lineal de las variables de entrada en una probabilidad. Por ejemplo, si tenemos un modelo de regresión logística con variables `X1`, `X2`, ..., `Xn` y coeficientes `B1`, `B2`, ..., `Bn`, la probabilidad de que la variable dependiente sea 1 se calcula como `Sigmoid(B1*X1 + B2*X2 + ... + Bn*Xn)`.

Esta propiedad es fundamental porque permite al modelo de regresión logística trabajar con una salida probabilística, lo que es crucial en tareas de clasificación binaria, como determinar si un paciente tiene una enfermedad o no, basándose en ciertos indicadores de salud.


Utilizando este código nos da la graficación en google colap lo siguiente:



Comentarios

Entradas más populares de este blog

5. Aplicación Práctica: Árboles de Decisión (Aprendizaje Supervisado)

7. EXPLICACIÓN DEL ALGORITMO DE K-MEANS