4. LA REGRESIÓN LOGÍSTICA
4. LA REGRESIÓN LOGÍSTICA
1.
Clave de la regresión logística.
-Regresión
logística: Un modelo estadístico que se utiliza para predecir la
probabilidad de una variable dependiente categórica. En el caso de la regresión
logística binaria, esta variable toma dos posibles valores (0 o 1, verdadero o
falso, positivo o negativo).
-
Función Sigmoide: El modelo de regresión logística utiliza la
función sigmoide para transformar valores lineales en probabilidades (entre 0 y
1).
- Estimación de Máxima Verosimilitud: Se utiliza para estimar los
coeficientes del modelo. Busca maximizar la probabilidad de observar los datos
dados los parámetros del modelo.
-
Odds Ratio: Los coeficientes de regresión logística se
pueden interpretar como odds ratios, indicando cuánto aumenta o disminuye la
probabilidad de la variable dependiente con una unidad de cambio en la variable
independiente.
2. Implementación en un Caso de Estudio
Supongamos un caso de
estudio de diagnóstico médico, donde queremos clasificar si un paciente tiene o
no una enfermedad en función de ciertas características (datos ficticios).
Pasos:
1. Preparación de Datos:
Crear un conjunto de datos ficticio.
2. Construcción del Modelo:
Implementar la regresión logística.
3. Entrenamiento del Modelo:
Ajustar el modelo con los datos.
4. Predicción y Evaluación:
Utilizar el modelo para hacer predicciones y evaluar su rendimiento.
3.
Interpretación de los Coeficientes y Evaluación del Modelo
-
Interpretación de Coeficientes: Los coeficientes indican el
cambio en el logaritmo de odds de la variable dependiente por una unidad de
cambio en la variable independiente.
-
Evaluación del Modelo: Comúnmente se usan métricas como la
precisión, la sensibilidad, la especificidad, el área bajo la curva ROC
(AUC-ROC) y la matriz de confusión para evaluar el modelo.
Utilizando Python, se crea datos ficticios y luego construyendo el
modelo de regresión logística. Además, incluye gráficos para una mejor
interpretación de los resultados.
La implementación de la
regresión logística en nuestro caso de estudio ficticio de diagnóstico médico
ha generado resultados interesantes.
Evaluación
del Modelo
Aquí está el reporte de
clasificación:
-
Precisión: Indica la proporción de predicciones correctas entre las
predicciones totales. Por ejemplo, la precisión para "Enfermedad" es
del 100%.
-
Recall (Sensibilidad): Muestra cuántos casos reales de cada
clase fueron identificados correctamente. Por ejemplo, solo el 50% de los casos
reales de "Enfermedad" fueron identificados.
-
F1-Score: Es el promedio armónico de la precisión y el recall,
útil cuando se necesita un balance entre estas métricas.
-
Accuracy (Exactitud): Muestra el porcentaje total de predicciones
correctas, que es del 90% en este caso.
El modelo tiene una alta
precisión pero una sensibilidad moderada para la clase "Enfermedad",
lo que sugiere que es bueno identificando a los no enfermos pero no tan
eficiente en identificar a todos los enfermos.
Interpretación
de los Coeficientes
Los coeficientes del modelo
son: `[0.207 (para la edad), 1.343 (para
el nivel de sangre)]`. Estos coeficientes representan el cambio en el
logaritmo de odds de tener la enfermedad por cada unidad de cambio en las
variables correspondientes. Un coeficiente mayor implica un mayor impacto en la
probabilidad de la presencia de la enfermedad. Por ejemplo, el nivel de sangre
tiene un impacto más significativo en la probabilidad de tener la enfermedad
que la edad.
Gráfico:
Matriz de Confusión
La matriz de confusión
visualizada muestra la cantidad de predicciones correctas e incorrectas con
respecto a las categorías reales.

En este gráfico, los valores
a lo largo de la diagonal principal (de arriba a la izquierda a abajo a la
derecha) representan las clasificaciones correctas, mientras que los otros
valores indican los errores de clasificación.
Entonces se puede indicar
que implementado y evaluado un modelo de regresión logística para un caso de
estudio ficticio, proporciona insights valiosos tanto sobre la interpretación
de los coeficientes como sobre la evaluación del rendimiento del modelo.
La función sigmoide, también
conocida como función logística, juega un papel crucial en la regresión
logística. Es una función matemática que tiene la forma `S(x) = 1 / (1 +
e^(-x))`, donde `e` es la base del logaritmo natural. La característica más
importante de la función sigmoide es su capacidad para convertir cualquier
número real en un valor entre 0 y 1, lo que la hace ideal para modelar
probabilidades.
Características
de la Función Sigmoide
-
Rango entre 0 y 1: Esto la hace útil para situaciones donde
necesitamos una probabilidad (como en la regresión logística).
-
Forma de "S": La curva tiene una forma de
"S", siendo plana en los extremos y más empinada en el centro.
-
Simetría: La función es simétrica alrededor de `x = 0`.
Ahora, voy a realizar un
script en Python que demuestre la función sigmoide. Crearé un conjunto de datos
ficticios, aplicaré la función sigmoide a estos datos y luego los graficaré
para visualizar su comportamiento.
Ejemplo
con Datos Ficticios
1.
Generar Datos Ficticios: Crear una serie de valores `x` que van
desde un valor negativo a un valor positivo.
2.
Aplicar la Función Sigmoide: Calcular `S(x)` para cada
valor de `x`.
3.
Graficar la Función Sigmoide: Mostrar cómo `S(x)` varía con
`x`.
El gráfico anterior muestra
la función sigmoide aplicada a un conjunto de datos ficticios. En este gráfico,
el eje horizontal (`X`) representa los valores de entrada y el eje vertical
(`Sigmoid(X)`) muestra el resultado de la función sigmoide para esos valores.
Observaciones
del Gráfico
-
Forma de "S": La función tiene una clara forma de
"S". Esto es característico de la función sigmoide.
-
Rango entre 0 y 1: Todos los valores de salida de la función
sigmoide están en el rango de 0 a 1, lo que la hace ideal para representar
probabilidades.
-
Punto de Inflexión: La curva tiene un punto de inflexión en `X =
0`, donde `Sigmoid(X) = 0.5`. Aquí, la curva cambia de cóncava a convexa.
Aplicación
en Regresión Logística
En la regresión logística,
esta función se utiliza para convertir la combinación lineal de las variables
de entrada en una probabilidad. Por ejemplo, si tenemos un modelo de regresión
logística con variables `X1`, `X2`, ..., `Xn` y coeficientes `B1`, `B2`, ...,
`Bn`, la probabilidad de que la variable dependiente sea 1 se calcula como
`Sigmoid(B1*X1 + B2*X2 + ... + Bn*Xn)`.
Esta propiedad es
fundamental porque permite al modelo de regresión logística trabajar con una
salida probabilística, lo que es crucial en tareas de clasificación binaria,
como determinar si un paciente tiene una enfermedad o no, basándose en ciertos
indicadores de salud.
Utilizando este código nos
da la graficación en google colap lo siguiente:
Comentarios
Publicar un comentario