5. Aplicación Práctica: Árboles de Decisión (Aprendizaje Supervisado)
5. APLICACIÓN PRÁCTICA: ÁRBOLES DE DECISIÓN (APRENDIZAJE SUPERVISADO)
Los árboles de decisión son
modelos predictivos muy populares en el aprendizaje automático debido a su
facilidad de interpretación y su aplicabilidad en tareas tanto de clasificación
como de regresión. A continuación, describo los fundamentos de los árboles de
decisión y cómo crear uno paso a paso, incluyendo la importancia de las
características y la poda del árbol, con un script que puedes ejecutar en
Google Colab.
Fundamentos
de los Árboles de Decisión
1.
Estructura de un Árbol de Decisión:
-Nodos
de decisión: Representan una prueba en una característica.
- Ramas:
Corresponden al resultado de una prueba y conectan a otro nodo o hoja.
- Nodos
hoja: Representan una decisión o resultado final.
2.
Proceso de Decisión:
- Se comienza en el nodo raíz y se evalúan
las características de la instancia a clasificar.
- Según el resultado de la evaluación, se
sigue la rama correspondiente hasta llegar a un nodo hoja, que da la
clasificación.
3.
Creación del Árbol:
- Se selecciona la característica que
proporciona la mayor ganancia de información o la menor entropía para dividir
el conjunto de datos.
- Este proceso se repite de manera recursiva
para cada subdivisión hasta que se cumplen los criterios de parada (por
ejemplo, que no haya más características, que todas las instancias en una rama
sean de la misma clase, o que se alcance una profundidad máxima del árbol).
4.
Poda:
- Se refiere a la eliminación de partes del
árbol que no aportan mucho a la capacidad de predicción. Esto ayuda a prevenir
el sobreajuste.
- Puede realizarse durante la construcción
del árbol (poda pre-pruning) o después de haberlo construido (poda
post-pruning).
Creación de un Árbol de Decisión para un
Conjunto de Datos Específico
Imaginemos que queremos
clasificar clientes en dos categorías: aquellos que repiten compra y los que
no, basándonos en características como la edad, el ingreso anual y el puntaje
de gastos.
Para crear un árbol de
decisión, seguiríamos estos pasos en Google Colab con un script de Python
utilizando la biblioteca `scikit-learn`:
1.
Preparar el Conjunto de Datos:
- Supongamos que tenemos un DataFrame
llamado `clientes_df` con las
columnas 'Edad', 'Ingreso_Anual', 'Puntaje_Gastos', 'Repite_Compra'.
2.
Dividir los Datos:
- Dividir el conjunto en características (X)
y etiquetas (y), siendo 'Repite_Compra' nuestra etiqueta.
3.
Entrenar el Modelo:
- Utilizar `DecisionTreeClassifier` de
`scikit-learn` para entrenar el árbol.
4.
Evaluar la Importancia de las Características:
- Verificar qué características están
contribuyendo más a las decisiones del árbol.
5.
Poda del Árbol:
- Ajustar parámetros como `max_depth` o
`min_samples_split` para optimizar el rendimiento del árbol y prevenir
sobreajuste.
Script
de Ejemplo
Aquí hay un script de
ejemplo que puedes usar en Google Colab:


Comentarios
Publicar un comentario