8. REDUCCIÓN DE DIMENSIONALIDAD UTILIZANDO EL ALGORITMO PCA (ANÁLISIS DE COMPONENTES PRINCIPALES)
8. REDUCCIÓN DE
DIMENSIONALIDAD UTILIZANDO EL ALGORITMO PCA (ANÁLISIS DE COMPONENTES
PRINCIPALES)
El Análisis de Componentes
Principales (PCA, por sus siglas en inglés) es un método estadístico utilizado
para reducir la dimensionalidad de un conjunto de datos, preservando al mismo
tiempo la mayor cantidad de variabilidad posible. A continuación, te presento
un desarrollo paso a paso para aplicar PCA utilizando Python:
1. Importar Librerías
Primero, importaremos las
librerías necesarias:
2.
Crear un Conjunto de Datos Ficticio
Generaremos un conjunto de
datos con alta dimensionalidad para aplicar PCA:
3.
Aplicar PCA
Utilizaremos PCA para
reducir la dimensionalidad de los datos:
4.
Visualizar los Resultados
Graficaremos los datos
después de aplicar PCA:
5.
Explicar la Varianza
Es importante entender
cuánta información (varianza) se ha conservado después de la reducción:
Código
Completo
Aquí está el código completo
para la reducción de dimensionalidad utilizando PCA:
Este script te permitirá ver
cómo PCA puede simplificar un conjunto de datos de alta dimensionalidad a una
representación de menor dimensionalidad, facilitando su visualización y
análisis.
Llevando a google colap se
muestra el siguiente gráfico:
También
se puede explicar de la siguiente manera:
El Análisis de Componentes Principales (PCA) es una técnica de
reducción de dimensionalidad ampliamente utilizada en la estadística y el
aprendizaje automático. Su objetivo es transformar un conjunto de datos en un
nuevo conjunto de variables (llamadas componentes principales) de manera que
estas variables expliquen la mayor varianza posible en los datos originales.
Esto permite reducir la dimensionalidad del conjunto de datos mientras se
conserva la mayor cantidad de información importante.
El
proceso de PCA implica los siguientes pasos:
1. Estandarización de datos: Primero, es común estandarizar los datos,
es decir, centrarlos en cero y escalarlos para tener una varianza unitaria.
2. Cálculo de matriz de covarianza: Luego, se calcula la
matriz de covarianza de los datos estandarizados.
3. Cálculo de los vectores y valores propios: A continuación, se
calculan los vectores propios (componentes principales) y los valores propios
de la matriz de covarianza.
4. Selección de componentes principales: Se eligen los primeros
k componentes principales que explican la mayor parte de la varianza en los
datos. Usualmente, se ordenan los componentes en orden descendente de sus valores
propios.
5. Proyección de datos: Finalmente, los datos originales se proyectan en el espacio
definido por los componentes principales seleccionados.
El
PCA es útil para reducir la dimensionalidad de datos, eliminar la
multicolinealidad, y visualizar datos en un espacio de menor dimensión. También
se utiliza en tareas como la compresión de imágenes y la eliminación de ruido.







Comentarios
Publicar un comentario