QUI/75/202502/V/EV/NV05/NV05-01-10/N0022-06/2105/TPR: Tarea 1 Clase 4 | EVA PUCE POSGRADOS MAESTRIASENLINEA 2025-2025

Apertura: miércoles, 30 de julio de 2025, 00:00

Cierre: martes, 3 de febrero de 2026, 23:59

Tema

Procesamiento de Datos con Spark Core desde HDFS

Instrucciones

Datos:

Crea un archivo .csv con siguiente estructura

Súbelo a HDFS

Carga de Datos desde HDFS:

Carga el archivo CSV usuarios.csv desde HDFS en un DataFrame de Spark.

Transformaciones:

Usa una transformación select para seleccionar solo las columnas id y edad.

Usa una transformación filter para filtrar solo a los usuarios con edad mayor a 30 años.

Usa una transformación withColumn para crear una nueva columna llamada edad_doble que contenga el doble de la edad de cada usuario.

Acciones:

Usa una acción show() para mostrar las primeras 5 filas del DataFrame resultante después de las transformaciones.

Usa una acción count() para contar cuántos usuarios tienen más de 30 años.

Escritura de Resultados a HDFS:

Escribe el DataFrame resultante (usuarios con edad mayor a 30 y columna edad_doble) en un nuevo archivo CSV en HDFS en la ruta /user/usuario/resultados_usuarios/. Revisa la documentación de spark

Guarda los comandos usados y las salidas obtenidas en un archivo .pdf, comenta el código para saber qué es lo que se hizo.

Tipo de entrega: Archivo en PDF

Practica-4-Spark-Sección-4.1.pdf
7 de enero de 2026, 17:55