Tema
RDA2 T1
Instrucciones
Script en pyspark
- Escribe un script de pyspark que lea un archivo .csv (puede ser sintético), filtre los datos, y calcule la media de una columna numérica.
- Ejecuta localmente en un entorno configurado o en Google Colab/SparkSession con findspark
Comparativa: MapReduce vs Spark
Responde las siguientes preguntas:
- ¿Cuál es más eficiente en tareas iterativas?
- ¿Cómo maneja la memoria?
- ¿Qué ventajas ofrece el DAG de spark?