Tema
RDA2 T2
Instrucciones
Configuración del entorno Spark
- Usa Google Colab, Jupyter Notebook con findspark, o una VM con Spark instalado.
- Crea una SparkSession y verifica la configuración del entorno.
Carga y exploración de datos
- Utiliza un dataset público (csv, json, txt) como logs de transacciones, usuarios o registros de eventos.
- Cárgalo como RDD (opcionalmente como DataFrame también) y explora la estructura.
Aplica transformaciones narrow
Aplica al menos 3 transformaciones narrow como:
- Map()
- Filter()
- Union()
Aplicar transformaciones wide
- ReduceByKey()
- GroupByKey()
- Join()
Aplicar acciones sobre los RDD:
- Collect
- Count()
- Take(n)
- SaveAsTextFile()
Explica cada paso
- Incluye comentarios explicativos en el código