Cómo preparar tu ordenador para trabajar con Spark / PySpark y AWS, paso a paso.

Aquí va.

  1. brew install hadoop
  2. set export PYSPARK_PYTHON=python3
  3. Si por alguna razón PySpark estabas usando Python 2… export PYSPARK_DRIVER_PYTHON=python3
  4. Comprobar las versiones
    1. python3 --version
    2. pyspark -v
    3. hadoop version

6. Encontrar donde guarda PySpark los jars en tu máquina. Por ejemplo yo hice:
> find / -name jars
y encontré jars en dos sitios:
> /usr/local/lib/python3.8/site-packages/pyspark/jars
> /usr/local/lib/python3.7/site-packages/pyspark/jars
I decidí usar `/usr/local/lib/python3.8/site-packages/pyspark/jars` because it matched my `python3` version.

7. Usar el Maven Repository https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws para buscar los AWS SDK jars que van con mi versión de hadoop. (Para mí:  https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/3.3.0 (Hadoop 3.3.0)

8. No olvidar las dependencias de los AWS SDK jars.

9. Descargar los jars y los jars de las dependencias y copiarlos a la carpeta de los PySpark jars

Leave a Reply