Cómo preparar tu ordenador para trabajar con Spark / PySpark y AWS, paso a paso.

Aquí va.

brew install hadoop
set export PYSPARK_PYTHON=python3
Si por alguna razón PySpark estabas usando Python 2… export PYSPARK_DRIVER_PYTHON=python3
Comprobar las versiones
1. python3 --version
2. pyspark -v
3. hadoop version

6. Encontrar donde guarda PySpark los jars en tu máquina. Por ejemplo yo hice:
> find / -name jars
y encontré jars en dos sitios:
> /usr/local/lib/python3.8/site-packages/pyspark/jars
> /usr/local/lib/python3.7/site-packages/pyspark/jars
I decidí usar `/usr/local/lib/python3.8/site-packages/pyspark/jars` because it matched my `python3` version.

7. Usar el Maven Repository https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws para buscar los AWS SDK jars que van con mi versión de hadoop. (Para mí: https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/3.3.0 (Hadoop 3.3.0)

8. No olvidar las dependencias de los AWS SDK jars.

9. Descargar los jars y los jars de las dependencias y copiarlos a la carpeta de los PySpark jars

DataTadpole.com

Cómo preparar tu ordenador para trabajar con Spark / PySpark y AWS, paso a paso.

Like this:

Leave a ReplyCancel reply

DataTadpole.com

Share this:

Like this:

Leave a ReplyCancel reply

Discover more from DataTadpole.com