Aquí va.
brew install hadoop
set export PYSPARK_PYTHON=python3
- Si por alguna razón PySpark estabas usando Python 2…
export PYSPARK_DRIVER_PYTHON=python3
- Comprobar las versiones
python3 --version
pyspark -v
hadoop version

6. Encontrar donde guarda PySpark los jars en tu máquina. Por ejemplo yo hice:> find / -name jars
y encontré jars en dos sitios:
> /usr/local/lib/python3.8/site-packages/pyspark/jars
> /usr/local/lib/python3.7/site-packages/pyspark/jars
I decidí usar `/usr/local/lib/python3.8/site-packages/pyspark/jars
` because it matched my `python3` version.
7. Usar el Maven Repository https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws para buscar los AWS SDK jars que van con mi versión de hadoop. (Para mí: https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/3.3.0 (Hadoop 3.3.0)
8. No olvidar las dependencias de los AWS SDK jars.
9. Descargar los jars y los jars de las dependencias y copiarlos a la carpeta de los PySpark jars