PySpark先容及其安装教程

分享
计算机软件开发 2024-9-8 05:56:46 54 0 来自 中国
一、PySpark是什么

Python PySpark是Spark官方提供的一个Python类库,此中内置了完全的Spark API,使得Python用户在导入这个类库后,可以利用本身认识的Python语言来编写Spark应用步伐,并终极将步伐提交到Spark集群运行。
PySpark是基于Python语言开辟的类库,仅支持在单机情况下供Python用户开辟调试利用,必要将步伐提交到Spark集群上才气利用Spark集群分布式的本领处置惩罚大规模的数据处置惩罚使命。
二、为什么要利用PySpark

在原先的文章中,我们先容过Spark支持多语言开辟应用步伐,好比Scala、Python、Java、R、SQL等,数据处置惩罚与分析方向有许多人都风俗和蔼于利用Python,Spark官方为了方便这些用户利用Spark,因此选择支持Python语言,而PySpark就是官方为了让Python用户更方便地利用Spark而开辟出来的类库。Python用户不必要编写复杂的底层逻辑,只必要调用PySpark的API即可。
三、怎样利用PySpark

3.1 PySpark开辟情况搭建

本文基于Windows 64位操纵体系举行PySpark的安装演示。
预先条件:安装好JDK运行情况。
1 Python情况搭建

如今主流的方式都是通过Anaconda来管理本身的Python情况了,我们从官网大概国内清华的源下载下来安装包,这里选择利用最新的23年3月更新的版本。
在本身以为符合的位置安装Anaconda即可,假设这里安装的位置是D盘。安装完成后必要设置Path的如下情况变量:
D:\anaconda3D:\anaconda3\ScriptsD:\anaconda3\Library\mingw-w64\binD:\anaconda3\Library\usr\binD:\anaconda3\Library\bin设置完成后,我们在下令行输入测试下令:
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-10-19 11:43, Processed in 0.144204 second(s), 32 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表