随着数据对公司的成功比以往任何时候都重要,Python正在向数据专业人员的领域扩展,并被业务分析师和其他技术水平较低的用户所采用。但是,如果您对Python相对陌生,那么有哪些机会呢?您应该注意哪些最佳实践来确保您的成功?
数据专业人员是一种珍贵的商品,在许多组织中,业务需求已经超过了数据团队的资源和能力。与此同时,业务分析人员也遇到了BI工具所能做的限制,他们正在寻找更高级的分析方法。Python是这里成功的关键。
Python的使用正在快速增长。在一个调查在今年早些时候超过2万名开发者中,Python在受欢迎程度方面仅次于JavaScript,并且Python在过去的六个月里增加了330万净新用户,在全球范围内达到1570万用户。
近年来,Python社区创建了新的框架和包,使非专业开发人员更容易使用该语言进行高级分析、机器学习和应用程序开发。例子包括NumPy,一个用于数值数据的开源Python库;先知,用于进行预测,以及H3这个项目始于优步(Uber),目的是操纵地理空间数据。
Python向非专业开发人员的传播并非没有先例。随着自助服务BI工具的兴起,以及业务人员学习编写自己的Excel宏,也出现了类似的模式。Python的扩展使用将产生更大的影响,因为该语言本身功能强大。
Python分析入门
业务用户通常比专业开发人员更了解哪些具体的见解对他们的业务部门最有帮助,并且有几个入门级用例可以让他们开始使用Python。下面是三个例子:
相关矩阵
相关矩阵是显示不同变量的相关系数的表格。这可以让你分析数据集的不同维度,以确定一个表现出行为a的人是否也可能表现出行为b,例如,相关矩阵对于确定在杂货店中哪些商品应该放在彼此附近,或者当电子商务用户结账时提供哪些额外的商品是有用的。
主成分分析
另一个可能的起点是主成分分析,它可以减少有噪声的数据集的大小,并确定哪些属性对给定的结果具有最大的预测能力。例如,如果一家公司出售抵押贷款,主成分分析可以揭示哪些人口统计因素(收入、邮政编码、婚姻状况等)最能预测销售,有助于有针对性的活动和优惠。
预测
企业面临的另一个常见问题是预测。考虑预测客户需求、销售或收入,所有成熟的企业都需要这样做。建筑预测是一种探索预测分析的方法,使用开源库,如Prophet或Scikit-Learn在Python中。
正如他们所说,强大的能力带来巨大的责任,Python新用户应该采用一些最佳实践,以确保他们构建的应用程序是健壮和安全的。
Python护理和喂养
其中一个问题是维护Python包以确保依赖关系得到适当的管理。Anaconda在这里很有帮助,因为它极大地简化了包的管理和部署。使用Snowflake的Snowpark for Python,我们预装了来自Anaconda的最流行的Python包默认频道安装到Python运行时中,这样就不需要手动安装了。我们也积分了Conda包管理器到Snowpark来管理Python包及其依赖项。
与任何数据项目一样,需要注意安全性和治理问题,但现代云数据平台提供了一个已经设置和配置好的运行时,用户可以利用这些平台内置的安全性和治理功能。例如,Snowpark中的Python运行时默认情况下不允许外部网络访问,以防止常见的安全问题,如数据泄露。与创建和维护自己的环境或容器相比,对于Python新手用户来说,使用预先配置的安全Python运行时(如Snowpark)要容易得多。
现在还处于早期阶段,随着时间的推移,我希望出现更多专门针对非专业开发人员的Python工具和资源。需要改进的一个领域是Python用户与不想自己学习这门语言的同事共享工作成果的方法。雪花收购Streamlit在一定程度上就是为了解决这个问题。这个开源工具允许数据团队构建应用程序,为非技术用户可视化地呈现数据。Python本身是一种构建应用程序的强大语言,因此在为最终用户构建数据应用程序时使用它将使该语言得到更广泛的采用。
首先,RealPython提供了一个全面的初学者的指南到Python,以及全堆栈Python链接到许多资源在这里.Python软件基金会有一个活跃的社区在这里,有经验的用户为所有能力水平提供建议和回答问题。
如果您是雪花用户,请阅读我们的Snowpark开发环境在这里,它本身支持Python开发。你也可以加入其中一个雪花社区用户组,他们安排聚会讨论技术发展和机遇。
Torsten Grabs是公司的产品管理总监雪花.
- - - - - -
新技术论坛提供了一个以前所未有的深度和广度探索和讨论新兴企业技术的场所。这个选择是主观的,基于我们认为重要的、InfoWorld读者最感兴趣的技术。《资讯世界》不接受营销宣传,并保留编辑所有投稿内容的权利。将所有查询发送至newtechforum@infoworld.com.