为数据科学项目选择最佳编程语言技术新闻

2018-05-02

大数据和数据分析是这十年来最热门的技术趋势。就商业应用而言,工程师使用的语言没有多大意义。但是,雇主的IT文化和个人喜好会根据IT专业人士选择的语言而改变。

在为大数据项目选择语言时需要考虑的最重要的因素是项目的目标。如果您操纵数据,测试机器学习模型和构建分析,则无需选择最适合该任务的语言。有一套语言擅长运作大数据或物联网应用程序。大多数数据科学专业人员更喜欢同样使用R语言。

如果该项目涉及数据科学的探索和开发,则使用的最流行的语言是Python。有许多可以使用的Python工具和库。探索大数据集的专业人员经常选择Python而不是其他任何东西。该语言最近被IEEE Spectrum评为第一。事实上,Python被广泛用作数据科学之外的一种通用语言。

专业人士使用的参考笔记本经常成为首选编程语言的决定性因素。 iPython笔记本和Jupyter与Python紧密结合,但它也支持Julia,R和Scala。另一款流行的笔记本,Apache Zeppelin包括SparkSQL,Scala和Python。

MapR的高级软件工程师Smith Panchamia说:“像C / C ++这样的本机语言比应用自动内存管理的语言对应用程序的内存和性能特征提供了更严格的控制。一个编写良好的C ++程序可以比依赖垃圾收集的Java程序运行快几倍,这个程序可以深入了解内存访问模式和机器的体系结构。由于这些原因,与Java相比,许多具有大规模可伸缩性和性能需求的企业开发人员倾向于在他们的服务器应用程序中使用C / C ++。 “

彭博重度依赖Python进行数据科学项目。但从本质上讲,它总是基于C ++。彭博社数据科学负责人吉迪恩曼说:“大多数时候我们正在进行数据科学研究,其实是构建机器学习产品。由于我们拥有所有这些实时延迟约束,因此我们不希望使用Python或Java之类的东西,而您将在那里进行垃圾回收。你需要对中间滞后有点担心。通过构建C ++中的所有内容,您可以部署它并拥有相当数量的延迟保证。 “

- Rajat Kabade