Java8 Stream 数据流,大数据量下的性能效率

news/2024/5/18 23:14:12/文章来源:https://blog.csdn.net/xzknet/article/details/132849394

Java8 Stream 数据流,大数据量下的性能效率怎么样?

Stream 是 Java SE 8 类库中新增的关键抽象,它被定义于 java.util.stream (这个包里有若干流类型: Stream<T> 代表对象引用流,此外还有一系列特化流,如 IntStream,LongStream,DoubleStream 等 ),Java 8 引入的的 Stream 主要用于取代部分 Collection 的操作,每个流代表一个值序列,流提供一系列常用的聚集操作,可以便捷的在它上面进行各种运算。集合类库也提供了便捷的方式使我们可以以操作流的方式使用集合、数组以及其它数据结构。

1、stream 的操作种类

1.1 中间操作 

  • 当数据源中的数据上了流水线后,这个过程对数据进行的所有操作都称为“中间操作”;

  • 中间操作仍然会返回一个流对象,因此多个中间操作可以串连起来形成一个流水线;

  • stream 提供了多种类型的中间操作,如 filter、distinct、map、sorted 等等;

1.2 终端操作 

  • 当所有的中间操作完成后,若要将数据从流水线上拿下来,则需要执行终端操作;

  • stream 对于终端操作,可以直接提供一个中间操作的结果,或者将结果转换为特定的 collection、array、String 等;

2、stream 的特点

①只能遍历一次:

数据流的从一头获取数据源,在流水线上依次对元素进行操作,当元素通过流水线,便无法再对其进行操作,可以重新在数据源获取一个新的数据流进行操作;

②采用内部迭代的方式:

对 Collection 进行处理,一般会使用 Iterator 遍历器的遍历方式,这是一种外部迭代;

而对于处理 Stream,只要申明处理方式,处理过程由流对象自行完成,这是一种内部迭代,对于大量数据的迭代处理中,内部迭代比外部迭代要更加高效;

3、stream 相对于 Collection 的优点

  • 无存储:流并不存储值;流的元素源自数据源(可能是某个数据结构、生成函数或 I/O 通道等等),通过一系列计算步骤得到;

  • 函数式风格:对流的操作会产生一个结果,但流的数据源不会被修改;

  • 惰性求值:多数流操作(包括过滤、映射、排序以及去重)都可以以惰性方式实现。这使得我们可以用一遍遍历完成整个流水线操作,并可以用短路操作提供更高效的实现;

  • 无需上界:不少问题都可以被表达为无限流(infinite stream):用户不停地读取流直到满意的结果出现为止(比如说,枚举 完美数 这个操作可以被表达为在所有整数上进行过滤);集合是有限的,但流可以表达为无线流;

  • 代码简练:对于一些 collection 的迭代处理操作,使用 stream 编写可以十分简洁,如果使用传统的 collection 迭代操作,代码可能十分啰嗦,可读性也会比较糟糕;

4、stream 和 iterator 迭代的效率比较

好了,上面 stream 的优点吹了那么多,stream 函数式的写法是很舒服,那么 steam 的效率到底怎样呢?

先说结论:

  • 传统 iterator (for-loop) 比 stream(JDK8) 迭代性能要高,尤其在小数据量的情况下;

  • 在多核情景下,对于大数据量的处理,parallel stream 可以有比 iterator 更高的迭代处理效率;

我分别对一个随机数列 List (数量从 10 到 10000000)进行映射、过滤、排序、规约统计、字符串转化场景下,对使用 stream 和 iterator 实现的运行效率进行了统计,测试代码 基准测试代码链接

测试环境如下:

System:Ubuntu 16.04 xenial

CPU:Intel Core i7-8550U

RAM:16GB

JDK version:1.8.0_151

JVM:HotSpot(TM) 64-Bit Server VM (build 25.151-b12, mixed mode)

JVM Settings:

    -Xms1024m

    -Xmx6144m

    -XX:MaxMetaspaceSize=512m

    -XX:ReservedCodeCacheSize=1024m

    -XX:+UseConcMarkSweepGC

    -XX:SoftRefLRUPolicyMSPerMB=100

4.1 映射处理测试

把一个随机数列(List<Integer>)中的每一个元素自增 1 后,重新组装为一个新的 List<Integer>,测试的随机数列容量从 10 - 10000000,跑 10 次取平均时间;

//streamList<Integer> result = list.stream().mapToInt(x -> x).map(x -> ++x).boxed().collect(Collectors.toCollection(ArrayList::new));//iteratorList<Integer> result = new ArrayList<>();for(Integer e : list){    result.add(++e);}//parallel streamList<Integer> result = list.parallelStream().mapToInt(x -> x).map(x -> ++x).boxed().collect(Collectors.toCollection(ArrayList::new));

4.2 过滤处理测试

取出一个随机数列(List<Integer>)中的大于 200 的元素,并组装为一个新的 List<Integer>,测试的随机数列容量从 10 - 10000000,跑 10 次取平均时间;

//streamList<Integer> result = list.stream().mapToInt(x -> x).filter(x -> x > 200).boxed().collect(Collectors.toCollection(ArrayList::new));//iteratorList<Integer> result = new ArrayList<>(list.size());for(Integer e : list){    if(e > 200){        result.add(e);    }}//parallel streamList<Integer> result = list.parallelStream().mapToInt(x -> x).filter(x -> x > 200).boxed().collect(Collectors.toCollection(ArrayList::new));

4.3 自然排序测试

对一个随机数列(List<Integer>)进行自然排序,并组装为一个新的 List<Integer>,iterator 使用的是 Collections # sort API(使用归并排序算法实现),测试的随机数列容量从 10 - 10000000,跑 10 次取平均时间;

//streamList<Integer> result = list.stream().mapToInt(x->x).sorted().boxed().collect(Collectors.toCollection(ArrayList::new));//iteratorList<Integer> result = new ArrayList<>(list);Collections.sort(result);//parallel streamList<Integer> result = list.parallelStream().mapToInt(x->x).sorted().boxed().collect(Collectors.toCollection(ArrayList::new));

4.4 归约统计测试

获取一个随机数列(List<Integer>)的最大值,测试的随机数列容量从 10 - 10000000,跑 10 次取平均时间;

//streamint max = list.stream().mapToInt(x -> x).max().getAsInt();//iteratorint max = -1;for(Integer e : list){    if(e > max){        max = e;    }}//parallel streamint max = list.parallelStream().mapToInt(x -> x).max().getAsInt();

4.5 字符串拼接测试

获取一个随机数列(List<Integer>)各个元素使用“,”分隔的字符串,测试的随机数列容量从 10 - 10000000,跑 10 次取平均时间;

//streamString result = list.stream().map(String::valueOf).collect(Collectors.joining(","));//iteratorStringBuilder builder = new StringBuilder();for(Integer e : list){    builder.append(e).append(",");}String result = builder.length() == 0 ? "" : builder.substring(0,builder.length() - 1);//parallel streamString result = list.stream().map(String::valueOf).collect(Collectors.joining(","));

4.6 混合操作测试

对一个随机数列(List<Integer>)进行去空值,除重,映射,过滤,并组装为一个新的 List<Integer>,测试的随机数列容量从 10 - 10000000,跑 10 次取平均时间;

//streamList<Integer> result = list.stream().filter(Objects::nonNull).mapToInt(x -> x + 1).filter(x -> x > 200).distinct().boxed().collect(Collectors.toCollection(ArrayList::new));//iteratorHashSet<Integer> set  = new HashSet<>(list.size());for(Integer e : list){    if(e != null && e > 200){        set.add(e + 1);    }}List<Integer> result = new ArrayList<>(set);//parallel streamList<Integer> result = list.parallelStream().filter(Objects::nonNull).mapToInt(x -> x + 1).filter(x -> x > 200).distinct().boxed().collect(Collectors.toCollection(ArrayList::new));

5、实验结果总结

从以上的实验来看,可以总结处以下几点:

  • 在少低数据量的处理场景中(size<=1000),stream 的处理效率是不如传统的 iterator 外部迭代器处理速度快的,但是实际上这些处理任务本身运行时间都低于毫秒,这点效率的差距对普通业务几乎没有影响,反而 stream 可以使得代码更加简洁;

  • 在大数据量(szie>10000)时,stream 的处理效率会高于 iterator,特别是使用了并行流,在 cpu 恰好将线程分配到多个核心的条件下(当然 parallel stream 底层使用的是 JVM 的 ForkJoinPool,这东西分配线程本身就很玄学),可以达到一个很高的运行效率,然而实际普通业务一般不会有需要迭代高于 10000 次的计算;

  • Parallel Stream 受引 CPU 环境影响很大,当没分配到多个 cpu 核心时,加上引用 forkJoinPool 的开销,运行效率可能还不如普通的 Stream;

6、使用 Stream 的建议

  • 简单的迭代逻辑,可以直接使用 iterator,对于有多步处理的迭代逻辑,可以使用 stream,损失一点几乎没有的效率,换来代码的高可读性是值得的;

  • 单核 cpu 环境,不推荐使用 parallel stream,在多核 cpu 且有大数据量的条件下,推荐使用 paralle stream;

  • stream 中含有装箱类型,在进行中间操作之前,最好转成对应的数值流,减少由于频繁的拆箱、装箱造成的性能损失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_550407.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

动画制作如何选择动作捕捉动画制作服务

近日&#xff0c;长宁ART PARK 大融城迎来了首位虚拟代言人“光艺”&#xff0c;拥有着极具感染力的笑容、数字人形象辨识度极高&#xff0c;在裸眼3D巨屏中&#xff0c;为市民带来虚实交互体验。而这种数字人动画的背后&#xff0c;大多以动作捕捉动画制作技术为主。 *素材源于…

LeetCode算法动态规划—剑指 Offer 10- II. 青蛙跳台阶问题

目录 剑指 Offer 10- II. 青蛙跳台阶问题 题解&#xff1a; 代码&#xff1a; 运行结果&#xff1a;​编辑 一只青蛙一次可以跳上1级台阶&#xff0c;也可以跳上2级台阶。求该青蛙跳上一个 n 级的台阶总共有多少种跳法。 答案需要取模 1e97&#xff08;1000000007&#xff…

MATLAB APP纯小白入门 两数相加

万事开头难&#xff0c;最怕第一次。使用matlab APP 实现两数求和&#xff0c;如下图所示&#xff0c;c a b&#xff0c;输入数字后&#xff0c;按 “” 就计算。 步骤 拖拽三个 Edit Field(Numeric) 过来&#xff0c;并且双击名字分别改为 a,b,c。注意修改名字后右边会有点变…

Python日志处理器,同时打印到控制台和保存到文件中,并保证格式一致

使用logging模块的时候&#xff0c;默认是输出到控制台的&#xff0c;当然也可以配置输出到文件中&#xff0c;但是当你配置了文件后&#xff0c;控制台的输出就消失了&#xff0c;所以&#xff0c;需要一个策略即能保存到文件中&#xff0c;又能输出到控制台中。 下面是我做的…

【计算机毕业设计】基于SpringBoot+Vue的流浪猫狗救助救援网站的设计与实现

博主主页&#xff1a;一季春秋博主简介&#xff1a;专注Java技术领域和毕业设计项目实战、Java、微信小程序、安卓等技术开发&#xff0c;远程调试部署、代码讲解、文档指导、ppt制作等技术指导。主要内容&#xff1a;毕业设计(Java项目、小程序等)、简历模板、学习资料、面试题…

求链表的倒数第k个节点

思路&#xff1a;利用快慢指针空间差 代码&#xff1a; struct ListNode* FindKthToTail(struct ListNode* pListHead, int k ) {// write code herestruct ListNode* slow pListHead;struct ListNode* fast pListHead;while(k--){if(fastNULL){return NULL;}fastfast->…

linux常用命令(4):mkdir命令(创建目录)

文章目录 一、命令简介二、命令格式三、常用示例 一、命令简介 mkdir&#xff08;make directories&#xff09;创建目录。 若指定目录不存在则创建目录。若指定目录已存在&#xff0c;则会提示已存在而不继续创建。 touch与mkdir的区别? 很多人可能会把这个搞混淆&#xff…

主动写入流对@ResponseBody注解的影响 | 京东云技术团队

问题回溯 2023年Q2某日运营反馈一个问题&#xff0c;商品系统商家中心某批量工具模板无法下载&#xff0c;导致功能无法使用&#xff08;因为模板是动态变化的&#xff09; 商家中心报错&#xff08;JSON串&#xff09;&#xff1a; {"code":-1,"msg":&…

如何成为一名“受欢迎”的数据科学家和机器学习工程师

《机器学习项目交付实战》将介绍如何从模型和数据中获取最佳性能&#xff0c;帮助你构建稳定的数据管道。通过高效的可复用技术集合&#xff0c;来确保应用程序工作流程的顺利执行&#xff0c;以及提高模型的可维护性。基于数十年的良好软件工程实践&#xff0c;机器学习工程可…

如何防盗版软件

有多少公司&#xff0c;至今都无法摆脱被盗版软件支配的恐惧&#xff1f; 其实大多数时候&#xff0c;企业都是被动当了大冤种&#xff0c;因为他们也并不会主动要求员工使用破解软件。实在是架不住有些不懂版权的、心存侥幸的员工私下里使用。只要公司联网&#xff0c;就一定…

【QT开发(5)】0919-QT里面新增ui类,新增使用opencv读取图片的普通类,在ui类中显示图片

参考资料 1、Qt Creator快速入门_第三版__霍亚飞编著 2、《QtOpenCV显示图片&#xff08;Mat转QImage然后显示在QLabel上&#xff09;》 输出材料 https://gitee.com/hiyanyx/qt5.14-cpp_-empty_-project/tree/508435b09ff1f794e650cba859b0db2323ec333a/ 新增文件布局 新…

API接口采集电商平台阿里巴巴中国站获得1688商品评论数据货品评分、评价内容接口调用指南

淘宝API商品评论接口&#xff0c;主要用于获取某个商品的评价信息。通过该接口&#xff0c;我们可以获取到商品的所有评价内容、评价时间、评价等级等相关信息&#xff0c;帮助我们更好地了解用户对商品的反馈&#xff0c;进而进行数据分析和业务优化。 1688.item_review-获得…

全国月子会所新标准宣贯会在京成功举办——首批5星级月子会所欧缇蔓上榜

全国月子会所行业标准宣贯会 2023年9月6日&#xff0c;全国月子会所新标准宣贯会在北京举行。大会特邀原卫生部副部长何界生、首医大北京妇产医院原院长陈宝英、中国关心下一代工作委员会秘书长李启民、中国优生优育协会副秘书长李伟、中国保护消费者基金会母婴工作委员会副主任…

GitHub平台 Bookget操作

以bookget为例&#xff0c;熟悉github平台。 https://github.com/deweizhu/bookget 选择该界面中的“Wiki”&#xff0c;右侧边栏中是文章的结构大纲。 下载bookget软件。 依照说明&#xff0c;安装bookget环境。

按摩软件仿东郊到家系统开发,上门预约系统;

按摩软件仿东郊到家系统开发&#xff0c;上门预约系统&#xff1b; 用户端、技师端、商家端&#xff0c;以及管理后台。上门预约的操作 1、技师管理。 技师满意度进行统一跟踪评估&#xff0c;进行分级管理&#xff0c;分级评估&#xff1b; 2、订单管理。 按订单状态分类筛选&…

由于找不到packet.dll,无法继续执行代码的多种解决方法分享

在计算机领域中&#xff0c;packet.dll是一个重要的动态链接库文件&#xff0c;它被用来进行网络数据包的捕获和分析。然而&#xff0c;有时我们可能会遇到packet.dll缺失的问题&#xff0c;这将导致我们无法正常执行代码。下面我们将为你详细介绍如何解决这个问题&#xff0c;…

轻松筛选与统计,掌握账户花销!精确记录明细,把握支出情况

尊敬的用户&#xff0c;您是否希望能够更好地了解自己的收支情况&#xff0c;掌握账户的花销情况&#xff1f;现在&#xff0c;我们为您提供一款便捷而精确的工具&#xff0c;让您轻松筛选并统计收支账户的总花销&#xff01; 首先&#xff0c;第一步&#xff0c;我们要进入晨…

工信部将制定虚拟宇宙标准

中国工业和信息化部(MIIT)周一表示&#xff0c;随着北京寻求成为新技术的全球标准制定者&#xff0c;中国将成立一个工作组来制定虚拟宇宙行业的标准。 周一&#xff0c;该部发布了一份提案草案&#xff0c;旨在组建一个虚拟宇宙工作组&#xff0c;该工作组可以通过互联网访问共…

JVM——6.字节码指令

这篇文章我们来学习一下字节码指令 目录 1.简介 2.字节码与数据类型 3.加载与存储指令 4.运算指令 5.类型转换指令 6.对象创建于访问指令 7.操作数栈管理指令 8.控制转移指令 9.方法调用与返回指令 10.异常处理指令 11.同步指令 12.小结 1.简介 Java虚拟机的指令…

CGAL安装到验证到深入

1、安装CGAL Win10下VS配置CGAL-5.3.1&#xff08;下载、安装、VS属性表配置&#xff09; 测试代码_cgal下载_孙 悟 空的博客-CSDN博客 2、CGAL验证练习 #include <iostream> #include <CGAL/Simple_cartesian.h> typedef CGAL::Simple_cartesian<double> …