JVM 字符串常量池(StringTable)

news/2024/5/22 7:06:05/文章来源:https://blog.csdn.net/qq_57533658/article/details/129929805

String的基本特性

  1. String:字符串,使用一对 “” 引起来表示
  String s1 = "hello" ;   			// 字面量的定义方式String s2 =  new String("hello");     // new 对象的方式

String被声明为final的,不可被继承

String实现了Serializable接口:表示字符串是支持序列化的。实现了Comparable接口:表示String可以比较大小

String在jdk8及以前内部定义了final char value[]用于存储字符串数据。JDK9时改为byte[]

补充:为什么改为 byte[] 存储?

  1. String类的当前实现将字符存储在char数组中,每个字符使用两个字节(16位)。
  2. 从许多不同的应用程序收集的数据表明,字符串是堆使用的主要组成部分,而且大多数字符串对象只包含拉丁字符(Latin-1)。这些字符只需要一个字节的存储空间,因此这些字符串对象的内部char数组中有一半的空间将不会使用,产生了大量浪费。
  3. 之前 String 类使用 UTF-16 的 char[] 数组存储,现在改为 byte[] 数组 外加一个编码标识存储。该编码表示如果你的字符是ISO-8859-1或者Latin-1,那么只需要一个字节存。如果你是其它字符集,比如UTF-8,你仍然用两个字节存
  4. 结论:String再也不用char[] 来存储了,改成了byte [] 加上编码标记,节约了一些空间
  5. 同时基于String的数据结构,例如StringBuffer和StringBuilder也同样做了修改

 String的底层结构

  1. String的String Pool(字符串常量池)是一个固定大小的Hashtable,默认值大小长度是1009。如果放进String Pool的String非常多,就会造成Hash冲突严重,从而导致链表会很长,而链表长了后直接会造成的影响就是当调用String.intern()方法时性能会大幅下降。
  2. 使用-XX:StringTablesize可设置StringTable的长度
  3. 在JDK6中StringTable是固定的,就是1009的长度,所以如果常量池中的字符串过多就会导致效率下降很快,StringTablesize设置没有要求
  4. 在JDK7中,StringTable的长度默认值是60013,StringTablesize设置没有要求
  5. 在JDK8中,StringTable的长度默认值是60013,StringTable可以设置的最小值为1009

String的内存分配

  1. 在Java语言中有8种基本数据类型和一种比较特殊的类型String。这些类型为了使它们在运行过程中速度更快、更节省内存,都提供了一种常量池的概念。

  2. 常量池就类似一个Java系统级别提供的缓存。8种基本数据类型的常量池都是系统协调的,String类型的常量池比较特殊。它的主要使用方法有两种。

    • 直接使用双引号声明出来的String对象会直接存储在常量池中。比如:String name = "hello world";

    • 如果不是用双引号声明的String对象,可以使用String提供的intern()方法

  3. Java 6及以前,字符串常量池存放在永久代

  4. Java 7中 Oracle的工程师对字符串池的逻辑做了很大的改变,即将字符串常量池的位置调整到Java堆内

    • 所有的字符串都保存在堆(Heap)中,和其他普通对象一样,这样可以让你在进行调优应用时仅需要调整堆大小就可以了。
    • 字符串常量池概念原本使用得比较多,但是这个改动使得我们有足够的理由让我们重新考虑在Java 7中使用String.intern()。
  5. Java8元空间,字符串常量在堆

补充:StringTable 为什么要调整?

  1. 为什么要调整位置?
    • 永久代的默认空间大小比较小
    • 永久代垃圾回收频率低,大量的字符串无法及时回收,容易进行Full GC产生STW或者容易产生OOM:PermGen Space
    • 堆中空间足够大,字符串可被及时回收
  2. 在JDK 7中,interned字符串不再在Java堆的永久代中分配,而是在Java堆的主要部分(称为年轻代和年老代)中分配,与应用程序创建的其他对象一起分配。
  3. 此更改将导致驻留在主Java堆中的数据更多,驻留在永久生成中的数据更少,因此可能需要调整堆大小。

String 的基本操作

字符串拼接操作

【1】常量与常量的“+”操作,结果放在常量池中,原理是编译期优化。

【2】常量池中不会存在相同的内容变量

【3】拼接前后只要有一个是变量,结果就放在堆中,变量拼接的原理是StringBuilder

 【4】拼接的结果调用intern()方法,根据该字符串是否在常量池中存在 分为两种情况

  • 如果存在,则返回字符串在常量池中的地址
  • 如果字符串常量池中不存在该字符串,则在常量池中创建一份,并返回此对象的地址

针对于第三条:

  1. 通过StringBuilder的append()的方式添加字符串的效率要远高于使用String的字符串拼接方式!

  2. 原因:

    1. StringBuilder的append()的方式:
      • 自始至终中只创建过一个StringBuilder的对象
    2. 使用String的字符串拼接方式:
      • 创建过多个StringBuilder和String(调的toString方法)的对象,内存占用更大;
      • 如果进行GC,需要花费额外的时间(在拼接的过程中产生的一些中间字符串可能永远也用不到,会产生大量垃圾字符串)。
  3. 改进的空间:

    • 在实际开发中,如果基本确定要前前后后添加的字符串长度不高于某个限定值highLevel的情况下,建议使用构造器实例化:
    • StringBuilder s = new StringBuilder(highLevel); //new char[highLevel]
    • 这样可以避免频繁扩容

intern()的使用(***重点***)

 intern()方法的声明

public native String intern();
  1. intern是一个native方法,调用的是底层C的方法

  2. 字符串常量池池最初是空的,由String类私有地维护。在调用intern方法时,如果池中已经包含了由equals(object)方法确定的与该字符串内容相等的字符串,则返回池中的字符串地址。否则,该字符串对象将被添加到池中,并返回对该字符串对象的地址。(这是源码里的大概翻译)

  3. 如果不是用双引号声明的String对象,可以使用String提供的intern方法:intern方法会从字符串常量池中查询当前字符串是否存在,若不存在就会将当前字符串放入常量池中。比如:

    String myInfo = new string("I love China").intern();

  4. 也就是说,如果在任意字符串上调用String.intern方法,那么其返回结果所指向的那个类实例,必须和直接以常量形式出现的字符串实例完全相同。因此,下列表达式的值必定是true

    ("hello"+"World").intern() == "helloWorld"

  5. 通俗点讲,Interned String就是确保字符串在内存里只有一份拷贝,这样可以节约内存空间,加快字符串操作任务的执行速度。注意,这个值会被存放在字符串内部池(String Intern Pool)

new String()的说明

          new String(“ab”)会创建几个对象?

/*** 题目:* new String("ab")会创建几个对象?看字节码,就知道是两个。*     一个对象是:new关键字在堆空间创建的*     另一个对象是:字符串常量池中的对象"ab"。 字节码指令:ldc**/
public class StringNewTest {public static void main(String[] args) {String str = new String("ab");}
}

new String(“a”) + new String(“b”) 会创建几个对象?

/*** 思考:* new String("a") + new String("b")呢?*  对象1:new StringBuilder()*  对象2: new String("a")*  对象3: 常量池中的"a"*  对象4: new String("b")*  对象5: 常量池中的"b"**  深入剖析: StringBuilder的toString():*      对象6 :new String("ab")*       强调一下,toString()的调用,在字符串常量池中,没有生成"ab"**/
public class StringNewTest {public static void main(String[] args) {String str = new String("a") + new String("b");}
}

面试题目:

*** 如何保证变量s指向的是字符串常量池中的数据呢?* 有两种方式:* 方式一: String s = "shkstart";//字面量定义的方式* 方式二: 调用intern()*         String s = new String("shkstart").intern();*         String s = new StringBuilder("shkstart").toString().intern();**/
public class 	StringIntern {public static void main(String[] args) {String s = new String("1");s.intern();//调用此方法之前,字符串常量池中已经存在了"1"String s2 = "1";System.out.println(s == s2);//jdk6:false   jdk7/8:false/*1、s3变量记录的地址为:new String("11")2、经过上面的分析,我们已经知道执行完pos_1的代码,在堆中有了一个new String("11")这样的String对象。但是在字符串常量池中没有"11"3、接着执行s3.intern(),在字符串常量池中生成"11"3-1、在JDK6的版本中,字符串常量池还在永久代,所以直接在永久代生成"11",也就有了新的地址3-2、而在JDK7的后续版本中,字符串常量池被移动到了堆中,此时堆里已经有new String("11")了出于节省空间的目的,直接将堆中的那个字符串的引用地址储存在字符串常量池中。没错,字符串常量池中存的是new String("11")在堆中的地址4、所以在JDK7后续版本中,s3和s4指向的完全是同一个地址。*/String s3 = new String("1") + new String("1");//pos_1s3.intern();String s4 = "11";//s4变量记录的地址:使用的是上一行代码代码执行时,在常量池中生成的"11"的地址System.out.println(s3 == s4);//jdk6:false  jdk7/8:true}}

结论

  1. 对于程序中大量使用存在的字符串时,尤其存在很多已经重复的字符串时,使用intern()方法能够节省很大的内存空间。
  2. 大的网站平台,需要内存中存储大量的字符串。比如社交网站,很多人都存储:北京市、海淀区等信息。这时候如果字符串都调用intern() 方法,就会很明显降低内存的大小。

StringTable的垃圾回收 

String去重操作的背景

注意不是字符串常量池的去重操作,字符串常量池本身就没有重复的

  1. 背景:对许多Java应用(有大的也有小的)做的测试得出以下结果:
    • 堆存活数据集合里面String对象占了25%
    • 堆存活数据集合里面重复的String对象有13.5%
    • String对象的平均长度是45
  2. 许多大规模的Java应用的瓶颈在于内存,测试表明,在这些类型的应用里面,Java堆中存活的数据集合差不多25%是String对象。更进一步,这里面差不多一半String对象是重复的,重复的意思是说:str1.equals(str2)= true。堆上存在重复的String对象必然是一种内存的浪费。这个项目将在G1垃圾收集器中实现自动持续对重复的String对象进行去重,这样就能避免浪费内存。

String 去重的的实现

  1. 当垃圾收集器工作的时候,会访问堆上存活的对象。对每一个访问的对象都会检查是否是候选的要去重的String对象。
  2. 如果是,把这个对象的一个引用插入到队列中等待后续的处理。一个去重的线程在后台运行,处理这个队列。处理队列的一个元素意味着从队列删除这个元素,然后尝试去重它引用的String对象。
  3. 使用一个Hashtable来记录所有的被String对象使用的不重复的char数组。当去重的时候,会查这个Hashtable,来看堆上是否已经存在一个一模一样的char数组。
  4. 如果存在,String对象会被调整引用那个数组,释放对原来的数组的引用,最终会被垃圾收集器回收掉。
  5. 如果查找失败,char数组会被插入到Hashtable,这样以后的时候就可以共享这个数组了。

命令行选项

  1. UseStringDeduplication(bool) :开启String去重,默认是不开启的,需要手动开启。
  2. PrintStringDeduplicationStatistics(bool) :打印详细的去重统计信息
  3. stringDeduplicationAgeThreshold(uintx) :达到这个年龄的String对象被认为是去重的候选对象

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_280000.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【新股打新】北森控股:发行比例只有区区1%,这是要作妖的前奏?

一、公司简介 北森控股,成立于2002年,是国内领先的人力资源管理的高科技公司,旗下的一体化HR SaaS及人才管理平台 —— iTalentX,覆盖了企业招聘、入职、管理到离职的全生命周期的数字化管理,帮助企业快速提升人力资源…

玄子Share-BCSP助学手册之数据库开发(已优化)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NIr0tYNc-1680505151717)(./assets/XuanZiShare_QQ_3336392096.jpg)] 玄子Share-BCSP助学手册之数据库开发 前言: 此文为玄子,学习 BCSP 一二期后整理的文章,文中对…

Vivado中如何修改IP源文件

前一篇文章是通过改变JESD204B IP的设置,在Shared Logic里勾选in example design,来避免共用输入时钟的问题。那么还有没有别的办法呢?有没有更直接点的实现方式呢? 答案是肯定的:可以直接修改IP,将IBUFDS…

开心档之开发入门网-C++ 变量类型

C 变量类型 目录 C 变量类型 C 中的变量定义 C 中的变量声明 实例 实例 C 中的左值(Lvalues)和右值(Rvalues) 变量其实只不过是程序可操作的存储区的名称。C 中每个变量都有指定的类型,类型决定了变量存储的大小…

合宙Air780E|ScreenStream|图传|LuatOS-SOC接口|学习(23):4G远程遥控小车(2)-图传设置及解析

目录 基础资料 原项目地址 实现功能: 前文: 图传设置及解析 概述 提示 软件亮点 操作步骤 4G小车控制前端相关代码 图传显示函数: 按钮及显示框 待解决问题:小车图传前端不能正常显示 基础资料 ​ 基于Air780E开发板&…

「Python 机器学习」Matplotlib 数据探索

Matplotlib 是一个 Python 的数据可视化库,它能够轻松创建各种类型的图表和图形;Matplotlib 可以在 Jupyter Notebooks、交互式应用程序和脚本中使用,并支持多种绘图样式和格式; Matplotlib 最初是为科学计算而设计的&#xff0c…

【观察】诺基亚贝尔品牌焕新传递新价值,以无线专网加速中国数字化进程

今年2月底,在西班牙巴塞罗那举行的2023年世界移动通信大会上,诺基亚宣布重塑企业战略和技术战略,同时推出全新企业品牌形象,这标志着诺基亚在长期战略转型之路上迈出了坚实的一步。而作为诺基亚在华独家运营实体,诺基亚…

pdf格式可以编辑吗?提供几个思路

PDF格式文件常常用于共享文档和保护文档内容,但是很多人都会遇到一个问题:PDF格式文件是否可编辑? 答案是肯定的,PDF格式文件是可以编辑的。虽然PDF格式文件的初衷是为了保护文档内容,但是现在很多软件已经支持PDF格式…

【OJ比赛日历】快周末了,不来一场比赛吗? #04.01-04.07 #14场

CompHub 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…)比赛。本账号同时会推送最新的比赛消息,欢迎关注!更多比赛信息见 CompHub主页 或 点击文末阅读原文以下信息仅供参考,以比赛官网为准目录2023-04-01&…

Android OKHttp源码解析

Https是Http协议加上下一层的SSL/TSL协议组成的,TSL是SSL的后继版本,差别很小,可以理解为一个东西。进行Https连接时,会先进行TSL的握手,完成证书认证操作,产生对称加密的公钥、加密套件等参数。之后就可以…

【人工智能】—局部搜索算法、爬山法、模拟退火、局部剪枝、遗传算法

Local search algorithms (局部搜索算法)局部搜索算法内存限制局部搜索算法示例:n-皇后爬山算法随机重启爬山模拟退火算法局部剪枝搜索遗传算法小结局部搜索算法 在某些规模太大的问题状态空间内,A*往往不够用 问题空间太大了无法…

InVEST模型

详情点击链接:invest模型 生态系统服务理论联系实践案例InVEST模型的开发历程、不同版本的差异及对数据需求InVEST所需数据的要求(分辨率、格式、投影系统等)、获取及标准化预处理InVEST运行常见问题及处理解决方法ArcGIS工具支撑InVEST模型…

PropertySourceLocator(SpringCloud中的配置操作)

又是美好的一天呀~ 个人博客地址: huanghong.top 往下看看~内容简介源码分析prepareContextapplyInitializersPropertySourceBootstrapConfiguration#initializelocateCollectionNacos示例insertPropertySourcesConfigurationPropertiespostProcessBeforeInitializa…

[python]浅谈Flask的SSTI漏洞

目录 基础知识 python类方法 内建函数 获取基类的几种方法 利用思路 概念简介 服务器端模板注入(Server-Side Template Injection) 类型判断 简单探测 实战练习 reference 基础知识 python类方法 __class__用来查看变量所属的类&#xff0c…

Android Framework—WMS

WMS的定义 它是framework层的窗口管理服务,职责是管理android系统中所有的window。其中包含了添加窗口、删除窗口、token管理、输入法管理、系统事件消息收集和分发、活动窗口管理(FocusWindow)、活动应用管理(FocusApp&#xff…

HTML5 代码规范

HTML5 代码规范 在使用HTML5的过程中,使用规范化的代码能够更加方便你的运用与阅读,本节我们将带领你了解如何能够使得HTML5中的代码变得更加规范! HTML 代码约定 很多 Web 开发人员对 HTML 的代码规范知之甚少。 在2000年至2010年&#x…

G1—Block Memory Generator IP核-2023-03-30

1.简介 xilinx提供了两个ip用于生成ROM存储空间。一个是 Distributed Memory Generator,另一个是Block Memory Generator,两者最主要的差别是生成的 Core所占用的 FPGA 资源不一样,从 Distributed Memory Generator 生成的 ROM/RAM Core 占用…

榜单!年度中国智能汽车产业链百强规模供应商发布,营收过亿企业持续扩张

本周,随着德赛西威2022年度财报的发布,中国智能汽车赛道头部Tier1正在实现规模化的又一次突破。财报显示,2022年度该公司营业收入以56%的增速,首次突破百亿大关,达到149.33亿元。 作为目前国内少数几家具备智能座舱、智…

Python 自动化指南(繁琐工作自动化)第二版:三、函数

原文:https://automatetheboringstuff.com/2e/chapter3/ 您已经熟悉了前几章中的print()、input()和len()函数。Python 提供了几个这样的内置函数,但是您也可以编写自己的函数。函数就像一个程序中的一个小程序。 为了更好地理解函数是如何工作的&#…

040:cesium加载World Terrain地形图

第040个 点击查看专栏目录 本示例的目的是介绍如何在vue+cesium中加载世界地形图。 直接复制下面的 vue+cesium源代码,操作2分钟即可运行实现效果. 文章目录 示例效果配置方式示例源代码(共64行)相关API参考:专栏目标示例效果 配置方式 1)查看基础设置:https://xiaozh…