做网站用UTF-8还是GB2312?

news/2024/5/18 13:06:30/文章来源:https://blog.csdn.net/weixin_34290352/article/details/91975827

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

经常我们打开外国网站的时候出现乱码,又或者打开很多非英语的外国网站的时候,显示的都是口口口口口的字符,

WordPress程序是用的UTF-8,很多cms用的是GB2312。

● 为什么有这么多编码?

● UTF-8和GB2312有什么区别?

● 我们在国内做网站是用UTF-8编码格式还是GB2312编码格式好? 

一. 各种编码的来历

可能很多同学一直对字符的各种编码方式懵懵懂懂,根本搞不清为什么他们有这么多编码。

ANSI编码

其实在很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为“字节”。

开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。 

他们把其中的编号从0开始的32种状态分别规定了特殊的用途,一但终端、打印机遇上约定好的这些字节被传过来时,就要做一些约定的动作。

遇上00×10,终端就换行,遇上0×07, 终端就向人们嘟嘟叫,例好遇上0×1b, 打印机就打印反白的字,或者终端就用彩色显示字母。他们看到这样很好,于是就把这些0×20以下的字节状态称为"控制码"。

他们又把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示,一直编到了第127号,这样计算机就可以用不同字节来存储英语的文字了。大家看到这样,都感觉很好,于是大家都把这个方案叫做 ANSI 的"Ascii"编码(American Standard Code for Information Interchange,美国信息互换标准代码)。当时世界上所有的计算机都用同样的ASCII方案来保存英文文字。

扩展ANSI编码

后来,就像建造巴比伦塔一样,世界各地的都开始使用计算机,但是很多国家用的不是英文,他们的字母里有许多是ASCII里没有的,为了可以在计算机保存他们的文字,他们决定采用127号之后的空位来表示这些新的字母、符号,还加入了很多画表格时需要用下到的横线、竖线、交叉等形状,一直把序号编到了最后一个状态255。从128到255这一页的字符集被称“扩展字符集”。从此之后,贪婪的人类再没有新的状态可以用了,美国当时估计也没想到还有别的国家要用计算机的。

GB2312编码

当天朝人们得到计算机时,已经没有可以利用的字节状态来表示汉字,况且有6000多个常用汉字需要保存呢。天朝人民就不客气地把那些127号之后的奇异符号们直接取消掉。

规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了

在这些编码里,我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了,连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的“全角”字符,而原来在127号以下的那些就叫"半角"字符了。于是就把这种汉字方案叫做 “GB2312”。GB2312 是对 ASCII 的中文扩展。

GBK 和 GB18030编码

但是天朝的汉字太多了,我们很快就就发现有许多人的人名没有办法在这里打出来,特别是某些天朝领导的名字要是打不出很麻烦的。于是我们不得不继续把 GB2312 没有用到的码位找出来老实不客气地用上。

后来还是不够用,于是干脆不再要求低字节一定是127号之后的内码,只要第一个字节是大于127就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。

后来少数民族也要用电脑了,于是我们再扩展,又加了几千个新的少数民族的字,GBK 扩成了 GB18030。从此之后,天朝民族的文化就可以在计算机时代中传承了。

在这个标准里,最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里,因此他们写的程序为了支持中文处理,必须要注意字串里的每一个字节的值,如果这个值是大于127的,那么就认为一个双字节字符集里的字符出现了。

那时候凡是受过编程学习的程序员都要每天念下面这个咒语数百遍的折磨:

“一个汉字算两个英文字符!一个汉字算两个英文字符……”

UNICODE编码

因为当时各个国家都像天朝这样搞出一套自己的编码标准,结果互相之间谁也不懂谁的编码,谁也不支持别人的编码,连大陆和台湾这样只相隔了150海里,使用着同一种语言的兄弟地区,也分别采用了不同的编码方案:

当时的天朝人想让电脑显示汉字,就必须装上一个“汉字系统”。专门用来处理汉字的显示、输入的问题。

但是那个装台湾的人士写的程序就必须加装另一套支持 BIG5 编码的“倚天汉字系统”才可以用,装错了字符系统,显示就会乱了套!这怎么办?而且世界民族中还有那些暂时用不上电脑的穷苦人民,他们的文字又怎么办?

正在这时,天使及时出现了——一个叫 ISO (国际标谁化组织)的国际组织决定着手解决这个问题。他们采用的方法很简单:废了所有的地区性编码方案,重新搞一个包括了地球上所有文化、所有字母和符号的编码!他们打算叫它 UCS, 俗称 UNICODE 。( Universal Multiple-Octet Coded Character Set )

在UNICODE 中,一个汉字算两个英文字符的时代已经快过去了。

无论是半角的英文字母,还是全角的汉字,它们都是统一的“一个字符”!同时,也都是统一的“两个字节"”

UTF-8和UTF-16

UNICODE 来到时,一起到来的还有计算机网络的兴起,UNICODE 如何在网络上传输也是一个必须考虑的问题,于是面向传输的众多 UTF(UCS Transfer Format)标准出现了,顾名思义,UTF8就是每次8个位传输数据,而UTF16就是每次16个位,只不过为了传输时的可靠性,从UNICODE到UTF时并不是直接的对应,而是要过一些算法和规则来转换。

未来的UCS-4

如前所述,UNICODE 是用两个字节来表示为一个字符,他总共可以组合出65535不同的字符,这大概已经可以覆盖世界上所有文化的符号。如果还不够也没有关系,ISO已经准备了UCS-4方案,说简单了就是四个字节来表示一个字符,这样我们就可以组合出21亿个不同的字符出来(最高位有其他用途),这大概可以用到天朝成立银河联邦成立那一天吧!

二. 为什么有些网站打开有时候会是乱码

网页乱码是浏览器(如IE等)对HTML网页解释时形成的。

如果在浏览网站网页的代码写错语系(比较少见),有形如:

<HTML>

<HEAD>

<META CONTENT=“text/html;charset=ISO-8859-1”></HEAD>……

</HTML>

的语句,浏览器在显示此页时,就会出现乱码。因为浏览器会将此页语种辨认为“欧洲语系”。

解决的办法是将语种“ISO-8859-1”改为GB2312,如果是繁体网页则改为BIG5。

还有一种可能比较大,就是网页并没有标明他用的是何种语系,即没有

<META CONTENT=“text/html;charset=XXXXX“>,这一行。

而你的计算机默认也不是这种语系,比方我们访问某些日文网站,经常出现这个问题。这个主要是由于程序员是面向当地的人开发的网站,由于当地都是默认语系,所以没有乱码种情况,而你是外来人,你的操作系统本身默认不是当地的语系。所以要手动改语系。

至于出现口口口口口口这种情况

这是由于网站并没有采用UTF-8编码而是采用的当地的编码,如蒙古语的,阿拉伯语的编码,你的计算机中并没有这种编码,所以不能识别。

解决办法是,事先为浏览器安装多语言支持包(例如在安装IE时要安装多语言支持包),这样在浏览网页出现乱码时,就可以在浏览器中选择菜单栏下的“查看”/“编码”/“自动选择”/蒙古),如为繁体中文则选择“查看”/“编码”/“自动选择”/阿拉伯语,其它语言依此类推选择相应的语系,这样可消除网页乱码现象。

三. 目前开发网站用什么编码比较好

我们一般通俗的理解为:

UTF-8是世界性通用代码,也完美的支持中文编码,如果我们做的网站能让国外用户正常的访问,就最好用UTF-8。

GB2312属于中文编码,主要针对国内用户使用,如果国外用户访问GB2312编码的网站就会变乱码。

网友的反馈一般觉得是用UTF-8比GB2312要多很多,大家都比较赞同用UTF-8。

从一张外国网站的调查也可看得出:

  由此图可以看出,2001-2008年期间,GB2312编码的使用情况虽然幅度不大,但还是在稳定上升的;蓝色的线表示出用UTF-8的网站越来越多了。

我挑选了国内部分几个大的门户网站,看看他们用的是哪种编码格式:

也许有同学就会问了为什么国内几个网站用GB2312反而更多些呢。

我也对这个疑问进行了思考,我觉得。应该有3种原因:

1. 国内这些网站本身历史也比较长,开始使用的就是 GB2312编码,现在改成 UTF-8(以前的网页)转换的难度和风险太大。

2. UTF-8编码的文件比GB2312更占空间一些,虽然目前的硬件环境下可以忽略,但是这些门户网站为了减少服务器负载基本上所有的页面都生成了静态页,UTF-8保存起来文件会比较大,对于门户级别的网站每天生成的文件量还是非常巨大,带来的存储成本相应提高。

3. 由于UTF-8的编码比GB2312解码的网络传输数据量要大,对于门户级别的网站来说。这个无形之间就要增大带宽,用GB2312对网络流量无疑是最好的优化。

所以在新做站的情况下,建议还是选择UTF-8比较好。因为没有上面那些原因,兼容为上策。

转载于:https://my.oschina.net/u/129490/blog/31845

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_777401.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

dedecms 后台网站 标题设置

打开文件夹&#xff0c;找到dede/templets/index2.htm&#xff0c;修改第6行就行了 转载于:https://www.cnblogs.com/moguzi12345/p/8124087.html

国内某知名婚恋网站的Kubernetes落地实践

随着Kubernetes的遍地开花&#xff0c;Kubernetes的优势可以说是深入人心&#xff0c;所以&#xff0c;我们也掀起了一场改革&#xff0c;目的就是改变我们以往的运维模式&#xff0c;利用Kubernetes&#xff0c;来实现更高效的交付和更好地提高我们的资源使用率&#xff0c;推…

网站基本标签及css样式简介(3)

CSS层叠样式&#xff1a;一.内部样式表1).行内样式<td style"font-size:30px;">封面回顾</td>...td为行级标签&#xff0c;其他还有&#xff1a;按钮、输入框&#xff0c;范围、图像、超链接、换行标签2).嵌入样式(在<head>标签中实现)<style t…

在Kubernetes中部署网站的综合指南

最近&#xff0c;我们做了一个把Grofers的所有服务迁移到Kubernetes上的决定。Grofers是杂货领域印度最大的低价在线超市&#xff0c;成立于2013年12月01日&#xff0c;由Albinder Dhindsa和Saurabh Kumar创立&#xff0c;总部位于印度德里的卫星城市Gurugram。其主要提供各种类…

教你用 Docker 搭建网站

2013 年发布至今&#xff0c; Docker 一直广受瞩目&#xff0c;被认为可能会改变软件行业。但是&#xff0c;许多人并不清楚 Docker 到底是什么&#xff0c;要解决什么问题&#xff0c;好处又在哪里&#xff1f;本文就来详细解释&#xff0c;帮助大家理解它&#xff0c;还带有简…

网站标题前的小logo

原因&#xff1a;每个浏览器访问服务器的时候会自动发送一个GET 请求&#xff0c;地址是&#xff1a;/favicon.ico 如果不处理&#xff0c;则只会在浏览器标题前添加一个文本类的图标 前提&#xff1a;有现有的图标favicon.ico&#xff0c;且按开发规范存放在static/img/下 解…

ASP.NET 网站路径

使用网站中的资源时&#xff0c;通常必须指定资源的路径。例如&#xff0c;您可以使用 URL 路径引用页面中的图像文件或网站中其他位置处的页面的 URL。同样&#xff0c;Web 应用程序中的代码可以使用基于服务器的文件的物理文件路径对文件进行读写操作。ASP.NET 提供用于引用资…

帅的一坨,不转不行。优雅实用web标准网站设计欣赏

文章来源于我非常喜爱的Smashing Magazine。网站不支持图片外链接&#xff0c;如果看不到图片请访问原文地址&#xff1a;http://www.smashingmagazine.com/2007/07/04/inspiration-package-usable-elegant-inspiring-design-showcase/以下是原文&#xff1a; Inspiration Pack…

js入门·表单元素(select下拉列表)制作二级联动菜单和网站导航

对于脚本来说&#xff0c;最复杂的表单元素对象就是select了&#xff0c;他是一个复合对象&#xff0c;包含OPTION对象数组的对象 演示一&#xff1a;导航,这个多见于网站友情链接 请选择您要去的网站天轰穿系列教程博客园CSDN演示二&#xff1a;地区二级无刷新联动菜单&#x…

关系网成网络盈利模式 LinkedIn网站探秘

“人传人”的创业群体 2003年&#xff0c;从加州大学伯克利分校经济系毕业后&#xff0c;林文文开始了在加州联合银行的工作。今年7月&#xff0c;她决定转行做市场营销&#xff0c;然而由于缺乏相关的工作经验&#xff0c;她在几大求职网站上投的简历最终都石沉大海。 后来&am…

关于网站登录后的页面操作所携带的不同cookie值

对于课堂派网站,登录后的页面操作只需要携带PHPSESSID或者cookie中间那部分即可,两个都带也可,SERVERID不知道是干啥的,每次响应的都会变. 代码实现: cookie None class HttpRequest:def __init__(self,method,url,dataNone):self.methodmethodself.urlurlself.datadata# def …

新辰:共享是SEO的思维 用户是SEO的核心

大家都知道。SEO一直没有一个能够定义的核心。新辰知道全部的东西里面在互联网领域链接是非常重要的。所以新辰觉得做SEO就是把链接做好。因此&#xff0c;链接对于一个站点来说简单分能够分成两种。内部的链接和外部的链接。故内链和外链出来了。对于互联网来说。外链的作用比…

SSM重新开发计科院新闻网站

SSM重新开发计科院新闻网站 学号&#xff1a;201631062509 姓名&#xff1a;杨菓 1.什么是SSM SSM就是SpringSpringMVCMyBatis框架的整合。 1.1 Spring Spring是一个开源框架&#xff0c;Spring是于2003 年兴起的一个轻量级的Java 开发框架&#xff0c;由Rod Johnson 在其著作…

Python爬虫框架Scrapy 学习笔记 2 ----- 爬取Mininova网站种子文件信息

1. 任务描述目标网站:http://www.mininova.org/yesterday/ 目标网站截图&#xff1a;-------------------------------------可以看到种子文件的列表&#xff0c;这些链接的url可以用正则表达式表示为&#xff1a; /tor/\d随便点一个进去&#xff0c;进入资源详情页&#xff1a…

教育局机关局域网站点上网指南

教育局机关局域网站点上网指南 1.什么是站点上网零维护&#xff1f;我们能实现这个目标吗? 站点上网零维护最少包括如下4个方面的因素&#xff1a;①机房无需人员值守&#xff1b;②上网线路和设备稳定畅通&#xff1b;③每个站点无需进行任何设置&#xff1b;④站点使用人员懂…

通过华为云搭建一个属于自己的小网站

出于个人兴趣&#xff0c;想搭建一个自己的网站玩玩。 先在华为云买个云服务器&#xff0c;由于是第一次玩&#xff0c;先买个windows server 2019版的&#xff0c;2核4G&#xff0c;以后弄熟了再上手linux吧。、 经过重置密码&#xff0c;设置安全组等简单配置后登录服务器主机…

微软发布IIS漏洞补丁,影响我国五分之一网站

2015年4月14日&#xff0c;微软发布月度例行安全公告&#xff0c;共释放出11项更新&#xff0c;一举修复包括Windows操作系统、IE浏览器、Office办公软件、.NET Framework、Server软件、Office Services和Web Apps在内的26个安全漏洞。在这11项更新中&#xff0c;有4项更新综合…

SEO的艺术(原书第2版)

《SEO的艺术(原书第2版)》基本信息原书名&#xff1a;The Art of SEO, Second Edition作者&#xff1a; Eric Enge Stephan Spencer Jessie Stricchiola Rand Fishkin译者&#xff1a; 姚军丛书名&#xff1a; O’Reilly精品图书系列出版社&#xff1a;机械工业出版社ISBN&…

为你的网站添加qq在线服务功能

最近要做一个网站&#xff0c;客户要求有在线服务&#xff0c;思来想去&#xff0c;最后决定用qq在线服务功能来实现。 说来也巧&#xff0c;我也是在其他很多网站上见到这个功能&#xff0c;所以就偷工减料地利用现有的东西来做的。 好了&#xff0c;不多说了&#xff0c;进入…

Web应用程序与Web网站在IIS中部署

Web应用程序与Web站点区别 在Visual Studio可以创建 Web 应用程序项目或网站项目。 每种项目类型各有优缺点&#xff0c;要选择可以满足需要的最佳项目类型&#xff0c;应了解各项目类型之间的差异。 创建项目之前&#xff0c;必须选择合适的项目类型&#xff0c;原因是从一种…