大家好,今天小编关注到一个比较有意思的话题,就是关于java语言生僻的问题,于是小编就整理了1个相关介绍j***a语言生僻的解答,让我们一起看看吧。
GB2312何时能够代替UTF-8?
编码如果我们只认识UTF-8和GB2312就显得格局太小了,甚至于有非常多人不了解它们是什么,又代表了怎样的含义,所以才提出GB2312何时能够代替UTF-8的问题。
众所周知目前的机器仅能识别“0”和“1”,也就是说机器只能够处理数字,想要处理文本,就必须先把文本转换为数字机器才能处理。举个例子:字母“A”是一个字符,在ASCII码中十进制数“65”就表示字符“A”,用二进制数表示就是“0100 0001”。这时我们就能很好地理解编码了,编码表非常像一本字典,只有它的存在二进制数、十进制数、字符之间才能相互转换,像极了一本密码本,只有拥有这本密码本才能相互解密,要不看着就是乱码。
最早出现的编码是ASCII,因为计算机最早是由美国人发明的,所以ASCII里最早只有127个字符被编码到计算机里,包括了大小写英文字母、数字和一些符号。
如果全世界的人都使用英文那么编码后面就不会发生那么多事了,26个字母大小写也就是52个,数字0^9,再加上标点符号和其他一些符号,但事实并不是这样的全世界有上百种语言,所以各国都有各国的编码标准。比如中国大陆几乎所有的中文系统和软件都支持GB2312(GB就是国标的意思),它几乎满足了计算机中汉字99.75%的使用频率,但人名、古汉语等会出现罕用字,所以才出现了后来的GBK、GB18030汉字字符集。
过去word文档打开常常就是一堆乱码,就是编码导致的,没有识别到正确的编码显示就是乱码。
事实上gb2312早已经被淘汰了,至少最近10年来新开发的软件和网页都没人再用它了,是教材资料里才会提到的“历史名词”。utf-8是主流编码,未来几十年也会一直沿用下去,因为它可以编码世界上几乎所有文字和绝大多数常用符号,是相当完整的编码标准,没有被替换的理由。
真能挑事啊,还知道GB2312,请问GB2312的6763个字符能能覆盖博大精深的汉语言文学吗?另外GBK和GB18030了解一下?UTF-8是国际标准,GB2312永远代替不了UTF-8,何况还有UTF-7、16、32等等,与其胡思乱想,不如多学习吧。
- GB2312,1980年发布,收入汉字6763个(基本是简体)。
- GBK,1995年发布,收录21003个汉字(常用简体、繁体)。
- GB18030,2000年发布,覆盖所有Unicode code point(理论上有1114112个)。
一个常用汉字(BMP内,code point<=0xFFFF)用UTF-8需要3个字节,用GB系列只要2个字节。
历史原因,对文字存储的要求、计算机的处理能力和存储能力,覆盖面越来越广。GB231270年代末的设计的,在原ASCII码基础上扩展出更大容量的编码,以容纳数量众多的汉字,以及日本、俄文等符号。
UTF-8是unicode的一种存储格式,对应Unicode编码的所有字符,包含东西方文字,亚洲文字涵盖中日韩,中文涵盖少数民族文字。
GB只流行于大陆,连大中华地区都没覆盖,但是UTF8全球通用。
- GB2312,1980年发布,收入汉字6763个(基本是简体)。
- GBK,1995年发布,收录21003个汉字(常用简体、繁体)。
- GB18030,2000年发布,2005修订了,又扩展了B区,以支持更多的汉字。
GBxxx好处是存储容量小,一个汉字2字节,utf8需要3-4字节,对大量使用中文的大陆计算机来说GBxxx可以节约存储、传输效率,但是在互联网上会带来乱码,需要进行编码转换。
GB是国家强制标准,包括Windows在内的操作系统,办公软件必须支持GB才是合格产品,才能在市场销售,只支持的UTF-8的洋软件不符合国标,在国内销售受限。
GB2312已经是被替代标准,现在的软件都支持GB18030,GBK都会被替代。GB2312替代UTF8基本就是蒸汽机替代电车,没有可能性。
到此,以上就是小编对于j***a语言生僻的问题就介绍到这了,希望介绍关于j***a语言生僻的1点解答对大家有用。