字符编码与转换
在电脑设计的初期,为了支持多国语言,常采用两个字节来表示一个字符。例如,中文中的“中”字在计算机中就是以[0xD6,0xD0]这两个字节的形式存储的。
由于每个都有其独特的编码标准,因此产生了如GB2312、G、GB18030、Big5、Shift_JIS等各自的编码方式。这些使用多个字节来代表一个字符的编码方式,统称为ANSI编码。在不同的操作系统中,ANSI编码有其特定的代表,例如在简体中文的Windows操作系统中,它代表的是GB2312编码;而在繁体中文的Windows操作系统中,它则代表Big5编码。
ANSI编码在以及部分亚太地区的字符编码中扮演着重要角色,Windows系统和OS X都对其提供了原生支持。尽管ANSI编码广泛使用,但全球通用的编码标准却是UTF-8。
UTF-8是一种变长字符编码,也被称为万国码,由Ken Thompson在1992年创建,并已标准化为RFC 3629。它可以用1到6个字节来编码Unicode字符。这使得网页能够同时显示中文简体、繁体以及其他语言,如日文和韩文。
在Windows系统中,默认采用的是ANSI编码。但在实际操作中,我们有时会遇到因输入法或从文本文件转入EXCEL时出现乱码的情况。这时,就需要进行编码格式的转换。例如,通过某些函数可以进行简单的转换,如将某字符转换为其对应的ANSI字符代码,或反之。
当我们在处理CSV文件或文本文件并准备用EXCEL打开时,若出现乱码,这往往是由于编码问题造成的。为了解决这一问题,我们可以选择用记事本打开该文件,然后在另存为时选择ANSI格式。
当我们制作的Excel表格需要发送给其他或地区的人时,也需要注意编码格式的问题。我们通常默认使用的是ANSI编码,但为了确保对方能正确接收并显示内容,最好将其转换为国际通用的UTF-8编码。在另存为时,选择“工具”下拉选项中的“web选项”,再选择“编码项”,找到并确定为Unicode(UTF-8)后保存即可。
如果对方收到的文件仍然出现乱码,可能需要对方再以他本地区的编码进行一次转换,以便从国际通用编码方便地进行转换。
Unicode(统、万国码、单)是一种由国际制定的字符编码方案。它为每种语言中的每个字符设定了统一且唯一的二进制编码,以支持跨语言、跨平台的文本转换与处理。随着计算机工作能力的增强,Unicode自面世以来已经得到了广泛的普及。
Unicode的数字范围从0到0x10FFFF,可以映射世界上所有的文字和符号。最多可以容纳1114112个字符或码位。UTF-8、UTF-16、UTF-32等都是将这些数字转换为程序数据的编码方案。