转自:http://blog.itpub.net/27634692/viewspace-752200/
有的人爱用strcpy等标准ANSI函数,有的人爱用_tXXXX函数,有必要把来龙去脉搞清楚。 为了搞清这些函数,就必须理请几种字符类型的写法。
先说一下wchar_t:
wchar_t是Unicode字符的数据类型,它实际定义在里: typedef unsigned short wchar_t; 不能使用类似strcpy这样的ANSI C字符串函数来处理wchar_t字符串,必须使用wcs前缀的函数,例如wcscpy。为了让编译器识别Unicode字符串,必须以在前面加一个“L”,例如: wchar_t *szTest=L"This is a Unicode string."下面再看看TCHAR:
如果你希望同时为ANSI和Unicode编译的源代码,那就要include TChar.h。TCHAR是定义在其中的一个宏,它视你是否定义了_UNICODE宏而定义成char或者wchar_t。如果你使用了TCHAR,那么就不应该使用ANSI的strXXX函数或者Unicode的wcsXXX函数了,而必须使用TChar.h中定义的_tcsXXX函数。另外,为了解决刚才提到带“L”的问题,TChar.h中定义了一个宏:“_TEXT”。以strcpy函数为例子,总结一下:如果你想使用ANSI字符串,那么请使用这一套写法:
char szString[100]; strcpy(szString,"test");如果你想使用Unicode字符串,那么请使用这一套:wchar_t szString[100]; wcscpy(szString,L"test");如果你想通过定义_UNICODE宏,而编译ANSI或者Unicode字符串代码:TCHAR szString[100]; _tcscpy(szString,_TEXT("test"));ANSI与Unicode
Unicode称为宽字符型字串,COM里使用的都是Unicode字符串。将ANSI转换到Unicode(1)通过L这个宏来实现,例如: CLSIDFromProgID( L"MAPI.Folder",&clsid); (2)通过MultiByteToWideChar函数实现转换,例如: char *szProgID = "MAPI.Folder"; WCHAR szWideProgID[128]; CLSID clsid; long lLen = MultiByteToWideChar(CP_ACP,0,szProgID,strlen(szProgID),szWideProgID,sizeof(szWideProgID)); szWideProgID[lLen] = ' (3)通过A2W宏来实现,例如: USES_CONVERSION; CLSIDFromProgID(A2W(szProgID),&clsid);将Unicode转换到ANSI(1)使用WideCharToMultiByte,例如: // 假设已经有了一个Unicode 串 wszSomeString... char szANSIString [MAX_PATH];WideCharToMultiByte(CP_ACP, WC_COMPOSITECHECK, wszSomeString, -1, szANSIString, sizeof(szANSIString), NULL, NULL ); (2)使用W2A宏来实现,例如: USES_CONVERSION; pTemp=W2A(wszSomeString);unicode与wchar_t
unicode和wchar_t有什么必然联系没?答案是没有,没有任何联系。一个是字符编码,一个是字符类型。实际上,unicode不是一种编码标准,而是几种编码的统称。utf-8,utf16(ucs2),utf-32(ucs4)等。在windows系统下,如果没有特别说明,我们习惯上指unicode编码为utf-16,而linux上是utf-32。所以,在windows上面sizeof(wchar_t) 是2,而linux下面是4。 实际上windows下面wchar_t就是一个 unsigned short,而linux上是 unsigned int。而utf-8就是我们常说的多字节编码,这种编码下面,一个中文不一定只是两个字节,可能是三个的。然后,你的代码中的const char* 字符串是什么编码,和你编译器,和你代码文件编码也是没有半毛关系的,这个是和系统有关系的,也就是locale有关的。但你读写文件时候字符的编码是和文件有关的。而所谓的 ANSI 就是和系统相关的编码。你操作系统采用什么编码,它就是什么编码。