char与wchar_t数据类型-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

char与wchar_t数据类型

阅读量：4562 次

发布时间：2019-06-08

本文共 2087 字，大约阅读时间需要 6 分钟。

转自：http://blog.itpub.net/27634692/viewspace-752200/

有的人爱用strcpy等标准ANSI函数，有的人爱用_tXXXX函数，有必要把来龙去脉搞清楚。为了搞清这些函数，就必须理请几种字符类型的写法。

先说一下wchar_t：

wchar_t是Unicode字符的数据类型，它实际定义在里：

typedef unsigned short wchar_t;

不能使用类似strcpy这样的ANSI C字符串函数来处理wchar_t字符串，必须使用wcs前缀的函数，例如wcscpy。为了让编译器识别Unicode字符串，必须以在前面加一个“L”,例如:

wchar_t *szTest=L"This is a Unicode string."

下面再看看TCHAR：

如果你希望同时为ANSI和Unicode编译的源代码，那就要include TChar.h。TCHAR是定义在其中的一个宏，它视你是否定义了_UNICODE宏而定义成char或者wchar_t。如果你使用了TCHAR，那么就不应该使用ANSI的strXXX函数或者Unicode的wcsXXX函数了，而必须使用TChar.h中定义的_tcsXXX函数。另外，为了解决刚才提到带“L”的问题，TChar.h中定义了一个宏：“_TEXT”。

以strcpy函数为例子，总结一下:

如果你想使用ANSI字符串，那么请使用这一套写法：

char szString[100];

strcpy(szString,"test");

如果你想使用Unicode字符串，那么请使用这一套：

wchar_t szString[100];

wcscpy(szString,L"test");

如果你想通过定义_UNICODE宏，而编译ANSI或者Unicode字符串代码：

TCHAR szString[100];

_tcscpy(szString,_TEXT("test"));

ANSI与Unicode

Unicode称为宽字符型字串,COM里使用的都是Unicode字符串。

将ANSI转换到Unicode

(1)通过L这个宏来实现，例如: CLSIDFromProgID( L"MAPI.Folder",&clsid);

(2)通过MultiByteToWideChar函数实现转换,例如:

char *szProgID = "MAPI.Folder";

WCHAR szWideProgID[128];

CLSID clsid;

long lLen = MultiByteToWideChar(CP_ACP,0,szProgID,strlen(szProgID),szWideProgID,sizeof(szWideProgID));

szWideProgID[lLen] = '

(3)通过A2W宏来实现,例如:

USES_CONVERSION;

CLSIDFromProgID(A2W(szProgID),&clsid);

将Unicode转换到ANSI

(1)使用WideCharToMultiByte,例如:

// 假设已经有了一个Unicode 串 wszSomeString...

char szANSIString [MAX_PATH];

WideCharToMultiByte(CP_ACP, WC_COMPOSITECHECK, wszSomeString, -1, szANSIString, sizeof(szANSIString), NULL, NULL );

(2)使用W2A宏来实现,例如:

USES_CONVERSION;

pTemp=W2A(wszSomeString);

unicode与wchar_t

unicode和wchar_t有什么必然联系没？答案是没有，没有任何联系。一个是字符编码，一个是字符类型。实际上，unicode不是一种编码标准，而是几种编码的统称。utf-8，utf16(ucs2)，utf-32(ucs4)等。在windows系统下，如果没有特别说明，我们习惯上指unicode编码为utf-16，而linux上是utf-32。所以，在windows上面sizeof(wchar_t) 是2，而linux下面是4。

实际上windows下面wchar_t就是一个 unsigned short，而linux上是 unsigned int。而utf-8就是我们常说的多字节编码，这种编码下面，一个中文不一定只是两个字节，可能是三个的。然后，你的代码中的const char* 字符串是什么编码，和你编译器，和你代码文件编码也是没有半毛关系的，这个是和系统有关系的，也就是locale有关的。但你读写文件时候字符的编码是和文件有关的。而所谓的 ANSI 就是和系统相关的编码。你操作系统采用什么编码，它就是什么编码。

转载于:https://www.cnblogs.com/alan666/p/8311975.html

你可能感兴趣的文章

11、求二进制中1的个数

【nodejs】让nodejs像后端mvc框架（asp.net mvc）一样处理请求--请求处理结果适配篇（7/8）...

CodeForces 731A Night at the Museum

MySQL 删除数据库

JavaScript 字符串（String）对象

How to use VisualSVN Server and TortoiseSVN to host your codes and control your codes' version

微信小程序picker组件 - 省市二级联动

Dynamics CRM 给视图配置安全角色

Eclipse修改已存在的SVN地址

（转）使用 python Matplotlib 库绘图

进程/线程切换原则

正则表达式语法

20165301 2017-2018-2 《Java程序设计》第四周学习总结

Vue的简单入门

urllib 中的异常处理

通过SQL Server的扩展事件来跟踪SQL语句在运行时，时间都消耗到哪儿了？

pgsql查询优化之模糊查询

20181227 新的目标

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-17 19:30:26 当前IP: 18.188.227.51 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我