1 C++ UTF8编码下的全角字符转半角字符
如果输入的字符std::string是UTF8编码,因为UTF8字符串长度的不确定性,需要先将UTF8编码的字符串转换为宽字符Unicode编码的字符串,再进行全角到半角字符的转换,具体的转换过程参考以下代码:
#include <iostream>
#include <locale>
#include <codecvt>
std::wstring Std_UTF8ToUnicode(const std::string& utf8Str)
{
std::wstring ret;
try
{
std::wstring_convert< std::codecvt_utf8<wchar_t> > conv;
ret = conv.from_bytes(utf8Str);
}
catch (const std::exception& e)
{
}
return ret;
}
std::string Std_UnicodeToUTF8(const std::wstring& unicodeStr)
{
std::string ret;
try
{
std::wstring_convert< std::codecvt_utf8<wchar_t> > conv;
ret = conv.to_bytes(unicodeStr);
}
catch (const std::exception& e)
{
}
return ret;
}
static std::string DoubleByteCharToSingleByteChar_UTF8(const std::string& srcStr)
{
// 先转成Unicode字符
std::wstring srcStr_Uniocde = Std_UTF8ToUnicode(srcStr);
std::wstring destSrt_Unicode = L"";
std::string dstStr = "";
int tempChar;
int length = srcStr_Uniocde.length();
for (int i = 0; i < length; i++)
{
tempChar = srcStr_Uniocde[i];
if (tempChar == 12288)
{
tempChar = 32;
}
else if (tempChar >= 65281 && tempChar <= 65374)
{
tempChar -= 65248;
}
destSrt_Unicode += tempChar;
}
// 然后将处理过后的全角转半角字符Unicode转utf8
dstStr = Std_UnicodeToUTF8(destSrt_Unicode);
return dstStr;
}
int main()
{
std::string input_str = u8"55555。你好。";
std::string output_str = DoubleByteCharToSingleByteChar_UTF8(input_str);
std::cout << output_str << std::endl;
}
本文作者:StubbornHuang
版权声明:本文为站长原创文章,如果转载请注明原文链接!
原文标题:C++ – UTF8编码下的全角字符转半角字符
原文链接:https://www.stubbornhuang.com/1848/
发布于:2021年12月04日 11:58:39
修改于:2023年06月26日 21:00:38
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论
50