Tipos de caracteres C ++

O padrão carbonizar variável em C ++ é uma escassa 1 byte de largura e pode lidar com apenas 255 caracteres diferentes. Este é muito o suficiente para línguas europeias, mas não grande o suficiente para lidar com linguagens baseadas em símbolos, como kanji.

Diversas normas surgiram para estender o conjunto de caracteres para lidar com as demandas de línguas. UTF-8 utiliza uma mistura de 8, 16, e caracteres de 32 bits para implementar quase todos os kanji ou hieroglyph que você pode pensar, mas ainda permanecem compatíveis com ASCII de 8 bits simples. UTF-16 usa uma mistura de 16 e 32 bits caracteres para atingir um conjunto de caracteres expandido e UTF-32 usa 32 bits para todos os personagens.

UTF significa Unicode Transformation Format, a partir do qual ele recebe o Unicode apelido comum.

A tabela descreve os diferentes tipos de caracteres suportados pelo C ++. Na primeira, C ++ tentou obter, com um tipo de caractere largo vagamente definida, wchar_t. Este tipo destinava-se a ser o grande tipo de personagem nativa ao ambiente do programa de aplicação. C ++ '11 introduzido tipos específicos para UTF-16 e UTF-32.

Tipos de caracteres do C ++
VariávelExemploO que é isso
carbonizar'C'ASCII ou caracteres UTF-8wchar_tL'C 'Personagem de grande formatochar_16tu'c 'UTF-16 caractereschar_32tU'c 'UTF-32 caracteres

UTF-16 é a codificação padrão para aplicações do Windows. o wchar_t Tipo refere-se a UTF-16 na / compilador gcc Code :: Blocks.

Qualquer um dos tipos de caracteres na tabela podem ser combinadas em cordas assim:

wchar_t * WideString = L "esta é uma grande cadeia" -

menu