Tipos de caracteres C ++
O padrão carbonizar variável em C ++ é uma escassa 1 byte de largura e pode lidar com apenas 255 caracteres diferentes. Este é muito o suficiente para línguas europeias, mas não grande o suficiente para lidar com linguagens baseadas em símbolos, como kanji.
Diversas normas surgiram para estender o conjunto de caracteres para lidar com as demandas de línguas. UTF-8 utiliza uma mistura de 8, 16, e caracteres de 32 bits para implementar quase todos os kanji ou hieroglyph que você pode pensar, mas ainda permanecem compatíveis com ASCII de 8 bits simples. UTF-16 usa uma mistura de 16 e 32 bits caracteres para atingir um conjunto de caracteres expandido e UTF-32 usa 32 bits para todos os personagens.
UTF significa Unicode Transformation Format, a partir do qual ele recebe o Unicode apelido comum.
A tabela descreve os diferentes tipos de caracteres suportados pelo C ++. Na primeira, C ++ tentou obter, com um tipo de caractere largo vagamente definida, wchar_t. Este tipo destinava-se a ser o grande tipo de personagem nativa ao ambiente do programa de aplicação. C ++ '11 introduzido tipos específicos para UTF-16 e UTF-32.
Variável | Exemplo | O que é isso | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
carbonizar | 'C' | ASCII ou caracteres UTF-8 | wchar_t | L'C ' | Personagem de grande formato | char_16t | u'c ' | UTF-16 caracteres | char_32t | U'c ' | UTF-32 caracteres |
UTF-16 é a codificação padrão para aplicações do Windows. o wchar_t Tipo refere-se a UTF-16 na / compilador gcc Code :: Blocks.
Qualquer um dos tipos de caracteres na tabela podem ser combinadas em cordas assim:
wchar_t * WideString = L "esta é uma grande cadeia" -