EUC-KR은 한글을 표현하지만 모든 한글 조합을 표현할 수 있을 정도로 많은 양은 아닙니다.
유니코드가 없었다면, 각각 언어마다 다른 문자 집합과 인코딩 방식을 이해할 필요가 없습니다.
유니코드 문자 집합에 속한 문자에는 고유한 값이 부여되어 있습니다.
U+라는 문자열을 유니코드 문자에 부여된 값 앞에 붙이기도 하는데, 이는 16진수 유니코드를 표현할 때 사용하는 표기입니다
아스키 코드나 EUC-KR처럼 유니코드 문자 집합에 속한 문자에는 고유한 값이 부여되어 있습니다.
예를 들어, 유니코드 문자 집합 상에서 '한', '글'이라는 글자에 부여된 값은 각각 '0xD55C', '0xAE00'입니다.

특징

유니코드는 기존의 문자 집합과 인코딩 방법이 다릅니다.

아스키 코드나 EUC-KR은 글자에 부여된 값을 그대로 인코딩 값으로 삼지만, 유니코드는 부여된 값 자체를 인코딩 된 값으로 삼지 않습니다.
유니코드 문자에 부여된 값을 인코딩하는 방식에는 UTF-8, UTF-16, UTF-32가 있습니다.
UTF-8, UTF-16, UTF-32는 인코딩 결과의 길이가 일정하지 않습니다. (가변 길이 인코딩 방식)
같은 글자에도 인코딩 방식에 따라 다른 값을 제공합니다.

예시

16진수 형태의 코드포인트를 출력하는 코드입니다.

a = hex(ord('한'))
b = hex(ord('글'))
print(a) # result : 0xd55c
print(b) # result : 0xae00

a8 = '한'.encode('utf-8');
a16 = '한'.encode('utf-16');
a32 = '한'.encode('utf-32');

print(a8.hex()) # result : ed959c
print(a16.hex()) # result : fffe5cd5
print(a32.hex()) # result : fffe00005cd50000

728x90

저작자표시 비영리 변경금지 (새창열림)

유쾌하게 풀어내고
깊이 있게 배우는 공간입니다.

도메인 기반 서비스 API 구축

배포와 데이터 흐름 안정화

구조 개선과 테스트 전략 정립

렌더링 성능과 관측성 개선

우수 멘티

우수 인재상

프로그래밍 우수상

AWS한국사용자모임 발표

ComputerScience

Development

Engineering

TroubleShooting

ComputerScience

Development

Engineering

TroubleShooting

우리의 소중한 기록

첫 마음부터
함께 나누는 온기

Contact Us

매일 도착하는 최신 글

최신소식을
편하게 만나보세요.

유니코드 (unicode)

정의

특징

예시

티스토리툴바

유쾌하게 풀어내고 깊이 있게 배우는 공간입니다.

도메인 기반 서비스 API 구축

배포와 데이터 흐름 안정화

구조 개선과 테스트 전략 정립

렌더링 성능과 관측성 개선

우수 멘티

우수 인재상

프로그래밍 우수상

AWS한국사용자모임 발표

ComputerScience

Development

Engineering

TroubleShooting

ComputerScience

Development

Engineering

TroubleShooting

첫 마음부터함께 나누는 온기

Contact Us

최신소식을 편하게 만나보세요.

유니코드 (unicode)

정의

특징

예시

티스토리툴바

유쾌하게 풀어내고
깊이 있게 배우는 공간입니다.

첫 마음부터
함께 나누는 온기

최신소식을
편하게 만나보세요.