占쏙옙은 EUC-KR에서 발생하는 글자 깨짐의 일종이다. UTF-8에서 ��로 표시되어있던 글을 EUC-KR로 인코딩하면 占쏙옙으로 바뀐다.
원리
�는 UTF-8 인코딩에서 16진 코드로 EF BF BD이고, ��는 EF BF BD | EF BF BD가 된다. UTF-8은 한 번에 3 바이트를 읽으며, EUC-KR은 한 번에 2 바이트를 읽는다. 따라서, ��를 EUC-KR로 인코딩하면 EF BF | BD EF | BF BD가 되고, 각각의 코드는 占, 쏙, 옙에 대응되어 결과적으로 ��이 占쏙옙으로 바뀌는 것이다.
16진 코드
결과
적혀있는 코드
EF BF BD EF BF BD
UTF-8
EF BF BD
EF BF BD
��
EUC-KR
EF BF
BD EF
BF BD
占쏙옙
변형
占쌍는듸옙, 占식댐옙, 占쌘듸옙과 같이 占쏙옙 외에도 여러 가지 단어가 나오기도 한다. 숯~쐰 사이의 글자는 모두 16진 코드가 BD로 시작하기 때문에, 맨 처음 글자는 占(EF BF)이고 그 다음 글자가 숯~쐰 사이의 글자라면 UTF-8로 인코딩했을 때 첫 글자가 �로 보이게 된다.