ในการประมวลผลข้อมูลที่เป็นภาษาไทย หลักพื้นฐานของตัวอักษรไทยแตกต่างกับภาษาอังกฤษเดิมที่ใช้คอมพิวเตอร์ คือ โครงสร้างภาษาไทยมีถึง ๔ ระดับ และไม่มีการเว้นวรรคระหว่างคำ
โครงสร้างตัวอักษรภาษาไทย มีการแบ่งตามระดับการจัดเรียงพิมพ์ ดังต่อไปนี้
ระดับที่ ๑ ได้แก่ ตัวอักษรเหล่านี้ จะเลื่อนไปอยู่ในระดับที่ ๒ ถ้าตำแหน่งนั้นไม่มีตัวอักษรอื่นอยู่
ระดับที่ ๒ได้แก่ และ ํ (นิคหิต)
ระดับที่ ๓ ได้แก่ ก ข ............ฮ ำ เ แ โ ใ ไ ะ า ๆ และ ฯ
ระดับที่ ๔ ได้แก่ ุ ู ฺ (พิณทุ)
ตัวอักษรเหล่านี้ เมื่อปรากฏบนจอเครื่องคอมพิวเตอร์ตัวอักษรจะแสดงในลักษณะรูปโมเสกเป็นช่องๆ ดังนั้นระดับที่ ๑ อาจห่างจากระดับที่ ๒ ทำให้ดูไม่สวยงาม จึงใช้วิธีการสร้างตัวอักษร โดยแสดงด้วยการรวมตัวอักษรระดับที่ ๑ และระดับที่ ๒ เข้าด้วยกัน ซึ่งจะได้เป็นระดับรวม (combine) ซึ่งได้แก่
.................
เมื่อเป็นเช่นนั้น ระดับการแสดงผลจะเหลือเพียง ๓ บรรทัด ซึ่งในที่นี้จะใช้ได้ดังนี้
ระดับบน ได้แก่ สระตัวบนทั้งหมดทั้งที่แยกตัวและรวมกับวรรณยุกต์
ระดับปกติ ได้แก่ พยัญชนะและสระที่อยู่บน บรรทัดกลาง
ระดับล่าง ได้แก่ บรรทัดล่างซึ่งมีสระ ุ ู และ ฺ (พิณทุ)
ในการประมวลผลตัวอักษรนั้น จำเป็นต้องเปลี่ยนรูปแบบของตัวอักษรให้เป็นรหัส เพื่อให้อุปกรณ์เครื่องจักรต่างๆ เข้าใจ รหัสเพื่อแทนความหมายสำหรับใช้ในการสื่อสารมีมานานแล้ว มนุษย์สมัยโบราณใช้ควันไฟเป็นรหัส ใช้สัญญาณเสียง ที่ตะโกนส่งต่อกัน เป็นการแสดงความหมาย แต่รหัสที่ใช้ให้มนุษย์ติดต่อสื่อสารกับเครื่องจักรได้ในยุคแรก คือ รหัสโทรเลข ซึ่งได้แก่ รหัสโทรเลขแบบมอร์ส (Morse code) ซึ่งได้คิดขึ้นโดยมอร์ส (Samuel Morse, ค.ศ. ๑๗๙๑- ๑๘๗๒, ศิลปินและนักประดิษฐ์ ชาวอเมริกัน) เริ่มใช้กันมาครั้งแรกใน พ.ศ. ๒๓๗๗ และแพร่หลายกันจนเป็นรหัสสากล