TIẾT 56
BÀI 3: MỘT SỐ KIỂU DỮ LIỆU VÀ DỮ LIỆU VĂN BẢN (KNTTVCS)
1. Phân loại và biểu
diễn thông tin trong máy tính
- Biểu diễn thông tin: Là việc mã hoá thông tin thành dữ liệu nhị
phân, và là bước đầu để có thể đưa thông tin vào máy tính.
- Việc phân loại kiểu dữ liệu để có cách biểu
diễn phù hợp nhằm tạo thuận lợi cho việc xử lý thông tin trong máy tính. Gồm
các loại: Văn bản; số; Đa phương tiện (hình ảnh, âm thanh) và Lôgic.
2. Biểu diễn dữ liệu
văn bản
a) Bảng mã ASCII
(American Standard Code For Information Interchange)
- Là bảng mã được dùng phổ biến nhất trong
tin học.
- Bảng mã ASCII ban đầu: Sử dụng 7 bit mã hoá được 2⁷ = 128 ký tự.
- Bảng mã ASCII mở rộng: Sử dụng 8 bit mã hoá được 2⁸ = 256 ký tự
(Giữ nguyên 128 ký tự cũ và thêm vào 128 ký tự mới).
- Muốn lấy mã nhị phân của một ký tự thì
ghép 4 bit ở chỉ số hàng với 4 bit ở chỉ số cột tương ứng với ký tự.
Yêu cầu: Tra Bảng phụ lục trang 165 để xác định mã thập phân và nhị phân của các ký tự sau: “A”, “Z”, “a”, “z”, “0”, “9”.
|
Ký tự |
Mã |
Ký tự |
Mã |
||
|
Thập phân |
Nhị phân |
Thập phân |
Nhị phân |
||
|
A |
z |
|
|||
|
Z |
0 |
|
|||
|
a |
9 |
|
|||
b) Bảng mã Unicode và tiếng Việt trong Unicode
- Unicode là bảng mã hợp nhất quốc tế, cho
phép tạo ra các ứng dụng đa ngôn ngữ. Mỗi ký tự Unicode có thể được mã hoá
bởi nhiều byte.
- Năm 2001 Việt Nam đã ban hành Tiêu chuẩn
TCVN 6909 : 2001 về Bộ mã ký tự tiếng Việt 16-bit để sử dụng chung và phù
hợp với tiêu chuẩn quốc tế về Unicode.
- Năm 2017 Việt Nam đã ban hành quy định bắt
buộc sử dụng UTF-8 để biểu diễn bộ ký tự Unicode trong máy tính.
Vậy, các bảng mã ASCII và Unicode là quy định cách biểu diễn ký tự trong máy tính.
c) Số hoá văn bản: Là quá trình đưa các loại văn bản, tài liệu ở
dạng giấy vào máy tính để lưu trữ và xử lý.