漢字在計算機內有幾種編碼?試簡述每種編碼的意義

2021-03-04 08:13:48 字數 5340 閱讀 5963

1樓:奮鬥

1、輸入碼

輸入碼是用來將漢字輸入到計算機中的一組鍵碟符號。常用的輸入碼有拼音碼、五筆字型碼、自然碼、表形碼、認知碼、區位碼和電報碼等。

2、交換碼

計算機內部處理的資訊是用二進位制**表示的,而二進位制**使用起來是不方便的,於是需要採用資訊交換碼。

3、機內碼

根據國標碼的規定,每一個漢字都有了確定的二進位制**,在微機內部漢字**都用機內碼,在磁碟上記錄漢字**也使用機內碼。

4、漢字的字形碼

字形碼輸出漢字時都採用圖形方式,無論漢字的筆畫多少,每個漢字都可以寫在同樣大小的方塊中。

5、漢字地址碼

漢字地址碼是指漢字型檔中儲存漢字字形資訊的邏輯地址碼。

2樓:匿名使用者

漢字在機內的儲存和表示稱為內碼,供漢字輸入(主要是通過鍵盤進行輸入)的編碼稱為外碼,供計算機輸出(主要是指顯示和列印)的編碼稱為漢字字模。

首先介紹漢字的內碼,計算機處理漢字資訊使用的編碼。計算機處理漢字資訊的前提條件是對每個漢字進行編碼,這些編碼統稱為漢字編碼。漢字資訊在系統內傳送的過程就是漢字編碼轉換的過程。

在這其中又有幾種編碼形式。

1)漢字交換碼

ascii碼是針對英文的字母、數字和其他特殊字元進行編碼的,它不能用於對漢字的編碼。要想用計算機來處理漢字,就必須先對漢字進行適當的編碼。這就是「漢字交換碼」。

我國在2023年5月對6 000多個常用的漢字制定了交換碼的國家標準,即:gb 2312-80,又稱為「國標碼」。該標準規定了漢字交換用的基本漢字字元和一些圖形字元,它們共計7 445個,其中漢字有6 763個。

其中,一級漢字(常用字)3 755個,按漢字拼音字母順序排列,二級漢字3 008個,按部首筆畫次序排列。該標準給定每個字元的二進位制數編碼,即國標碼。

2)區位碼

它是將gb 2312-80的全部字符集組成一個94×94的方陣,每一行稱為一個「區」的編碼方式。在這種編碼中的編號為0l~94:每一列稱為一個「位」,編號也為0l~94,這樣得到gb 2312-80標準中漢字的區點陣圖。

用區點陣圖的位置來表示的漢字編碼,稱為區位碼。

3)機內碼

為了避免ascii碼和國標碼同時使用時產生二義性問題,大部分漢字系統都採用將國標碼每個位元組高位置1作為漢字機內碼。這樣既解決了漢字機內碼與西文機內碼之間的二義性,又使漢字機內碼與國標碼具有極簡單的對應關係。

4)漢字機內碼、國標碼和區位碼3者之間的關係

漢字機內碼、國標碼和區位碼3者之間的關係為:區位碼(十進位制數)的兩個位元組分別轉換為十六進位制數後加20h得到對應的國標碼;機內碼是漢字交換碼(國標碼)兩個位元組的最高位分別加1,即漢字交換碼(國標碼)的兩個位元組分別加80h得到對應的機內碼;區位碼(十進位制數)的兩個位元組分別轉換為十六進位制數後加a0h得到對應的機內碼。

接下來介紹漢字輸入碼(外碼)。

目前,漢字輸入法主要有鍵盤輸入、文字識別和語音識別。鍵盤輸入法是當前漢字輸入的主要方法。它大體可以分為:

流水碼:如區位碼、電報碼、通訊密碼,優點是重碼少,缺點是難於記憶;

音 碼:以漢語拼音為基準輸入漢字,優點是容易掌握,但重位元速率高;

形 碼:根據漢字的字型進行編碼,優點是重碼少,但不容易掌握;

音形碼:將音碼和形碼結合起來,能減少重位元速率,並提高漢字輸入速度。

最後,簡單向大家介紹漢字字模。

供計算機輸出漢字(顯示和列印)用的二進位制數資訊叫漢字字形資訊也稱字模。通用漢字字模點陣規格有:16×16,24×24,32×32,48×48,64×64。

每個點在儲存器中用一個二進位制數儲存,如一個16×16點陣漢字需要32個位元組的儲存空間。

3樓:匿名使用者

* 國標碼(「國標」是中華人民共和國國家標準的簡稱)在中國大陸使用。gb 2312收錄6763個漢字,gbk收錄20912個漢字,最新的gb 18030收錄27533個漢字。

* big5碼。收錄13053個漢字。在臺灣和香港使用的一位元組或兩位元組編碼。

* unicode並不被中國**很好的接受。中國**要求在中國大陸**的軟體必須支援gb 18030編碼。

* 在國際通訊化和軟體設計領域,中日韓統一表意文字編碼收集了漢語、日語、韓語中的漢字集。

4樓:匿名使用者

所謂編碼,是以固定的順序排列字元,並以此做為記錄、存貯、傳遞、交換的統一 內部特徵,這個字元排列順序被稱為「編碼」。 字型檔的編碼是字型檔組織的依據,也是文書處理的基礎。不同國家和地區有不同的編 碼標準,和中文字型檔有關的常見編碼有:

單位元組編碼、gb2312-80、gb12345-90、gbk、u nicode編碼、iso10646 / unicode字符集、gb18030-2000、big5編碼,下面簡要介紹一 下: 單位元組編碼 ms windows:windows latin 1(ansi) ms-dos:

ms-dos latin us macintosh:macintosh roman gb2312-80 全稱是gb2312-80《資訊交換用漢字編碼字符集 基本集》,2023年釋出,是中文信 息處理的國家標準,在大陸及海外使用簡體中文的地區(如新加坡等)是強制使用的唯 一中文編碼。p-windows3.

2和蘋果os就是以gb2312為基本漢字編碼, windows 95/98則 以gbk為基本漢字編碼、但相容支援gb2312。 雙位元組編碼 範圍:a1a1~fefe a1-a9:

符號區,包含682個符號 b0-f7:漢字區,包含6763個漢字 gb碼共收錄6763個簡體漢字、682個符號,其中漢字部分:一級字3755,以拼音排 序,二級字3008,以偏旁排序。

該標準的制定和應用為規範、推動中文資訊化程序起了 很大作用。 gb12345-90 2023年制定了繁體字的編碼標準gb12345-90《資訊交換用漢字編碼字符集 第一輔助 集》,目的在於規範必須使用繁體字的各種場合,以及古籍整理等。該標準共收錄6866 個漢字(比gb2312多103個字,其它廠商的字型檔大多不包括這些字),純繁體的字大概有 2200餘個。

雙位元組編碼 範圍:a1a1~fefe a1-a9:符號區,增加豎排符號 b0-f9:

漢字區,包含6866個漢字 unicode編碼(universal multiple octet coded character set) 國際標準組織於2023年4月成立iso/iec jtc1/sc2/wg2工作組,針對各國文字、符號 進行統一性編碼。2023年美國跨國公司成立unicode consortium,並於2023年10月與wg2 達成協議,採用同一編碼字集。目前unicode是採用16位編碼體系,其字符集內容與iso1 0646的bmp(basic multilingual plane)相同。

unicode於2023年6月通過dis(draf international standard),目前版本v2.0於1996公佈,內容包含符號6811個,漢字209 02個,韓文拼音11172個,造字區6400個,保留20249個,共計65534個。 iso10646 / unicode字符集 全球可以共享的編碼字符集。

ucs-4:組八位 平面八位 行八位 字位八位 ucs-2:00組中的00平面是基本多文種平面(bmp),4e00~9fff 中日韓文字 ext a(cjk):

3400~4db7,共6584字 ext b(cjk):42,807個漢字,在第2平面的0100~a836 gbk編碼(chinese internal code specification) gbk編碼是中國大陸制訂的、等同於ucs的新的中文編碼擴充套件國家標準。gbk工作小組 於2023年10月,同年12月完成gbk規範。

該編碼標準相容gb2312,共收錄漢字21003個、 符號883個,並提供1894個造字碼位,簡、繁體字融於一庫。 windows95/98簡體中文版的字型檔表層編碼就採用的是gbk,通過gbk與ucs之間一一對應的 碼錶與底層字型檔聯絡。 英文名:

chinese internal code specification 中文名:漢字內碼擴充套件規範1.0版 雙位元組編碼,gb2312-80的擴充,在碼位上和gb2312-80相容 範圍:

8140~fefe(剔除xx7f)共23940個碼位 包含21003個漢字,包含了iso/iec 10646-1中的全部中日韓漢字 gb18030-2000 英文名:chinese internal code specification 中文名:資訊科技 資訊交換用漢字編碼字符集 基本集的擴充(

5樓:匿名使用者

只要會電腦的人都知道!

一個漢字對應的編碼有哪幾種,個有什麼作用

6樓:匿名使用者

為漢字設計的一種便於輸入計算機的**。由於電子計算機現有的輸入鍵盤與英文打字機鍵盤完全相容。因而如何輸入非拉丁字母的文字(包括漢字)便成了多年來人們研究的課題。

漢字資訊處理系統一般包括編碼、輸入、儲存、編輯、輸出和傳輸。編碼是關鍵。不解決這個問題,漢字就不能進入計算機。

漢字進入計算機的三種途徑  分別為:

①機器自動識別漢字:計算機通過「視覺」裝置(光學字元閱讀器或其他),用光電掃描等方法識別漢字。

②通過語音識別輸入:計算機利用人們給它配備的「聽覺器官」,自動辨別漢語語音要素,從不同的音節中找出不同的漢字,或從相同音節中判斷出不同漢字。

③通過漢字編碼輸入:根據一定的編碼方法,由人藉助輸入裝置將漢字輸入計算機。

機器自動識別漢字和漢語語音識別,國內外都在研究,雖然取得了不少進展,但由於難度大,預計還要經過相當一段時間才能得到解決。在現階段,比較現實的就是通過漢字編碼方法使漢字進入計算機。

漢字編碼的困難點  漢字進入計算機,有許多困難,其原因主要有三點:

①數量龐大:隨著社會的發展,新字不斷出現,死字沒有淘汰,漢字總數不斷增多。一般認為,現在漢字總數已超過6萬個(包括簡化字)。

雖有研究者主張規定3000多或4000字作為當代通用漢字,但仍比處理由二三十個字母組成的拼音文字要困難得多。

②字形複雜:有古體今體,繁體簡體,正體異體;而且筆畫相差懸殊,少的一筆,多的達36筆,簡化後平均為9.8筆。

③存在大量一音多字和一字多音的現象:漢語音節416個,分聲調後為1295個(根據《現代漢語詞典》統計,輕聲39個未計)。以1萬個漢字計算,每個不帶調的音節平均超過24個漢字,每個帶調音節平均超過7.

7個漢字。有的同音同調字多達66個。一字多音現象也很普遍。

五種型別的編碼法  據粗略統計,現有400多種編碼方案,其中上機通過試驗的和已被採用作為輸入方式的也有數十種之多。歸納起來,不外5種型別:

①整字輸入法:前一階段,一般是將三四千個常用漢字排列在一個具有三四百個鍵位的大鍵盤上。近來,大多是將這些漢字按xy座標排列在一張字表上,通常叫"字表法",或「筆觸字表法」。

比如,x25行和y90列交叉的字為「國」,當電筆點到字表上的「國」字時,機器自動將該字的**2590輸入。鍵盤上或字表中字按部首或按音序或按字義聯想而排列。不常用的字作為盤外字或表外字,另行編碼處理。

②字形分解法:將漢字的形體分解成筆畫或部件,按一定順序輸進機器。筆畫一般分成 8種:橫(一)、豎(丨)、撇(丿)、點(丶)、折(

計算機有哪幾種型別,計算機的種類有幾種?

計算機可分為超級計算機 工業控制計算機 網路計算機 個人計算機 嵌入式計算機五類,較先進的計算機有生物計算機 光子計算機 量子計算機等。二 特點 1 超級計算機是計算機中功能最強 運算速度最快 儲存容量最大的一類計算機,是國家科技發展水平和綜合國力的重要標誌。超級計算機擁有最強的平行計算能力,主要用...

有沒有安卓蘋果計算機程式設計,有沒有教計算機程式設計的APP

系統不是一個人能完成的,系統是合理組織硬體的,最適合硬體的系統,才是好系統,最好從嵌入式學起 一般情況下手機最好不要root,因為root了以後,售後就不會保修。如果不需要保修,可以去root的。除非有必要的時候,有的軟體必須root才能安裝。中標標準,當然其中也帶有僱主的主觀喜好,中標人數較少,大...

計算機考試種類,計算機的種類有幾種?

一 全國計算機等級考試 是教育部考試中心主辦,用於測試應試人員計算機應用知識與能力的等級水平考試。其目的在於推進計算機知識的普及,促進計算機技術的推廣應用,以適應社會主義經濟建設的需要,為用人部門錄用和考核工作人員服務。該考試面向社會,服務於勞動力市場,為人員擇業 人才流動提供其計算機應用知識與能力...