最快的拼音輸入法是哪一種（秒懂中文拼音輸入法實(shí)現(xiàn)的數(shù)學(xué)原理）

發(fā)布時(shí)間：2024-01-22閱讀(10)

導(dǎo)讀英文字母只有26個(gè)，可以一個(gè)鍵盤一個(gè)字母的輸入。中文常用字有3500個(gè)，中華字海中收入全量簡(jiǎn)體字有8萬5千個(gè),GB2312編碼收入漢字20902個(gè)。也就是說....

英文字母只有26個(gè)，可以一個(gè)鍵盤一個(gè)字母的輸入。

中文常用字有3500個(gè)，中華字海中收入全量簡(jiǎn)體字有8萬5千個(gè),GB2312 編碼收入漢字20902個(gè)。也就是說無法在一個(gè)漢字一個(gè)鍵盤的方式實(shí)現(xiàn)輸入。

現(xiàn)在回頭看，中文輸入法，基本經(jīng)歷了自然音節(jié)編碼輸入，到偏旁筆畫拆字輸入，再回歸自然音節(jié)輸入的過程。

輸入法輸入漢字的快慢與漢字編碼長(zhǎng)度相關(guān)，也就是輸入漢字需要敲擊幾次鍵盤。

一、輸入法前生今世

70年底末，個(gè)人電腦開始誕生。

80年代初，個(gè)人計(jì)算機(jī)開始使用五筆和拼音輸入。

五筆輸入法快速，但是學(xué)習(xí)成本高，需要背誦詞根，嚴(yán)重制約了電腦的普及。需要經(jīng)過長(zhǎng)時(shí)間的訓(xùn)練。

拼音輸入法，常常需要翻很多頁才能找到所需要的漢字。

90年代，拼音輸入法軟件開始支持詞組輸入和整句輸入，能夠做到一邊打拼音的同時(shí)顯示漢字。

1993年朱守濤先生發(fā)明智能ABC輸入法，并被微軟收購納入windows系統(tǒng)中。

1994年的自通輸入法，1996年的神拼輸入法，支持漢語整句輸入。然而，整句輸入錯(cuò)誤率高沒能解決輸入漢字不方便的問題。

1998年，譚亞軍發(fā)明拼音之星軟件，支持實(shí)時(shí)顯示，具有字母輸入容錯(cuò)功能，沒有詞也能自動(dòng)推薦類似的詞。

1999年，出現(xiàn)了拼音加加，自由拼音和考拉輸入法，支持不切換中英文的情況下，直接Enter輸入英文，提升了中英文混合輸入效率。

2000年，智能狂拼提供更智能的輸入，紫光拼音在考拉輸入法基礎(chǔ)上發(fā)展而來，提供更大詞庫，并具有了智能組詞。

2006年，搜狐公司推出搜狗輸入法，該輸入法基于搜索引擎技術(shù)的新一代拼音輸入法產(chǎn)品，用戶可以通過互聯(lián)網(wǎng)備份自己的個(gè)性化詞庫，搜狗拼音輸入法一經(jīng)推出很快取得巨大成功。

谷歌、騰訊、百度和微軟也相繼推出類似的智能拼音輸入法，谷歌拼音輸入、QQ拼音輸入、百度輸入法、必應(yīng)輸入法。

智能手機(jī)時(shí)代，基本就是搜狗、百度、google、必應(yīng)輸入法的天下了。

目前大家使拼音打字是相當(dāng)快了，速度已遠(yuǎn)超英文輸入。

二、輸入法的數(shù)學(xué)原理

輸入法的本質(zhì)時(shí)將方塊形狀的漢字輸入到計(jì)算機(jī)中，將人為約定的信息記錄編碼-漢字，轉(zhuǎn)化為計(jì)算機(jī)約定的編碼（如UTF-8）的轉(zhuǎn)化過程。

1、輸入法與編碼

鍵盤上有26個(gè)字母 10個(gè)數(shù)字。

漢字編碼分為兩部分：對(duì)拼音的編碼和消除歧義的編碼。漢字編碼的長(zhǎng)度取決于這兩方面，只有兩個(gè)編碼都短時(shí)，輸入才夠快。

最快的拼音輸入法是哪一種（秒懂中文拼音輸入法實(shí)現(xiàn)的數(shù)學(xué)原理）(1)

最快的拼音輸入法是哪一種（秒懂中文拼音輸入法實(shí)現(xiàn)的數(shù)學(xué)原理）(2)

雙拼的主要問題：

一是鍵盤是只有26個(gè)字母，而漢字的聲母韻母有50多個(gè)，很多韻母共用一個(gè)字母鍵，增加了歧義，就需要不斷的翻頁。

二是增加了每次擊鍵時(shí)間，人在脫稿輸入時(shí)，拆字過程會(huì)使得思維變緩慢。

三是雙拼對(duì)讀音的容錯(cuò)性不好，前鼻音an、en、in和后鼻音ang、eng、ing，卷舌音ch、sh、zh和平舌音，編碼完全沒有相似性。大部分人前鼻音和后鼻音、卷舌音和非卷舌音多少有點(diǎn)分不清，在輸入聲母和韻母后，翻了好幾頁也沒有找到自己要得字。

2、輸入一個(gè)漢字需要敲擊幾次鍵盤？

GBK2312 一共有6700多個(gè)常用漢字，每一個(gè)漢字出現(xiàn)的概率：

P1， P2，P3，... ， P6700

大致估算需要10個(gè)比特。

輸入法有26個(gè)字母，每個(gè)字母可以代表log26大概是4.7比特，

也就是說平均一個(gè)漢字需要敲擊10/4.7 約等于2.1次鍵。

如果把漢字組成詞，平均輸入一個(gè)字可以少敲幾次鍵盤，

不考慮上下文情況下，以詞為單位統(tǒng)計(jì)，漢字信息熵大概是8bit，則平均輸入一個(gè)漢字要敲擊8/4.7 約等于1.7次鍵盤。

考慮上下文情況下，對(duì)漢語建立基于詞的統(tǒng)計(jì)語言模型，漢字信息熵可以降到6bit 左右。則平均輸入一個(gè)漢字敲擊6/4.7 月等于1.3次鍵，那么這是漢字的輸入已經(jīng)比英語快得多了。

紫光拼音，是通過建立大詞庫解立大詞庫，詞越來越多，越來越長(zhǎng)，甚至將整句唐詩作為一個(gè)詞，沒有根本做到利用上下文。

利用上下文最好的辦法是借助語言模型，而語言模型對(duì)內(nèi)存要求高，而輸入法不能占有過多的內(nèi)容，因此目前google、搜狗、百度、微軟幾家輸入法基本在同一檔次。

3、拼音轉(zhuǎn)漢字

其實(shí)就是拼音到漢字的轉(zhuǎn)換解碼函數(shù)，每輸入一個(gè)字母，就類似導(dǎo)航中車輛每走一步，利用動(dòng)態(tài)規(guī)劃方法不斷調(diào)整輸出。

4、個(gè)性化語言模型

現(xiàn)有漢字拼音輸入法距離信息論極限還有很大距離，從理論上講，只要語言模型足夠大，拼音輸入法的平均敲擊次數(shù)就可以接近理論值。

個(gè)性化的特點(diǎn)是，不同人寫東西主題不同，用詞習(xí)慣不同，說話和寫作水平不同，應(yīng)該各自有自己的語言模型。

通過不斷收集個(gè)人寫的內(nèi)容，訓(xùn)練一個(gè)特定的語言模型，可以較快的接近信息理論值。實(shí)現(xiàn)快速輸入的目的。

TAGS標(biāo)簽：快的拼音輸入法哪一種秒懂最快的拼音輸入法是哪

歡迎分享轉(zhuǎn)載→http://www.avcorse.com/read-89747.html

上一篇：腳的畫法簡(jiǎn)筆畫步驟（怎么畫腳丫簡(jiǎn)筆畫）

下一篇：重陽節(jié)登高指的是爬山嗎

精品推薦

生活中的人生感悟說說，字字千金，富含哲理！
發(fā)布時(shí)間：2024-05-13

生活標(biāo)簽

公開地圖不可以表示什佛跳墻里面都有什么食怎么疏通馬桶玉米和黃豆哪種不算五河蚌吃魚屎?jiǎn)?/a>交通工具的變化五種常見的白蟻塑料5號(hào)能裝開水嗎高鐵去哪里補(bǔ)票怎么綁氣球關(guān)于中國(guó)的介紹消防應(yīng)急疏散演練流程消防水帶保質(zhì)期幾年兔的住所稱什么所稱中國(guó)有哪些博物館館中飛船一般在太空離地面搬家舊被子和床單怎么瓦罐寺在什么地方瓦罐寺餃子種類沒有太陽地球會(huì)怎樣小梧桐山海拔多少米梧桐山無骨烤魚飯用的什么魚栗子怎么開口新鮮桂花可以直接泡蜂為什么要在太空建立空家里有螞蟻怎么徹底消漢族的特點(diǎn)有什么老鼠在家里怎么趕走保護(hù)大象的宣傳語志愿服務(wù)模式有哪些衣服放柜子里為什么會(huì)洛陽高鐵站是哪個(gè)站握手用哪只手綠豆要幾天才能發(fā)芽高鐵站和火車站是一個(gè)常見的創(chuàng)新方法有哪些暖氣加防凍液的利弊快遞能郵寄寵物嗎螺螄粉里面有沒有螺螄保護(hù)地球的建議10條猴子吃香蕉為什么要張科莫多龍的天敵多龍地震完了還會(huì)繼續(xù)震嗎震嗎手機(jī)掉廁所怎么消毒干更多…

最快的拼音輸入法是哪一種（秒懂中文拼音輸入法實(shí)現(xiàn)的數(shù)學(xué)原理）

相關(guān)文章

精品推薦

生活標(biāo)簽

圖片生活

點(diǎn)擊排行