久久综合九色综合97婷婷-美女视频黄频a免费-精品日本一区二区三区在线观看-日韩中文无码有码免费视频-亚洲中文字幕无码专区-扒开双腿疯狂进出爽爽爽动态照片-国产乱理伦片在线观看夜-高清极品美女毛茸茸-欧美寡妇性猛交XXX-国产亚洲精品99在线播放-日韩美女毛片又爽又大毛片,99久久久无码国产精品9,国产成a人片在线观看视频下载,欧美疯狂xxxx吞精视频

有趣生活

當(dāng)前位置:首頁>知識(shí)>最快的拼音輸入法是哪一種(秒懂中文拼音輸入法實(shí)現(xiàn)的數(shù)學(xué)原理)

最快的拼音輸入法是哪一種(秒懂中文拼音輸入法實(shí)現(xiàn)的數(shù)學(xué)原理)

發(fā)布時(shí)間:2024-01-22閱讀(10)

導(dǎo)讀英文字母只有26個(gè),可以一個(gè)鍵盤一個(gè)字母的輸入。中文常用字有3500個(gè),中華字海中收入全量簡(jiǎn)體字有8萬5千個(gè),GB2312編碼收入漢字20902個(gè)。也就是說....

英文字母只有26個(gè),可以一個(gè)鍵盤一個(gè)字母的輸入。

中文常用字有3500個(gè),中華字海中收入全量簡(jiǎn)體字有8萬5千個(gè),GB2312 編碼收入漢字20902個(gè)。也就是說無法在一個(gè)漢字一個(gè)鍵盤的方式實(shí)現(xiàn)輸入。

現(xiàn)在回頭看,中文輸入法,基本經(jīng)歷了自然音節(jié)編碼輸入,到偏旁筆畫拆字輸入,再回歸自然音節(jié)輸入的過程。

輸入法輸入漢字的快慢與漢字編碼長(zhǎng)度相關(guān),也就是輸入漢字需要敲擊幾次鍵盤。

一、輸入法前生今世

70年底末,個(gè)人電腦開始誕生。

80年代初,個(gè)人計(jì)算機(jī)開始使用五筆和拼音輸入。

五筆輸入法快速,但是學(xué)習(xí)成本高,需要背誦詞根,嚴(yán)重制約了電腦的普及。需要經(jīng)過長(zhǎng)時(shí)間的訓(xùn)練。

拼音輸入法,常常需要翻很多頁才能找到所需要的漢字。

90年代,拼音輸入法軟件開始支持詞組輸入和整句輸入,能夠做到一邊打拼音的同時(shí)顯示漢字。

1993年朱守濤先生發(fā)明智能ABC輸入法,并被微軟收購納入windows系統(tǒng)中。

1994年的自通輸入法,1996年的神拼輸入法,支持漢語整句輸入。然而,整句輸入錯(cuò)誤率高沒能解決輸入漢字不方便的問題。

1998年,譚亞軍發(fā)明拼音之星軟件,支持實(shí)時(shí)顯示,具有字母輸入容錯(cuò)功能,沒有詞也能自動(dòng)推薦類似的詞。

1999年,出現(xiàn)了拼音加加,自由拼音和考拉輸入法,支持不切換中英文的情況下,直接Enter輸入英文,提升了中英文混合輸入效率。

2000年,智能狂拼提供更智能的輸入,紫光拼音在考拉輸入法基礎(chǔ)上發(fā)展而來,提供更大詞庫,并具有了智能組詞。

2006年,搜狐公司推出搜狗輸入法,該輸入法基于搜索引擎技術(shù)的新一代拼音輸入法產(chǎn)品,用戶可以通過互聯(lián)網(wǎng)備份自己的個(gè)性化詞庫,搜狗拼音輸入法一經(jīng)推出很快取得巨大成功。

谷歌、騰訊、百度和微軟也相繼推出類似的智能拼音輸入法,谷歌拼音輸入、QQ拼音輸入、百度輸入法、必應(yīng)輸入法。

智能手機(jī)時(shí)代,基本就是搜狗、百度、google、必應(yīng)輸入法的天下了。

目前大家使拼音打字是相當(dāng)快了,速度已遠(yuǎn)超英文輸入。

二、輸入法的數(shù)學(xué)原理

輸入法的本質(zhì)時(shí)將方塊形狀的漢字輸入到計(jì)算機(jī)中,將人為約定的信息記錄編碼-漢字,轉(zhuǎn)化為計(jì)算機(jī)約定的編碼(如UTF-8)的轉(zhuǎn)化過程。

1、輸入法與編碼

鍵盤上有26個(gè)字母 10個(gè)數(shù)字。

漢字編碼分為兩部分:對(duì)拼音的編碼和消除歧義的編碼。漢字編碼的長(zhǎng)度取決于這兩方面,只有兩個(gè)編碼都短時(shí),輸入才夠快。

最快的拼音輸入法是哪一種(秒懂中文拼音輸入法實(shí)現(xiàn)的數(shù)學(xué)原理)(1)

最快的拼音輸入法是哪一種(秒懂中文拼音輸入法實(shí)現(xiàn)的數(shù)學(xué)原理)(2)

雙拼的主要問題:

一是鍵盤是只有26個(gè)字母,而漢字的聲母 韻母有50多個(gè),很多韻母共用一個(gè)字母鍵,增加了歧義,就需要不斷的翻頁。

二是增加了每次擊鍵時(shí)間,人在脫稿輸入時(shí),拆字過程會(huì)使得思維變緩慢。

三是雙拼對(duì)讀音的容錯(cuò)性不好,前鼻音an、en、in和后鼻音ang、eng、ing,卷舌音ch、sh、zh和平舌音,編碼完全沒有相似性。大部分人前鼻音和后鼻音、卷舌音和非卷舌音多少有點(diǎn)分不清,在輸入聲母和韻母后,翻了好幾頁也沒有找到自己要得字。

2、輸入一個(gè)漢字需要敲擊幾次鍵盤?

GBK2312 一共有6700多個(gè)常用漢字,每一個(gè)漢字出現(xiàn)的概率:

P1, P2,P3,... , P6700

大致估算需要10個(gè)比特。

輸入法有26個(gè)字母,每個(gè)字母可以代表log26大概是4.7比特,

也就是說平均一個(gè)漢字需要敲擊10/4.7 約等于2.1次鍵。

如果把漢字組成詞,平均輸入一個(gè)字可以少敲幾次鍵盤,

不考慮上下文情況下,以詞為單位統(tǒng)計(jì),漢字信息熵大概是8bit,則平均輸入一個(gè)漢字要敲擊8/4.7 約等于1.7次鍵盤。

考慮上下文情況下,對(duì)漢語建立基于詞的統(tǒng)計(jì)語言模型,漢字信息熵可以降到6bit 左右。則平均輸入一個(gè)漢字敲擊6/4.7 月等于1.3次鍵,那么這是漢字的輸入已經(jīng)比英語快得多了。

紫光拼音,是通過建立大詞庫解立大詞庫,詞越來越多,越來越長(zhǎng),甚至將整句唐詩作為一個(gè)詞,沒有根本做到利用上下文。

利用上下文最好的辦法是借助語言模型,而語言模型對(duì)內(nèi)存要求高,而輸入法不能占有過多的內(nèi)容,因此目前google、搜狗、百度、微軟幾家輸入法基本在同一檔次。

3、拼音轉(zhuǎn)漢字

其實(shí)就是拼音到漢字的轉(zhuǎn)換解碼函數(shù),每輸入一個(gè)字母,就類似導(dǎo)航中車輛每走一步,利用動(dòng)態(tài)規(guī)劃方法不斷調(diào)整輸出。

4、個(gè)性化語言模型

現(xiàn)有漢字拼音輸入法距離信息論極限還有很大距離,從理論上講,只要語言模型足夠大,拼音輸入法的平均敲擊次數(shù)就可以接近理論值。

個(gè)性化的特點(diǎn)是,不同人寫東西主題不同,用詞習(xí)慣不同,說話和寫作水平不同,應(yīng)該各自有自己的語言模型。

通過不斷收集個(gè)人寫的內(nèi)容,訓(xùn)練一個(gè)特定的語言模型,可以較快的接近信息理論值。實(shí)現(xiàn)快速輸入的目的。

TAGS標(biāo)簽:  快的  拼音  輸入法  哪一種  秒懂  最快的拼音輸入法是哪

歡迎分享轉(zhuǎn)載→http://www.avcorse.com/read-89747.html

Copyright ? 2024 有趣生活 All Rights Reserve吉ICP備19000289號(hào)-5 TXT地圖HTML地圖XML地圖