当前位置 - 股票行情交易網 - 金融財經 - 佳能MP198壹體機,怎樣把手寫的文字掃描到電腦裏,直接轉成word文檔,進行編輯

佳能MP198壹體機,怎樣把手寫的文字掃描到電腦裏,直接轉成word文檔,進行編輯

掃描文字,結果以圖片格式(.bmp)存入電腦。然後使用ORC識別系統進行轉換,最終用WORD進行修改編輯。下面教妳如何使用ORC:

OCR是英文Optical Character Recognition的縮寫,翻譯成中文就是通過光學技術對文字進行識別的意思, 是自動識別技術研究和應用領域中的壹個重要方面。它是壹種能夠將文字自動識別錄入到電腦中的軟件技術,是與掃描儀配套的主要軟件,屬於非鍵盤輸入範疇,需要圖像輸入設備主要是掃描儀相配合。現在OCR主要是指文字識別軟件,在1996年清華紫光開始搭配中文識別軟件之前,市場上的掃描儀和OCR軟件壹直是分開銷售的,專業的OCR軟件讜縲┦焙蚵艫帽壬?枰腔掛?蟆K孀派?枰欠直媛實奶嶸?琌CR軟件也在不斷升級,掃描儀廠商現在已把專業的OCR軟件搭配自己生產的掃描儀出售。OCR技術的迅速發展與掃描儀的廣泛使用是密不可分的,近兩年隨著掃描儀逐漸普及和OCR技術的日臻完善,OCR己成為絕大多數掃描儀用戶的得力助手。

壹、OCR技術的發展歷程

自20世紀60年代初期出現第壹代OCR產品開始,經過30多年的不斷發展改進,包括手寫體的各種OCR技術的研究取得了令人矚目的成果,人們對OCR產品的功能要求也從原來的單純註重識別率,發展到對整個OCR系統的識別速度、用戶界面的友好性、操作的簡便性、產品的穩定性、適應性、可靠性和易升級性、售前售後服務質量等各方面提出更高的要求。

IBM公司最早開發了OCR產品,1965年在紐約世界博覽會上展出了IBM公司的OCR產品——IBMl287。當時的這款產品只能識別印刷體的數字、英文字母及部分符號,並且必須是指定的字體。20世紀60年代末,日立公司和富士通公司也分別研制出各自的OCR產品。全世界第壹個實現手寫體郵政編碼識別的信函自動分揀系統是由日本東芝公司研制的,兩年後NEC公司也推出了同樣的系統。到了1974年,信函的自動分揀率達到92%左右,並且廣泛地應用在郵政系統中,發揮著較好的作用。1983年日本東芝公司發布了其識別印刷體日文漢字的OCR系統OCRV595,其識別速度為每秒70~100個漢字,識別率為99.5%。其後東芝公司又開始了手寫體日文漢字識別的研究工作。

中國在OCR技術方面的研究工作相對起步較晚,在20世紀70年代才開始對數字、英文字母及符號的識別技術進行研究,20世紀70年代末開始進行漢字識別的研究。1986年,國家863計劃信息領域課題組織了清華大學、北京信息工程學院、沈陽自動化所三家單位聯合進行中文OCR軟件的開發工作。至1989年,清華大學率先推出了國內第壹套中文OCR軟件--清華文通TH-OCR1.0版,至此中文OCR正式從實驗室走向了市場。清華OCR印刷體漢字識別軟件其後又推出了TH-OCR 92高性能實用簡/繁體、多字體、多功能印刷漢字識別系統,使印刷體漢字識別技術又取得重大進展。到1994年推出的TH-OCR 94高性能漢英混排印刷文本識別系統,則被專家鑒定為“是國內外首次推出的漢英混排印刷文本識別系統,總體上居國際領先水平”。上個世紀90年代中後期,清華大學電子工程系提出並進行了漢字識別綜合研究,使漢字識別技術在印刷體文本、聯機手寫漢字識別、脫機手寫漢字識別和脫機手寫數字符號識別等領域全面地取得了重要成果。具有代表性的成果是TH-OCR 97綜合集成漢字識別系統,它可以完成多文種(漢、英、日)印刷文本、聯機手寫漢字、脫機手寫漢字和手寫數字的識別輸入。幾年來,除清華文通TH-OCR外,其它如尚書SH-OCR等各具風格的OCR軟件也相繼問世,中文OCR市場穩步擴大,用戶遍布世界各地。

可以說目前印刷體OCR的識別技術已經達到較高水平。OCR產品已由早期的只能識別指定的印刷體數字、英文字母和部分符號,發展成為可以自動進行版面分析、表格識別,實現混合文字、多字體、多字號、橫豎混排識別的強大的計算機信息快速錄入工具。對印刷體漢字的識別率達到98%以上,即使對印刷質量較差的文字其識別率也達到95%以上。可識別宋體、黑體、楷體、仿宋體等多種字體的簡、繁體,並且可以對多種字體、不同字號混合排版進行識別,對手寫體漢字的識別率達到70%以上。特別是我國的漢字OCR技術經過十幾年的努力,克服了起步晚、漢字字符集異常龐大等困難,單字的識別速度(指在單位時間內所完成的從特征提取到識別結果輸出的字數)可以達到70字/秒以上。由於印刷體OCR漢字識別技術已經比較成熟,所以OCR產品被廣泛地應用在新聞、印刷、出版、圖書館、辦公自動化等各個行業。

專業型OCR產品多是面向特定的行業,即適用於每天需處理大量表格信息錄入的部門,如郵政、稅務、海關、統計等等。這種面向特定行業的專業型OCR系統,格式較為固定,識別的字符集相對較小,經常與專用的輸入設備結合使用,因此具有速度快、效率高等特點,比如郵件自動分揀系統等。

手寫文稿的識別直到1996、1997年才開始有產品問世,而且是作為印刷文稿識別產品的壹項附加功能提供的。由於人寫字的習慣千差萬別,實現自由手寫體識別相當困難,所以手寫體OCR技術的使用領域是聯機手寫體識別,即人壹邊寫,計算機壹邊識別,是壹種實時識別方式。

二、OCR的基本原理

簡單地說,OCR的基本原理就是通過掃描儀將壹份文稿的圖像輸入給計算機,然後由計算機取出每個文字的圖像,並將其轉換成漢字的編碼。其具體工作過程是,掃描儀將漢字文稿通過電荷耦合器件CCD將文稿的光信號轉換為電信號,經過模擬/數字轉換器轉化為數字信號傳輸給計算機。計算機接受的是文稿的數字圖像,其圖像上的漢字可能是印刷漢字,也可能是手寫漢字,然後對這些圖像中的漢字進行識別。對於印刷體字符,首先采用光學的方式將文檔資料轉換成原始黑白點陣的圖像文件,再通過識別軟件將圖像中的文字轉換成文本格式,以便文字處理軟件的進壹步加工。其中文字識別是OCR的重要技術。

1.OCR識別的兩種方式

與其它信息數據壹樣,在計算機中所有掃描儀捕捉到的圖文信息都是用0、1這兩個數字來記錄和進行識別的,所有信息都只是以0、1保存的壹串串點或樣本點。OCR識別程序識別頁面上的字符信息,主要通過單元模式匹配法和特征提取法兩種方式進行字符識別。

單元模式匹配識別法(Pattern Matching)是將每壹個字符與保存有標準字體和字號位圖的文件進行不嚴格的比較。如果應用程序中有壹個已保存字符的大數據庫,則應用程序會選取合適的字符進行正確的匹配。軟件必須使用壹些處理技術,找出最相似的匹配,通常是不斷試驗同壹個字符的不同版本來比較。有些軟件可以掃描壹頁文本,並鑒別出定義新字體的每壹個字符。有些軟件則使用自己的識別技術,盡其所能鑒別頁面上的字符,然後將不可識別的字符進行人工選擇或直接錄入。

特征提取識別法(Feature Extraction)是將每個字符分解為很多個不同的字符特征,包括斜線、水平線和曲線等。然後,又將這些特征與理解(識別)的字符進行匹配。舉個簡單的例子,應用程序識別到兩條水平橫線,它就會“認為”該字符可能是“二”。特征提取法的優點是可以識別多種字體,例如中文書法體就是采用特征提取法實現字符識別的。

多數OCR應用軟件都加入了語法智能檢查功能,這種功能進壹步提高了識別率。它主要通過上下文檢查法實現拼寫和語法的糾正,在文字識別時,OCR應用程序會做多次的上下文銜接性檢查,根據程序中已經存在的詞組、固定的用詞順序,對應的檢查字符串的用詞字。比較高級的應用軟件會自動用它“認為”正確的詞語替換錯誤詞語,糾正語句意思。

2.文字識別的幾個步驟

文字識別包括以下幾個步驟:圖文輸入、預處理、單字識別和後處理等。

(1)圖文輸入

是指通過輸入設備將文檔輸入到計算機中,也就是實現原稿的數字化。現在用得比較普遍的設備是掃描儀。文檔圖像的掃描質量是OCR軟件正確識別的前提條件。恰當地選擇掃描分辨率及相關參數,是保證文字清楚、特征不丟失的關鍵。此外,文檔盡可能地放置端正,以保證預處理檢測的傾斜角小,在進行傾斜校正後,文字圖像的變形就小。這些簡單的操作,會使系統的識別正確率有所提高。反之,由於掃描設置不當,文字的斷筆過多可能會分檢出半個文字的圖像。文字斷筆和筆畫粘連會造成有些特征丟失,在將其特征與特征庫比較時,會使其特征距離加大,識別錯誤率上升。

(2)預處理

掃描壹幅簡單的印刷文檔的圖像,將每壹個文字圖像分檢出來交給識別模塊識別,這壹過程稱為圖像預處理。預處理是指在進行文字識別之前的壹些準備工作,包括圖像凈化處理,去掉原始圖像中的顯見噪聲(幹擾)。主要任務是測量文檔放置的傾斜角,對文檔進行版面分析,對選出的文字域進行排版確認,對橫、豎排版的文字行進行切分,每壹行的文字圖像的分離,標點符號的判別等。這壹階段的工作非常重要,處理的效果直接影響到文字識別的準確率。

版面分析是對文本圖像的總體分析,是將文檔中的所有文字塊分檢出來,區分出文本段落及排版順序,以及圖像、表格的區域。將各文字塊的域界(域在圖像中的始點、終點坐標),域內的屬性(橫、豎排版方式)以及各文字塊的連接關系作為壹種數據結構,提供給識別模塊自動識別。對於文本區域直接進行識別處理,對於表格區域進行專用的表格分析及識別處理,對於圖像區域進行壓縮或簡單存儲。行字切分是將大幅的圖像先切割為行,再從圖像行中分離出單個字符的過程。

(3)單字識別

單字識別是體現OCR文字識別的核心技術。從掃描文本中分檢出的文字圖像,由計算機將其圖形、圖像轉變成文字的標準代碼,是讓計算機“認字”的關鍵,也就是所謂的識別技術。就像人腦認識文字是因為在人腦中已經保存了文字的各種特征,如文字的結構、文字的筆畫等。要想讓計算機來識別文字,也需要先將文字的特征等信息儲存到計算機裏,但要儲存什麽樣的信息及怎樣來獲取這些信息是壹個很復雜的過程,而且要達到非常高的識別率才能符合要求。通常采用的做法是根據文字的筆畫、特征點、投影信息、點的區域分布等進行分析。

中國漢字常用的就有幾千,識別技術就是特征比較技術,通過和識別特征庫的比較,找到特征最相似的字,提取該文字的標準代碼,即為識別結果。比較是人們認識事物的壹種基本方法,漢字識別也是通過比較找出漢字之間的相同、相似、相異,把握其量和質的關系,以及時間與空間的關系等。對於大字符集的漢字壹般采用多級分類,多特征、全方位動態匹配求相似集,以保證分類率高、適應性強、穩定性好;細分類重點在於對相似集求異匹配、加權處理、結構判別,定量、定性分析,以及前後聯接詞的關系,最後進行判別。漢字識別實質上是比較科學或認知科學在人工智能方面的應用,其關鍵技術是識別特征庫。計算機有了這樣的壹個特征庫,才能完成認字的功能。

在圖像文檔的版面中,除了有文字、圖片,有時還會有表格存在,為了使識別後的表格數字化,需要在版面分析過程中,對表格域進行特殊的處理,它包括對表格線的結構信息的提取,對表格內文字域的分檢,完成對表格線和對文字域的識別,並根據表格線的數字化生成不同的文件格式。由於文檔中的表格隨意性大,格式多樣,有封閉式的,也有開放式的,特別是表格中的斜線,給表格分析造成壹定的困難。

(4)後處理

後處理是指對識別出的文字或多個識別結果采用詞組方式進行上下匹配,即將單字識別的結果進行分詞,與詞庫中的詞組進行比較,以提高系統的識別率,減少誤識率。

漢字字符識別是文字識別領域最為困難的問題,它涉及模式識別、圖像處理、數字信號處理、自然語言理解、人工智能、模糊數學、信息論、計算機、中文信息處理等學科,是壹門綜合性技術。近幾年來,印刷漢字識別系統的單字識別正確率已經超過95%,為了進壹步提高系統的總體識別率,掃描圖像、圖像的預處理以及識別後處理等方面的技術也都得到了深入的研究,並取得了長足的進展,有效地提高了印刷漢字識別系統的總體性能。清華大學在此方面的研究成果突出,已經成為世界上的最具權威的機構之壹。目前,清華紫光的全系列掃描儀中都配裝了清華OCR千禧版軟件,它在識別率、表格識別甚至規範手寫體的識別方面,均達到了較高水平。

三、OCR文字識別技巧

在最近幾年中,OCR識別技術隨著掃描儀的普及得到了飛速的發展,掃描、識別軟件的性能不斷強大並向智能化不斷升級發展。但是要想快速地獲取正確的掃描結果,得到高效率的文字錄入,必須認真學習有關知識,結合實踐經驗,摸索出自己的全套解決方案。有時我們在作文字識別工作時識別率非常低,根本達不到軟件所說的95%以上,請先不要責怪硬件或軟件,其實這是沒有掌握好掃描及OCR識別技巧的原因。

下面是文字識別操作中經常用到了壹些方法和技巧。

1.分辨率的設置是文字識別的重要前提。壹般來講,掃描儀提供較多的圖像信息,識別軟件比較容易得出識別結果。但也不是掃描分辨率設得越高識別正確率就越高。選擇300dpi或400dpi分辨率,適合大部分文檔掃描。註意文字原稿的掃描識別,設置掃描分辨率時千萬不要超過掃描儀的光學分辨率,不然會得不償失。下面是部分典型設置,僅供參考。

(1)1、2、3號字的文章段,推薦使用200dpi。

(2)4、小4、5號字的文章段,推薦使用300dpl

(3)小5、6號字的文章段,推薦使用400dpl

(4)7、8號字的文章段,推薦使用600dpi。

2. 掃描時適當地調整好亮度和對比度值,使掃描文件黑白分明。這對識別率的影響最為關鍵,掃描亮度和對比度值的設定以觀察掃描後的圖像中漢字的筆畫較細但又不斷開為原則。進行識別前,先看看掃描得到的圖像中文字質量如何,如果圖像存在黑點或黑斑時或文字線條很粗很黑,分不清筆畫時,說明亮度值太小了,應該增加亮度值在試試;如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴重殘缺時,說明亮度值太大了,應減小亮度後再試試。

3.選好掃描軟件。選壹款好的適合自己的OCR軟件是作好文字識別工作的基礎,壹般不要使用掃描儀自帶的OEM軟件,OEM的OCR軟件的功能少、效果差,有的甚至沒有中文識別,經過比較,我認為清華紫光OCR2003專業版和尚書OCR6.0文本自動識別輸入系統的識別能力與使用功能更突出壹些。再選壹個圖像軟件,OCR軟件不是有掃描接口嗎?為什麽還找圖像軟件?第壹,OCR軟件不能識別所有的掃描儀;第二,也是最關鍵的,利用圖像軟件的掃描接口掃描出來的圖像便於處理;壹般選用PHOTOSHOP。

4.如果要進行的文本是帶有格式的,如粗體、斜體、首行縮進等,部分OCR軟件識別不出來,會丟失格式或出現亂碼。如果必須掃描帶有格式的文本,事先要確保使用的識別軟件是否支持文字格式的掃描。也可以關閉樣式識別系統,使軟件集中註意力查找正確的字符,不再顧及字體和字體格式。