什么是NLP?NLP的兩個核心任務(wù)是什么?
如上圖所示,左邊的圖是直接使用Faster RCNN中的RPN來進(jìn)行候選框提取,可以看出,這種候選框太粗糙了,效果并不好。而右圖是使用CTPN+RNN進(jìn)行候選框提取,利用許多小候選框來合并成一個大文本預(yù)測框,可以看出這個算法的效果非常不錯。
當(dāng)然,CTPN也有一個很明顯的缺點(diǎn):對于非水平的文本的檢測效果并不好。
3、SegLink
SegLink(CTPN+SSD):通常用于自然場景下,檢測多角度文本。
【文獻(xiàn)】Detecting Oriented Text in Natural Images by Linking Segments
上圖的綠色框的檢測效果才是我們的終極目標(biāo)。那么怎么基于原來經(jīng)典的目標(biāo)檢測算法做相應(yīng)的優(yōu)化以適應(yīng)這種檢測效果的要求呢?
SegLink采取了一個思路那就是:讓模型再學(xué)習(xí)一個參數(shù)θ,這個θ表示文本框的旋轉(zhuǎn)角度,也就是我們最終要回歸的參數(shù)從原來的(x,y,w,h)變成(x,y,w,h,θ)。除此之外,SegLink還提出了Segment和Linking兩個重要概念。
Segment可理解為文本行的任意一部分,一個完整的文本行中包含多個segment(上圖黃色框)。每個segment用link(上圖綠色線)連接組合起來。
4、EAST
EAST:采取FCN思路,做特征提取和特征融合,局部感知NMS階段完成檢測。網(wǎng)絡(luò)的簡潔使得檢測準(zhǔn)確率和速度都有進(jìn)一步提升。(針對自然場景下使用較多)。
【文獻(xiàn)】EAST: An Efficient and Accurate Scene Text Detector
通過上圖我們知道,一個文本檢測有多個階段,EAST的作者認(rèn)為,一個文本檢測算法被拆分成多個階段其實(shí)并沒有太多好處,實(shí)現(xiàn)真正端到端的文本檢測網(wǎng)絡(luò)才是正確之舉。所以EAST的pipeline相當(dāng)優(yōu)雅,只分為FCN生成文本行參數(shù)階段和局部感知NMS階段,網(wǎng)絡(luò)的簡潔是的檢測的準(zhǔn)確性和速度都有了進(jìn)一步的提高。
EAST網(wǎng)絡(luò)分為特征提取層+特征融合層+輸出層三大部分。EAST就是借助FCN架構(gòu)直接回歸出文本行的(x,y,w,h,θ)+置信度+四邊形的四個坐標(biāo)!非常簡潔!當(dāng)然還有其他檢測算法,這里就不一一介紹啦。
學(xué)習(xí)鏈接:
https://www.cnblogs.com/skyfsm/p/9776611.html
04
自然場景文本識別
1、CNN+RNN+CTC(如CRNN):使用目前最為廣泛的一種文本識別框架。需要自己構(gòu)建字詞庫(包含常用字、各類字符等)。
【文獻(xiàn)】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition
【講解及優(yōu)化】
https://blog.csdn.net/qq_14845119/article/details/78934334
【開源代碼】
https://github.com/solivr/tf-crnn
學(xué)習(xí)鏈接:
https://www.jianshu.com/p/5b4791189583
2、CNN(如Densenet)+CTC:資料不多,效果一般,泛化能力較差。沒有加入了RNN的效果好。
【文獻(xiàn)】暫未找到,可參考GitHub
3、Tesserocr(Tesseract):使用比較廣泛的一種開源識別框架,支持多語言多平臺。Tesseract在識別清晰的標(biāo)準(zhǔn)中文字體效果還行,稍微復(fù)雜的情況就很糟糕(多字體等),而且花費(fèi)的時間也很多。
【文獻(xiàn)】暫未找到,可參考GitHub
4、FOTS(EAST+CRNN):端到端OCR模型,檢測和識別任務(wù)共享卷積特征層,既節(jié)省了計(jì)算時間,也比兩階段訓(xùn)練方式學(xué)習(xí)到更多圖像特征。引入了旋轉(zhuǎn)感興趣區(qū)域(RoIRotate), 可以從卷積特征圖中產(chǎn)生出定向的文本區(qū)域,從而支持傾斜文本的識別。
【文獻(xiàn)】
FOTS: Fast Oriented Text Spotting with a Unified Network
【講解】
https://blog.csdn.net/qq_14845119/article/details/84635847
5、ASTER:模型主要分為兩個部分,一個是矯正模型,一個是識別模型。文本矯正模型,不需要任何矯正標(biāo)注信息,對彎曲文本、透視文本有著很好的矯正效果。識別模型中的CNN使用了ResNet的結(jié)構(gòu),最后的解碼部分使用的是Sequence2Sequence機(jī)制來進(jìn)行解碼,不同于CRNN的CTCLoss。
【文獻(xiàn)】
ASTER: An Attentional Scene Text Recognizer with Flexible Rectification
在NLP的產(chǎn)品體系中,OCR是關(guān)于文檔、文件處理的基礎(chǔ)步驟,是無法回避和繞開的。
關(guān)于OCR的基礎(chǔ)知識,也就成了NLP產(chǎn)品經(jīng)理必不可少的知識儲備了——只有詳細(xì)地了解了關(guān)于OCR的處理原理和步驟,才能充分發(fā)揮現(xiàn)有技術(shù)的優(yōu)勢,規(guī)避其弱點(diǎn),創(chuàng)造出更大的價值。
聲明
歡迎轉(zhuǎn)發(fā)本號原創(chuàng)內(nèi)容,任何形式的媒體或機(jī)構(gòu)未經(jīng)授權(quán),不得轉(zhuǎn)載和摘編。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?