خوارزمية التعرف على الرقم في الصورة مع احتمال منخفض للنوع الثاني من الخطأ

صورة

هناك عدد من الحالات في الصناعة التي تتطلب
التعرف على رقم المشهد. غالبًا ما يكون الشرط المطلوب لخوارزمية التعرف قيمة منخفضة للنوع الثاني من الأخطاء ، أي الحالات التي يتم فيها التعرف على رقم غير صالح. مثال على هذه المهام هو:


  1. التعرف على الأرقام على الخصم ، البطاقات المصرفية ، الشكل 1.
  2. التعرف على رقم السيارة ، الشكل 2.

صورة

1 –
2 – ,


, , :


  • ;
  • ( );
  • , , ..


(scene number recognition) : 0.03.


false positive (FP) — , . , "177", "777", .



, CRNN (Convolutional Reccurent Neural Network)[1].


github.


Python3, PyTorch.


PSPNet[2]. , github PSPNet Pytorch.



CRNN,
medium [3], [4].


CRNN 3.


صورة

3 – CRNN


. , : CNN [5], LSTM [6].


:


  1. CNN. . , , , , . , . , , 4;
  2. LSTM. LSTM (time step). LSTM . LSTM many to many, . , Bidirectional LSTM, ;
  3. . . — ;
  4. . n Yn: kn = max(Yn). , , . , , : «3200-544». "-" , . , «00» «44», .

صورة

4 –
: h, w — ; n — .



, , 5.


صورة

5  –  

, : .


.


CRNN , 6.


صورة

  6 – . : , , . CRNN 1, CRNN 2 —


, , . - .


.

, "5" , . , , . , :


x=s+v,v>x
: s — , v — , x — .


. , :


y=f(x),yU
: f — , x — , y — .


10 pf = 0.9.


:


pf = i=1,j=110P(y=yj|yi=yj)
: pf — , yi— i- , yj— j- .


10 , pf = 0.1, pf = 0.9 .
, ps = 0.97, : pk = 0.97*0.97 = 0.94.


: .
, , . , S = (280, 64), S2 = (320, 64).


, . S = (280, 64), 1.


صورة

1 – .
: BS — ; AS — ; k, s, p — , , , : max_pooling



. , . PSPNet.


400 , — 100 , , , 5-10 % , , 5.



2 – . inter_bad — , inter_good — ; good_1, good_2 — , ; amount_cards — , percent_good_1, percent_good_2 — , ; percent_good — ; percent_bad —

, , 1, 0.8816, 0.1184. , - .


, 0.0177, 0.863813, 0.0954 0.0230. , .






, —

, ,




:


  • . , . , , ;
  • . , ;
  • . .


, CRNN scene text recognition, .
CRNN, , .


بالإضافة إلى هذا النهج ، حاولت قطع التوقعات الزائفة باحتمالية أقل من عتبة معينة ، ومع ذلك ، في هذه الحالة ، انخفضت دقة التنبؤ إلى 0.3 ، وهو أمر غير مقبول.


قائمة المصادر


  1. مقالة CRNN الأصلية ؛
  2. شبكة تحليل المشهد الهرمي
  3. بناء نظام التعرف على النص المكتوب بخط اليد باستخدام TensorFlow ؛
  4. شرح بديهي للتصنيف الزماني.
  5. الشبكة العصبية التلافيفية في الثعبان
  6. LSTM - شبكات للذاكرة قصيرة المدى طويلة المدى

All Articles