الفصول السابقة
خوارزميات التصحيح النهائية
44. اختبار للتحقق من التحسين (اختبار التحقق من التحسين)
افترض أنك تقوم بتطوير نظام التعرف على الكلام. النظام يتلقى صوت مدخلات تسجيل A ويحسب قيمة معينة A (S) ، تقدير معقولية ان هذا مقطع صوت يتوافق تقديم المقترحات S . على سبيل المثال، يمكنك محاولة لتقدير قيمة ألف (S) = P (وS | A) ، واحتمال أن الناتج النسخ الصحيح وتقديم S، شريطة أن يكون الصوت المدخلات و A .
مهما كانت طريقة تقدير الكمية A (S) التي تختارها ، فإن المهمة هي العثور على الجملة الإنجليزية S التي ستكون فيها هذه الكمية كحد أقصى:

كيفية التعامل مع حساب "arg max" في هذه الصيغة؟ دعنا نقول 50000 كلمة باللغة الإنجليزية ، والتي يمكنك صنعها
N — , , .
, , S, () A(S). « », K . ( , « »). , S, A(S).
, A -, « ». : « ».
:
- . ( ) S, A(S).
- ( ). A(S) = P(S|A) . , A(S) « » .
, - . . , A(S).
, ; A(S). , , .
?
(« »), Sout. (« »), S*. , , (The Optimization Verification test): ScoreA(S*) ScoreA(Sout), ScoreA(S*) ScoreA(Sout).
1: ScoreA(S*) > ScoreA(Sout)
S*, , Sout. , Sout, S*. , S, A(S) . (The Optimization Verification test) , , . , « » (beam search).
2: ScoreA(S*) ≤ ScoreA(Sout).
ScoreA(.): S* Sout. (The Optimization Verification test) . , , ScoreA(S) S.
. (The Optimization Verification test) , . , ScoreA(S*) > ScoreA(Sout). , , , . , ScoreA(S*) ≤ ScoreA(Sout) ScoreA(.).
, , 95% ScoreA(.), 5% - . , , ~ 5% . , ScoreA(.).
45. (The Optimization Verification test).
(the Optimization Verification test) , , x , , x(y), , y x , arg maxyScorex(y), , . x=A, y=S.
, y* — «» , yout. Scorex(y*) > Scorex(yout). , . , . , Scorex(y).
. , . C ScoreC(E) E. , ScoreC(E) = P(E|C), E, , C.

, , .
, Eout E*. , ScoreC(E*) > ScoreC(Eout). , ScoreC(.) E* Eout; , . , ScoreC(.).
« » : (approximate scoring function) Scorex(.), (approximate maximization algorithm). , (The Optimization Verification test) .
46.
, , . , , .
«». , . -. , , .
« » R(.), T. , T , R(T) = -1000 — «» . T, , R(T) , , . R(.), , T. , , , . — .
, R(T) , , , maxTR(T). .
, R(.) , . , , - — .
— , , , , maxTR(T) , , ?
(Optimization Verification test), Thuman, , -, Tout . , Thuman Tout. : , R(Thuman) > R(Tout)?
1: , R(.) , Thuman Tout. , , Tout, . , .
2: : R(Thuman) ≤ R(Tout). , R(.) Thuman , Tout, , Thuman . R(.), .
«» Scorex(.) . x, Score(.). Score(T)=R(T), (optimization algorithm) , , T.
أحد الاختلافات بين هذا والأمثلة السابقة هو أن جودة الخوارزمية لا تتم مقارنتها بالنتيجة "المثلى" ، ولكن مع المسار البشري T human . افترضنا أن الإنسان T جيد بما فيه الكفاية ، حتى لو لم يكن الأمثل. بشكل عام ، طالما لديك بعض النتائج y * (في هذا المثال ، T human ) التي تتجاوز جودة النظام - حتى لو لم تكن "مثالية" ، فإن اختبار التحقق من التحسين سيشير إلى أن أكثر واعدة: لتحسين خوارزمية التحسين أو وظيفة التقييم.
استمرار