Սկան եւ OCR

Բարի երեկո

Հավանաբար, մեզնից յուրաքանչյուրը կանգնած է այն խնդիրի հետ, երբ անհրաժեշտ է թղթային փաստաթուղթ թարգմանել էլեկտրոնային ձեւով: Սա հատկապես անհրաժեշտ է նրանց համար, ովքեր ուսումնասիրում, աշխատում են փաստաթղթերով, թարգմանում են էլեկտրոնային բառարաններ եւ այլն:

Այս հոդվածում ես կցանկանայի կիսվել այս գործընթացի որոշ հիմունքներով: Ընդհանուր առմամբ, սկանավորումն ու տեքստի ճանաչումը բավական ժամանակատար են, քանի որ գործառույթների մեծ մասը պետք է կատարվի ձեռքով: Մենք կփորձենք պարզել, թե ինչ, ինչպես եւ ինչու:

Ոչ բոլորն անմիջապես հասկանում են մի բան: Scanning- ից հետո (տեղադրելով բոլոր թերթերը սկաների վրա) դուք կունենաք BMP, JPG, PNG, GIF ֆորմատի նկարներ (կարող են լինել այլ ձեւաչափեր): Այսպիսով, այս նկարից պետք է ստանաք տեքստը, այս կարգը կոչվում է ճանաչում: Այս կարգի մեջ եւ կներկայացվի ստորեւ:

Բովանդակությունը

  • 1. Ինչ է անհրաժեշտ սկանավորման եւ ճանաչման համար:
  • 2. Տեքստի սկանավորման ընտրանքները
  • 3. Փաստաթղթի տեքստը ճանաչելը
    • 3.1 Տեքստ
    • 3.2 նկարներ
    • Աղյուսակներ
    • 3.4 Անհրաժեշտ իրեր
  • 4. PDF / DJVU ֆայլերի ճանաչում
  • 5. Աշխատանքի արդյունքների ստուգման եւ փրկման սխալ

1. Ինչ է անհրաժեշտ սկանավորման եւ ճանաչման համար:

1) Սկաներներ

Տպագիր փաստաթղթերը տեքստային ձեւով թարգմանելու համար նախ անհրաժեշտ է սկաների եւ, համապատասխանաբար, «հայրենի» ծրագրերի եւ վարորդների հետ: Նրանց հետ դուք կարող եք փնտրել փաստաթուղթը եւ պահպանել այն հետագա մշակման համար:

Դուք կարող եք օգտագործել այլ անալոգիներ, սակայն ծրագրակազմը, որը սկաների հետ եկել է գրքում, սովորաբար ավելի արագ է աշխատում եւ ավելի շատ ընտրանքներ:

Կախված նրանից, թե ինչ տեսակի սկաներ ունեք, աշխատատեղի արագությունը կարող է զգալիորեն տարբեր լինել: Կան սկաներներ, որոնք կարող են 10 վայրկյանում թերթից նկարել, կան 30 վայրկյանում: Եթե ​​գիրքը սկանավորում եք 200-300 թերթերով, ես կարծում եմ, դժվար չէ հաշվարկել, թե քանի անգամ այն ​​ժամանակ կփոխվի:

2) ճանաչման ծրագիր

Մեր հոդվածում ես ձեզ ցույց կտամ աշխատանքը `սկանելու եւ ճանաչելու բոլոր լավագույն փաստաթղթերից մեկը` ABBYY FineReader- ը: Քանի որ ծրագիրը վճարվում է, ապա անմիջապես կապելու եմ մյուսին `Cunei ձեւի ազատ անալոգային: Ճիշտ է, ես չեմ համեմատի դրանք, քանի որ FineReader- ը բոլոր առումներով հաղթում է, խորհուրդ եմ տալիս փորձել այն ամենը:

ABBYY FineReader 11

Պաշտոնական կայք `//www.abbyy.ru/

Նման տեսակի լավագույն ծրագրերից մեկը: Այն նախագծված է պատկերված տեքստը ճանաչելու համար: Ներկառուցված բազմաթիվ տարբերակներ եւ առանձնահատկություններ: Այն կարող է վերլուծել մի փունջ տառատեսակներ, նույնիսկ աջակցում է ձեռագիր տարբերակները (չնայած ես անձամբ չեմ փորձել այն, կարծում եմ, լավ է, որ դժվար է ճանաչել ձեռագիր տարբերակը, եթե դուք չունեք կատարյալ կաղապարական ձեռագիր): Նրա հետ աշխատելու մասին ավելի շատ տեղեկություններ կքննարկվեն ստորեւ: Մենք նաեւ նշում ենք, որ հոդվածը կներառի աշխատանքը ծրագրային 11 տարբերակներում:

Որպես կանոն, ABBYY FineReader- ի տարբեր տարբերակները միմյանցից տարբեր չեն: Դուք հեշտությամբ կարող եք նույնն անել մյուսում: Հիմնական տարբերությունները կարող են լինել հարմարության, ծրագրի արագության եւ դրա հնարավորությունների մեջ: Օրինակ, ավելի վաղ տարբերակները հրաժարվում են բացել PDF փաստաթուղթ եւ DJVU ...

3) փնտրելու փաստաթղթեր

Այո, այստեղ ես որոշեցի փաստաթղթերը վերցնել առանձին սյունակում: Շատ դեպքերում փնտրեք որեւէ դասագրքեր, թերթեր, հոդվածներ, ամսագրեր եւ այլն այդ գրքերն ու գրականությունը, որը պահանջվում է: Ինչ ես տանում եմ: Անձնական փորձից ես կարող եմ ասել, որ այն, ինչ ուզում եք փնտրել, կարող է արդեն լինել ցանցում: Քանի անգամ եմ անձամբ խնայել ժամանակն այն ժամանակ, երբ գտա մեկ գիրք կամ ցանցում արդեն սկանավորված այլ: Ես պարզապես ստիպված էի տեքստը պատճենել փաստաթղթին եւ շարունակել դրա հետ:

Այս պարզ խորհրդատվությունից `նախքան սկանավորեք ինչ-որ բան, ստուգեք, արդյոք ինչ-որ մեկը արդեն ստուգել է այն, եւ դրա կարիքը չունեք:

2. Տեքստի սկանավորման ընտրանքները

Այստեղ ես չեմ խոսելու սկաների համար ձեր վարորդների մասին, այն ծրագրերը, որոնց հետ գնացել եք, քանի որ բոլոր սկաների մոդելները տարբեր են, ծրագրակազմը նաեւ ամենուր է տարբերվում եւ գուշակությամբ եւ նույնիսկ ավելի հստակ ցույց տալով, թե ինչպես կատարել գործողությունը անիրատեսական:

Սակայն բոլոր սկաներները ունեն նույն կարգավորումները, որոնք կարող են մեծապես ազդել Ձեր աշխատանքի արագության եւ որակի վրա: Այստեղ նրանց մասին ես կխոսեմ այստեղ: Ես կցուցադրեմ կարգով:

1) Scan որակ - DPI

Նախ, սկանավորման որակը սահմանում է ոչ պակաս, քան 300 DPI տարբերակներում: Հատկանշական է, եթե հնարավոր է նույնիսկ մի փոքր ավելի շատ: Որքան բարձր է ԴՊԻ ցուցանիշը, այնքան պարզ կլինի ձեր պատկերը, եւ հետագայում վերամշակումը տեղի կունենա ավելի արագ: Բացի այդ, ավելի բարձր է սկանավորման որակը, այնքան քիչ սխալները, որոնք հետագայում պետք է ուղղեք:

Լավագույն տարբերակը տրամադրում է, սովորաբար, 300-400 ԴՊԻ:

2) քնկոտություն

Այս պարամետրը մեծապես ազդում է սկանավորման ժամանակին (ի դեպ, DPI- ն նույնպես ազդում է, բայց դրանք այնքան ուժեղ են, եւ միայն այն ժամանակ, երբ օգտվողը բարձր արժեքներ է սահմանում):

Սովորաբար կան երեք ռեժիմ:

սեւ եւ սպիտակ (կատարյալ տեքստի համար);

- գորշ (պիտակների եւ նկարների համար պիտանի);

- գույն (գունավոր ամսագրերի համար, գրքեր, ընդհանրապես, փաստաթղթեր, որտեղ գույնը կարեւոր է):

Սովորաբար ստուգման ժամանակը կախված է գույնի ընտրությունից: Ի վերջո, եթե դուք ունեք մի մեծ փաստաթուղթ, նույնիսկ լրացուցիչ 5-10 վայրկյան էջում որպես ամբողջություն կհանգեցնի արժանապատիվ ժամանակի ...

3) Լուսանկարներ

Դուք կարող եք փաստաթուղթը ձեռք բերել ոչ միայն սկանավորմամբ, այլ նաեւ նկարելով: Որպես կանոն, այս դեպքում դուք կունենաք որոշ այլ խնդիրներ. Պատկերների խեղաթյուրում, բլուրներ: Դրա պատճառով դա կարող է պահանջել ստացված տեքստը ավելի երկար խմբագրելու եւ մշակելու համար: Անձամբ ես խորհուրդ չեմ տալիս օգտագործել այս տեսախցիկները:

Կարեւոր է նշել, որ ոչ բոլոր փաստաթղթերը չեն ճանաչվելու ստուգման որակը կարող է չափազանց ցածր լինել ...

3. Փաստաթղթի տեքստը ճանաչելը

Մենք ենթադրում ենք, որ սիրված էջերը սկանավորվել եք: Շատ հաճախ դրանք ձեւաչափեր են `tif, bmb, jpg, png: Ընդհանուր առմամբ, ABBYY FineReader- ի համար դա շատ կարեւոր չէ ...

ABBYY FineReader- ում նկարը բացելուց հետո ծրագիրը, որպես կանոն, մեքենայում սկսում է ընտրել տարածքներ եւ ճանաչել դրանք: Բայց երբեմն նա սխալ է անում: Դրա համար մենք դիտարկում ենք ցանկալի տարածքների ընտրությունը ձեռքով:

Դա կարեւոր է: Ոչ բոլորը անմիջապես հասկանում են, որ ծրագրում փաստաթուղթ բացելուց հետո աղբյուրի փաստաթուղթը ցուցադրվում է պատուհանի ձախ կողմում, որտեղ դուք կարեւորում եք տարբեր ոլորտները: «Ճանաչման» կոճակին սեղմելուց հետո աջից պատուհանի մեջ ծրագիրը կտա ձեզ ավարտված տեքստը: Ճանաչելուց հետո, ի դեպ, նպատակահարմար է ստուգել նույն FineReader- ում սխալները տեքստը:

3.1 Տեքստ

Այս տարածքը օգտագործվում է տեքստը լուսաբանելու համար: Դրանից դուրս պետք է նկարներ եւ սեղաններ: Հազվադեպ եւ անսովոր տառատեսակները պետք է ձեռքով մուտքվեն ...

Տեքստային տարածք ընտրելու համար ուշադրություն դարձրեք FineReader- ի վերեւում գտնվող վահանակին: Կա մի կոճակ, «T» (տես ստորեւ նկարը, մկնիկի ցուցիչը հենց այս կոճակի վրա է): Սեղմեք այն, ապա ստորեւ նկարում ընտրեք կոկիկ ուղղանկյուն տարածքը, որի տեքստը գտնվում է: Ի դեպ, որոշ դեպքերում դուք պետք է ստեղծեք տեքստային բլոկներ 2-3, իսկ երբեմն 10-12 էջի համար, քանի որ Տեքստի ձեւաչափումը կարող է լինել տարբեր եւ չկիրառել ամբողջ տարածքը մեկ ուղղանկյունով:

Կարեւոր է նշել, որ պատկերները չպետք է ընկնեն տեքստի տարածք: Ապագայում դա ձեզ շատ ժամանակ կտա ...

3.2 նկարներ

Օգտագործվում է պատկերների եւ այն տարածքների մասին, որոնք դժվար է ճանաչել վատ որակի կամ անսովոր տառատեսակի պատճառով:

Ստորեւ ներկայացված պատկերում մկնիկի ցուցիչը գտնվում է «նկարի» ընտրության համար օգտագործվող կոճակի վրա: Ի դեպ, այս ոլորտում ցանկացած էջի բացարձակ մասը կարող է ընտրվել, եւ FineReader- ը այնուհետեւ այն կտեղադրի փաստաթղթում, որպես նորմալ պատկեր: Այո պարզապես «հիմար» է պատճենելու ...

Սովորաբար, այս տարածքը օգտագործվում է ընդհանրապես վատ սկանավորված սեղանների վրա, ընդգծելու ոչ ստանդարտ տեքստը եւ տառատեսակը, պատկերները:

Աղյուսակներ

Ստորեւ նկարում պատկերված է սեղանները լուսաբանելու կոճակը: Ընդհանրապես ես անձամբ օգտագործում եմ դա շատ հազվադեպ: Փաստն այն է, որ դուք պետք է պարբերաբար նկարեք (իրականում) յուրաքանչյուր տող սեղանի վրա եւ ցույց տաք, թե ինչ եւ ինչպես է ծրագիրը: Եթե ​​աղյուսակը փոքր է եւ ոչ այնքան լավ, ես խորհուրդ եմ տալիս օգտագործել այս նկարների համար «նկար» տարածքը: Այսպիսով խնայելով շատ ժամանակ, եւ ապա կարող եք արագորեն նկարել սեղանը Word- ում:

3.4 Անհրաժեշտ իրեր

Կարեւոր է նշել: Երբեմն էջում ավելորդ տարրեր կան, որոնք դժվարացնում են տեքստը, կամ թույլ չեն տալիս ընտրել ցանկալի տարածք: Նրանք կարող են հեռացվել «ընդհատիչի» միջոցով:

Դա անելու համար անցեք պատկերների խմբագրման ռեժիմ:

Ընտրեք ջնջիչ գործիքը եւ ընտրեք անցանկալի տարածք: Այն կջնջվի եւ իր տեղում կլինի սպիտակ թղթե թերթ:

Ի դեպ, ես խորհուրդ եմ տալիս օգտագործել այս տարբերակը հնարավորինս հաճախ: Փորձեք բոլոր տեքստային տարածքները, որոնք ընտրեցինք, որտեղ դուք կարիք չունեք որեւէ տեքստի տեքստ, կամ կան ավելորդ միավորներ, blurriness, աղավաղումներ, ջնջեք ջնջիչով: Այս շնորհիվ շնորհիվ ավելի արագ կլինի:

4. PDF / DJVU ֆայլերի ճանաչում

Ընդհանուր առմամբ, այս ճանաչման ձեւաչափը ոչ մի կերպ չի տարբերվում մյուսներից, այսինքն ` Դուք կարող եք աշխատել դրա հետ այնպես, ինչպես լուսանկարներով: Միակ բանը, որ ծրագիրը չպետք է չափազանց հին տարբերակ լինի, եթե դուք չեք բացում PDF / DJVU ֆայլեր, ապա 11 տարբերակը թարմացրեք:

Մի փոքր խորհուրդ: Փաստաթուղթը FineReader- ում բացելուց հետո այն ավտոմատ կերպով սկսում է ճանաչել փաստաթուղթը: Հաճախ PDF / DJVU ֆայլերում էջի կոնկրետ հատվածը անհրաժեշտ չէ ողջ փաստաթղթում: Այդպիսի տարածքը հեռացնել բոլոր էջերում, կատարեք հետեւյալը.

1. Գնալ դեպի պատկերի խմբագրման բաժին:

2. Միացրեք «հատվածը» տարբերակը:

3. Ընտրեք այն տարածքները, որոնք անհրաժեշտ են բոլոր էջերում:

4. Սեղմեք կիրառել բոլոր էջերը եւ կտրել:

5. Աշխատանքի արդյունքների ստուգման եւ փրկման սխալ

Թվում է, որ այլ խնդիրներ կարող են լինել, երբ ընտրվել են բոլոր տարածքները, հետո ճանաչել `վերցնել եւ պահպանել այն ... Դա այնտեղ չէ:

Նախ, անհրաժեշտ է ստուգել փաստաթուղթը:

Այն թույլատրելու համար, ճանաչումից հետո, աջից պատուհանում կգտնեք «ստուգում» կոճակը, տես ստորեւ նկարը: Սեղմելով այն, FineReader ծրագիրը ինքնաբերաբար ցույց կտա ձեզ այն տարածքները, որտեղ ծրագրում սխալներ կան, եւ այն չի կարող հավաստիորեն որոշել մեկ կամ մի այլ խորհրդանիշ: Դուք միայն պետք է ընտրեք, կամ համաձայն եք ծրագրի կարծիքի հետ կամ մուտքագրեք ձեր բնավորությունը:

Ի դեպ, կես դեպքերում, մոտավորապես, ծրագիրը կներկայացնի ձեզ պատրաստի ճիշտ խոսք, պարզապես պետք է մկնիկը օգտագործել, ընտրելու տարբերակը:

Երկրորդը, ստուգելուց հետո դուք պետք է ընտրեք այն ձեւաչափը, որով դուք փրկում եք ձեր աշխատանքի արդյունքը:

Այստեղ FineReader- ը ձեզ հերթն է տալիս ամենալայնը. Դուք կարող եք ուղղակիորեն փոխանցել Word- ը մեկ-մեկում, եւ դուք կարող եք պահպանել այն տասնյակ ձեւաչափերից մեկում: Բայց ես կցանկանայի մեկ այլ կարեւոր առանձնահատկություն դրսեւորել: Ինչ էլ որ ձեւաչափ եք ընտրել, ավելի կարեւոր է ընտրել պատճենը: Դիտարկենք առավել հետաքրքիր տարբերակները ...

Ճիշտ օրինակ

Հայտնված փաստաթղթում էջում ընտրված բոլոր ոլորտները կհամապատասխանեն հենց աղբյուրի փաստաթղթում: Շատ հարմար տարբերակ, երբ ձեզ համար կարեւոր է ոչ թե կորցնել տեքստի ձեւաչափումը: Ի դեպ, տառատեսակները նույնպես շատ նման են բնօրինակի: Ես խորհուրդ եմ տալիս այս տարբերակն ուղարկել փաստաթուղթը Word- ին, շարունակելու այնտեղ աշխատել:

Խմբագրված օրինակը

Այս տարբերակը լավ է, քանի որ դուք արդեն ստանում եք տեքստի արդեն ձեւավորված տարբերակը: Այո «Կամուրջի» հատվածը, որը կարող էր լինել բնօրինակ փաստաթղթում, դուք չեք հանդիպի: Օգտակար տարբերակ, երբ դուք զգալիորեն կտեղեկացնեք տեղեկատվությունը:

Ճիշտ է, չպետք է ընտրեք, թե արդյոք դա կարեւոր է դիզայնի, տառատեսակների, ներդիրների ոճը պահպանելու համար: Երբեմն, եթե ճանաչումը շատ հաջողակ է, ձեր փաստաթուղթը կարող է «շեղել» փոփոխված ձեւաչափի պատճառով: Այս դեպքում նպատակահարմար է ընտրել ճշգրիտ պատճենը:

Պարզ տեքստ

Տարբերակ, նրանց համար, ովքեր կարիք ունեն միայն էջի տեքստը, առանց մնացած բոլորի: Հարմար է փաստաթղթերի եւ սեղանների համար:

Սա եզրափակում է փաստաթղթի սկանավորման եւ ճանաչման հոդվածը: Հուսով եմ, որ այս պարզ խորհուրդների օգնությամբ դուք կարող եք լուծել ձեր խնդիրները ...

Հաջողություն!