Ճանաչիր տեքստը առցանց PDF ֆայլում:


Միշտ չէ, որ հնարավոր է տեքստը հատել PDF ֆայլից, օգտագործելով պայմանական պատճենումը: Հաճախ նման փաստաթղթերի էջերը իրենց թղթային տարբերակների սկանավորած բովանդակությունն են: Նման ֆայլերը փոխակերպվող տեքստային տվյալների վերածելու համար օգտագործվում են Օպտիկական Նիշերի ճանաչում (OCR) գործառույթով հատուկ ծրագրեր:

Նման լուծումները շատ դժվար է իրականացնել եւ, հետեւաբար, մեծ գումար են պահանջում: Եթե ​​Ձեզ անհրաժեշտ է PDF- ի տեքստը պարբերաբար ճանաչել, ապա ցանկալի է գնել համապատասխան ծրագիրը: Հազվագյուտ դեպքերում ավելի տրամաբանական կլիներ օգտագործել մատչելի առցանց ծառայություններից մեկը նման գործառույթներով:

Ինչպես ճանաչել տեքստը առցանց PDF- ից

Իհարկե, OCR- ի առցանց ծառայությունների առանձնահատկությունն ավելի սահմանափակ է, քան լիարժեք սեղանադիր լուծումներ: Բայց դուք կարող եք աշխատել այդպիսի ռեսուրսների կամ անվճար կամ անվանական վճարով: Հիմնական բանն այն է, որ համապատասխան վեբ հավելվածները հաղթահարում են իրենց հիմնական խնդիրը `տեքստի ճանաչումը:

Մեթոդ 1: ABBYY FineReader Online

Ծառայությունների զարգացման ընկերությունը օպտիկական փաստաթղթերի ճանաչման ոլորտում առաջատարներից մեկն է: ABBYY FineReader- ը Windows- ի եւ Mac- ի համար հզոր լուծում է PDF- ին տեքստ փոխելու եւ դրա հետ աշխատելու համար:

Ծրագրի վեբ գործընկերը, իհարկե, զիջում է ֆունկցիոնալությանը: Այնուամենայնիվ, ծառայությունը կարող է ճանաչել տեքստի սկաններից եւ լուսանկարներից ավելի քան 190 լեզուներով: Աջակցում է PDF ֆայլերի փոխակերպմանը Word, Excel, եւ այլն:

ABBYY FineReader Online օնլայն ծառայություն

  1. Նախքան գործիքի հետ աշխատելը, կայքէջում ստեղծեք հաշիվ կամ մուտք գործեք ձեր Ֆեյսբուքը, Google- ը կամ Microsoft հաշիվը:

    Մուտք գործելու պատուհանի վրա, սեղմեք կոճակը: "Մուտք" վերեւի ցանկի բարում:
  2. Մուտքագրվելուց հետո ներմուծեք ցանկալի PDF փաստաթուղթը FineReader- ում, օգտագործելով կոճակը "Ֆայլեր վերբեռնել".

    Այնուհետեւ կտտացրեք "Ընտրեք էջի համարները" եւ նշեք տեքստի ճանաչման համար անհրաժեշտ ցանկը:
  3. Հաջորդը, ընտրեք փաստաթղթում առկա լեզուները, արդյունքում ձեւաչափի ձեւաչափը եւ սեղմեք կոճակը «Ճանաչում».
  4. Վերամշակելուց հետո, որի տեւողությունը ամբողջովին կախված է փաստաթղթի չափից, կարող եք ներբեռնել վերջացրած ֆայլը տեքստային տվյալների հետ ուղղակի սեղմելով նրա անունը:

    Կամ արտահանեք այն առկա ամպային ծառայություններից մեկին:

Ծառայությունը տարբերվում է, հավանաբար, պատկերների եւ PDF ֆայլերի առավել ճշգրիտ տեքստի ճանաչման ալգորիթմներից: Սակայն, ցավոք, դրա անվճար օգտագործումը սահմանափակվում է ամիսը մեկ անգամ մշակված հինգ էջով: Ավելի ծավալուն փաստաթղթերով աշխատելու համար դուք պետք է մեկ տարվա բաժանորդագրվեք:

Այնուամենայնիվ, եթե OCR ֆունկցիան անհրաժեշտ է շատ հազվադեպ, ABBYY FineReader Online- ը մեծ տարբերակ է փոքր PDF ֆայլերից տեքստի արդյունահանման համար:

Մեթոդ 2: Free Online OCR

Տեքստի թվայնացման պարզ եւ հարմարավետ ծառայություն: Առանց գրանցման անհրաժեշտության, ռեսուրսը թույլ է տալիս ճանաչել ժամը 15 ամբողջական PDF էջերը: Free Online OCR- ն լիովին աշխատում է փաստաթղթերով 46 լեզուներով եւ առանց թույլտվության աջակցում է երեք տեքստերի արտահանման ձեւաչափեր `DOCX, XLSX եւ TXT:

Գրանցման ժամանակ օգտագործողը կարող է մշակել բազմալեզու փաստաթղթեր, սակայն այդ էջերի անվճար համարը սահմանափակվում է 50 միավորով:

Free Online OCR առցանց ծառայություն

  1. Ճանաչել տեքստը PDF- ից որպես «հյուր», առանց ռեսուրսի թույլտվության, օգտագործեք համապատասխան ձեւը կայքի հիմնական էջում:

    Ընտրեք ցանկալի փաստաթուղթ, օգտագործելով կոճակը «Ֆայլ», նշեք հիմնական տեքստի լեզուն, արտադրանքի ձեւաչափը, ապա սպասեք ֆայլի բեռնման եւ սեղմման համար "Փոխարկել".
  2. Թվայնացման գործընթացի ավարտին կտտացրեք "Ներբեռնեք արդյունքի ֆայլը" ավարտել փաստաթուղթը համակարգչի տեքստով:

Իրավասու օգտվողների համար գործողությունների հերթականությունը որոշ չափով տարբերվում է:

  1. Օգտագործեք կոճակը «Գրանցում» կամ "Մուտք" վերեւի ցանկի բարում, համապատասխանաբար, ստեղծեք Free Online OCR հաշիվ կամ ներեք այն:
  2. Անվանման վահանակում թույլտվություն ստանալուց հետո պահեք բանալին "CTRL", ընտրված ցուցակից ընտրեք մինչեւ երկու լեզուների աղբյուրը:
  3. Նշեք PDF- ից տեքստը հանելու հետագա տարբերակներ եւ սեղմեք կոճակը: "Ընտրել Ֆայլը" փաստաթուղթը բեռնելու ծառայությունը:

    Այնուհետեւ ճանաչումը սկսելու համար կտտացրեք "Փոխարկել".
  4. Փաստաթուղթը մշակելուց հետո համապատասխան սյունակում ելքային ֆայլի անվան հետ հղիչին կտտացրեք:

    Հայտնման արդյունքը անմիջապես պահվում է ձեր համակարգչի հիշողության մեջ:

Եթե ​​Ձեզ անհրաժեշտ է տեքստը փոքրիկ PDF փաստաթուղթից բեռնել, ապա կարող եք դիմել վերը նկարագրված գործիքը օգտագործելու համար: Խոշոր ֆայլերի հետ աշխատելու համար հարկավոր է լրացուցիչ խորհրդանիշներ գնել Free Online OCR- ում կամ դիմել այլ լուծում:

Մեթոդ 3

Լիովին անվճար OCR- ծառայություն, որը թույլ է տալիս տեքստը գրել գրեթե ցանկացած գրաֆիկական եւ էլեկտրոնային փաստաթղթերից, ինչպիսիք են DjVu եւ PDF- ն: Ռեսուրսը սահմանափակումներ չի տեսնում ճանաչելի ֆայլերի քանակի եւ քանակի վրա, չի պահանջում գրանցում եւ առաջարկում է մի շարք այլ գործառույթներ:

NewOCR- ն աջակցում է 106 լեզուներով եւ կարողանում է ճիշտ ստուգել նույնիսկ ցածր որակի փաստաթղթային ստուգումները: Հնարավոր է ձեռքով ընտրեք ֆայլի էջում տեքստի ճանաչման տարածքը:

Օնլայն ծառայություն NewOCR

  1. Այսպիսով, դուք կարող եք անմիջապես սկսել ռեսուրսի հետ աշխատել, առանց ավելորդ գործողություններ կատարելու անհրաժեշտության:

    Ուղղակի հիմնական էջում փաստաթուղթը կայք մուտք գործելու ձեւ կա: Նյութը ՆյուՈՔՌ-ին վերբեռնելու համար օգտագործեք կոճակը "Ընտրել ֆայլը" բաժնում "Ընտրեք ձեր ֆայլը". Հետո դաշտում "Ճանաչման լեզու (ներ) ը" ընտրեք մեկ կամ ավելի լեզուներ աղբյուրի փաստաթղթում, ապա սեղմեք "Վերբեռնել + OCR".
  2. Նախադրեք ձեր նախընտրած ճանաչման կարգավորումները, ընտրեք ցանկալի էջը, տեքստը հանելու համար եւ սեղմեք կոճակը: "OCR".
  3. Մի փոքր անցեք եւ գտեք կոճակը: Բեռնել.

    Սեղմեք եւ ներքեւի ցանկում ընտրեք անհրաժեշտ փաստաթղթի ձեւաչափը ներբեռնելու համար: Դրանից հետո արդյունահանվող տեքստով ավարտված ֆայլը կտեղադրվի ձեր համակարգչին:

Գործիքը հարմար է եւ ճանաչում է բավականին բարձր որակի բոլոր նիշերը: Այնուամենայնիվ, ներկրված PDF փաստաթղթի յուրաքանչյուր էջի մշակումը պետք է սկսի ինքնուրույն եւ ցուցադրվի առանձին ֆայլում: Դուք, անշուշտ, կարող եք անմիջապես պատճենել ճանաչման արդյունքները clipboard- ում եւ միավորել դրանք ուրիշների հետ:

Այնուամենայնիվ, վերոհիշյալ նրբերանգը հաշվի առնելով, շատ դժվարություններ են առաջանում, օգտագործելով NewOCR- ը: Նույն փոքր ֆայլերի սպասարկմամբ ծառայում է «պայթյունով»:

Մեթոդ 4 `OCR.Space

Պարզ եւ հասկանալի ռեսուրս թվայնացնող տեքստը թույլ է տալիս ճանաչել PDF փաստաթղթերը եւ արդյունքը թողնել TXT ֆայլում: Էջերի քանակի սահմանափակումներ չկան: Միակ սահմանափակումն այն է, որ մուտքագրման փաստաթղթի չափը չպետք է գերազանցի 5 մեգաբայտ:

OCR.Space օնլայն ծառայություն

  1. Գործիքի հետ աշխատելու համար գրանցումը անհրաժեշտ չէ:

    Պարզապես կտտացրեք վերը նշված հղումը եւ PDF փաստաթուղթը ձեր համակարգչից կայքում տեղադրեք կոճակը "Ընտրել ֆայլը" կամ ցանցից `տեղեկանքով:
  2. Բաց թողնել ցանկում "Ընտրեք OCR լեզուն" ընտրեք փաստաթղթի լեզուն:

    Այնուհետեւ սկսեք տեքստի ճանաչման գործընթացը `սեղմելով կոճակը: "Սկսել OCR!".
  3. Ֆայլերի մշակման վերջում տեսեք արդյունքը «OCR'ed Արդյունք» եւ սեղմեք Բեռնելբեռնել վերջնական TXT փաստաթուղթը:

Եթե ​​պարզապես անհրաժեշտ է տեքստը բեռնել PDF- ից եւ վերջնական ձեւաչափումը բոլորովին կարեւոր չէ, OCR.Space- ը լավ ընտրություն է: Միակ փաստաթուղթը պետք է լինի «մոնոլինգուալ», քանի որ ծառայության մեջ միաժամանակ երկու կամ ավելի լեզուների ճանաչումը չի տրամադրվում:

Տես նաեւ. Free analogues FineReader

Հոդվածում ներկայացված օնլայն գործիքների գնահատումը, պետք է նշել, որ ABBYY- ի FineReader Online- ը OCR- ի գործառույթն է առավել ճշգրիտ եւ ճշգրիտ: Եթե ​​տեքստի ճանաչման առավելագույն ճշգրտությունը ձեզ համար կարեւոր է, ապա լավագույն դեպքում այս տարբերակը դիտարկվում է: Բայց դրա համար վճարելու համար, ամենայն հավանականությամբ, պետք է:

Եթե ​​Ձեզ անհրաժեշտ է թվայնացնել փոքր փաստաթղթերը եւ պատրաստ եք ուղղել սխալները ծառայության մեջ, ապա նպատակահարմար է օգտագործել NewOCR, OCR.Space կամ Free Online OCR: