Skip to main content

Dark clouds and silver linings

Today I heard about a grand wedding of an Indian tycoon (Ambani's son) from a friend of mine, and he showed me some videos of it too. He said famous and powerful people from around the world have been invited to it, and the cost of the event was going to be several Billions (of Indian Rupees or USD, I don't know). If you think about it, India is a country with a higher population of substandard living conditions. There are innocent and miserable children who are forced to work for a mere subsistence, being deprived of education, health facilities, and food and water. I remember a movie based on a true story in which Akshey Kumar was playing the leading role where he makes sanitary towels (pads) for poor women who could not afford it. In such a country, a single wedding event spends billions of money. What a crappy world we are living! You could imagine how much wealth this family has amassed. On the other, this "mental disease" of exorbitant spending must be highly we

ලිනක්ස් ඉගෙන ගමු (Linux) - 28

Scanner සැකසීම

කොලයක තිබෙන දෙයක් පරිගණකය තුළට ගැනීමට ඇති හොඳම ක්‍රමය මෙය වේ. ස්කැනර් එකක් නැති අවස්ථාවක ෆෝන් එකේ කැමරාවෙන් හෝ වෙනත් කැමරාවකින් එම කොලයේ ෆොටෝ එකක් ගෙන එය පරිගණය තුළට ගැනීමට හැකියි. එවිට හොඳම කොලිටියෙන් ෆොටෝ එක ගැනීම වැදගත්. අද පවතින ස්කැනර් usb පෝට් එකකින් පරිගණකයට සම්බන්ධ කෙරේ. ඔබ කොමියුනිකේෂන්වල නිතර දකින ෆොටෝකොපි යන්ත්‍රයද ස්කැනරයක් හා ප්‍රින්ටරයක් යන දෙකම එකට පවතින උපකරණයකි. එහිදී ඔබ දැක ඇති එම යන්ත්‍රයේ පියනක් ඔසවා කොපි කළ යුතු කොලය තබයි. එවිට එම කොලය ස්කෑන් වී එහි ඇති ලේසර් ප්‍රින්ටරයෙන් ප්‍රින්ට් වේ. පරිගණකයකට ස්කැනර් එකක් ගැනීමේදී අර ෆොටෝකොපි මැෂින් එකේදී මෙන් පියන ඇර කොලය තැන්පත් කළ හැකි ආකාරයේ එකක් ගැනීමට වගබලා ගන්න (flatbed scanner). ඔබ දැක තිබෙනවා ෆැක්ස් මැෂින්. එහිත් ඇත්තටම ස්කැනර් එකක් හා ප්‍රින්ටරයක් ඇත. එහෙත් මෙහිදී ෆැක්ස් කළ යුතු කොලය ඇතුලු කරන්නේ සිහින් ට්‍රේ එකක් තුළටය. එවිට එම කොලය එම ට්‍රේ එකේ කැරකෙන රෝලර් අතරින් ගමන් කරයි. මේ ආකාරයට සාදා තිබෙන ස්කැනර්ද ඇත. එහෙත් එවැන්නකට වඩා ඉහත ෆ්ලැට්බෙඩ් ස්කැනර් එකක් ගැනීම උචිතයි. ෆ්ලැට්බෙඩ් වර්ගයේ එකකින් ඕනෑම ගණකමක් සහිත දෙයක් ස්කෑන් කර ගන්නට හැකියි (පාස්පෝට් වැනි දේවල් පවා; කැමති නම් ඔබේ අතේ අත්ල පවා). එහෙත් අර ට්‍රේ එකකින් කොලය යන ජාතියේ ඒවායේ තුනී (සාමාන්‍ය) කොල පමණයි ස්කෑන් කළ හැක්කේ.


බොහෝ ස්කැනර් (ප්‍රින්ටර්වල මෙන්ම) ඉබේම ලිනක්ස්වලින් ඩිටෙක්ට් කරනවා (ඒ කියන්නේ ලිනක්ස්වල වැඩ කරනවා). ස්කැනර් එක පරිගණකයට කනෙක්ට් කරන්න. සමහර ස්කැනර්වලට පිටින් විදුලිය ලබා දිය යුතු අතර, තවත් ඒවාට එලෙස පිටතින් විදුලිය අවශ්‍ය නැත; පරිගණකයේ usb පෝට් එකෙන්ම ඊට අවශ්‍ය විදුලිය ලබා ගනී. ඉන්පසු සුදුසු ස්කෑන් සොෆ්ට්වෙයාර් එකකින් ස්කෑන් කටයුත්ත කළ හැකියි. ඒ සඳහා ඉතා සරල හා පහසු Simple Scan යන ප්‍රෝග්‍රෑම් එක ඉන්ස්ටෝල් කරගත හැකියි (පහත රූපය).


ස්කෑන් කිරීමට අවශ්‍ය කොලය ස්කැනර් එක මත නිවැරදිව තබන්න. ඉන්පසු Scan කියන ටූල් බට්න් එක මත ක්ලික් කරන්න. දැන් එය ස්කෑන් වේවි (එය ස්කෑන් වෙන ගමන් තිරය මතද කුඩාවට එය පෙන්වාවි). ඉන්පසු එය ෆයිල් එකක් ලෙස සේව් කළ හැකියි Save යන බට්න් එක ක්ලික් කර. PDF හා තවත් ඉමේජ් ෆෝමැට් කිහිපයකින්ම ස්කෑන් ඉමේජ් එක සේව් කරගත හැකියි. තවත් ස්කෑන් එකක් කිරීමට වම් කෙළවරම ඇති ටූල් එක ක්ලික් කර පෙර සේම අලුත් කොලය ස්කැනර් එකට දමා Scan ටූල් එක ඔබා ඉනපසු Save ටූල් එකෙන් සේව් කරගත හැකියි. ස්කෑන් වෙච්ච කොලය වමට හෝ දකුණට කරකැවීමටද (rotate) ටූල් බට්න් දෙකක් ඇත. සමහර අවස්ථාවල ස්කෑන් කරපු සම්පූර්ණ කොලයම වෙනුවට ඉන් කොටසක් පමණක් ඔබට සේව් කිරීමට අවශ්‍ය විය හැකියි. එවිට Crop ටූල් එක ඉහත රූපයේ ටූල්බාර් එකේ දකුණු කෙළවරම ඇත. අවශ්‍ය නම්, ස්කෑන් කරපු එකක් කෙලින්ම ප්‍රින්ට් කර ගන්නට හැකියි Document → Print මඟින්.

සාමාන්‍යයෙන් ස්කෑන් කරන විට අකුරු බහුල කොලයක් ස්කෑන් කරනවාට (text mode) වඩා රූප බහුල කොල ස්කෑන් කිරීම (image/photo mode) තරමක් වෙනස්ය. රූපයේ කොලිටියට හානි නොවීමට ඉතා හොඳින් (වැඩි කාලයක් ගෙන) එය ස්කෑන් කිරීම සුදුසුය. රූපයක්ද නැතිනම් අකුරුද ස්කෑන් කරන්නේ කියා ඔබට ස්කැනර් එකට පැවසීමට සිදු වේ. ඒ සඳහා ඉහත රූපයේ Scan බට්න් එකට පසුව පෙනෙන කුඩා ඊහිස මත ක්ලික් කරන්න. එවිට මෙනු එකක් මතු වේවි. එහි Text, Photo යනුවෙන් අයිටම් දෙකක් පෙනේවි. ඉන් කැමති එක තෝරන්න. ඔබ ස්කෑන් කරන තනි තනි කොලය තනි තනිවයි ඉහත සේව් කළේ. ඔබට අවශ්‍ය නම්, ස්කෑන් කරන සියලු කොල තනි එක ෆයිල් එකක් ලෙස සේව් කළ හැකියි නිකංම Scan බට්න් එක ක්ලික් නොකර ඉහත ඊහිස මත ක්ලික් කර ඉන් Single Page යන්න තේරුවොත්. ස්කෑන් කරන සෑම කොලයක් පාසාම මෙලෙස සිදු කරන්න.

ස්කැනර් එකේ යම් යම් සෙටිංස් සැකසියද හැකියි. ඒ සඳහා Document → Preferences යන්න. එවිට පහත රූපය ලැබේවි. මෙහි උඩින්ම Scan Source යන්නෙන් පෙන්වන්නේ ස්කැනර් එකයි. Text Resolution යනු ටෙක්ස්ට් මෝඩ් එකෙන් ස්කෑන් කරන විට, එය ස්කෑන වන කොලිටිය මෙයින් සැකසේ. මෙහි dpi (dots per inch) යනු කොලයේ වර්ග අඟලක ප්‍රමාණයක් ගත් විට එහි ස්ථාන (පොයින්ට්ස්) කීයක්ද (කීයක් ස්කෑන් කළ යුතුද) යන්නයි. මෙහි අගය වැඩිවන තරමට කොලිටිය වැඩි වේ. ස්කෑන් වීමට ගතවන කාලයද වැඩි වේ. සේව් කරන විට ෆයිල් සයිස් එකද වැඩි වේ. Photo Resolution යන්නෙහි සෙට් කරන්නේ ෆොටෝ මෝඩ් එකෙන් ස්කෑන් කරන විට, කොච්චර කොලිටියක් තිබිය යුතුද යන්නයි. පෙරත් මා සඳහන් කළා සාමාන්‍යයෙන් එහි කොලිටිය ටෙක්ස්ට් මෝඩ් එකට වඩා වැඩි බව. Brightness, Contrast, Quality යනුද ඔබ දන්නා සෙටිං තුනක් ස්කෑන් වන රූපයේ ආලෝක මට්ටම (සුදු ගතිය), කලු-සුදු දෙක අතර කැපී පෙනීම, හා කොලිටිය සෙට් කිරීමට යොදා ගන්නා.


OCR

ස්කෑන් කරපු ලියකියවිලිවල අකුරු හා රූප ලෙස පෙනෙන සියලු දේවල් පරිගණකය තුළ සේව් වන්නේ රූප වශයෙනි. එමනිසා එම අකුරු සාමාන්‍ය ටෙක්ස්ට් ෆයිල් එකක කරන්නාක් සේ එහි ඇති අකුරු වෙනස් කළ නොහැකියි. ඔබට එවැනි ඉමේජ් ෆෝමැට් එකෙන් තිබෙන ලියවිලි සාමාන්‍ය ටෙක්ස්ට් බවට පත් කිරීමට අවශ්‍ය නම්, ඊට ඇති එකම පහසු ක්‍රමය නම් OCR (Optical Character Recognition) ලෙස හැඳින්වේ. මෙහිදී පළමුවෙන්ම ස්කෑන් කරපු ෆයිල් එකක් (pdf, gif, jpeg, tiff වැනි) ඉමේජ් ෆෝමැට් එකකින් තිබීම අත්‍යවශ්‍ය වේ. තවද, එම ඉමේජ් එකේ තිබෙන අකුරු පැහැදිලිව කියවිය හැකි මට්ටමේ තිබිය යුතුය. ඔබට වුවත් බැහැ නේද අකුරු පැහැදිලි නැති අකුරු කියවන්න. ඉතිං පරිගණකය ගැන කවර කතාද?

ඕසීආර් කිරීමට වෙනමම ප්‍රෝග්‍රෑම් ඇත. සාමාන්‍යයෙන් මෙම ඕසීආර් ක්‍රියාවලිය සිදු කරන කොටසට OCR engine ලෙස සඳහන් කෙරෙනවා. වැදගත්ම එමෙන්ම ඇත්තටම ඉමේජ් ටෙක්ස්ට් බවට පත් කරන කොටස එයයි. Tesseract යන නමින් එවැනි ඉතා හොඳ ෆ්‍රී ඕසීආර් එන්ජින් එකක් තිබෙනවා. සිනැප්ටික් එකෙන් එය (Tesseract-OCR) ඉන්ස්ටෝල් කරගත හැකියි. එන්ජින් එකට අමතරව ඒ ඒ භාෂාව වෙනුවෙන්ද කොටස් ඉන්ස්ටෝල් කිරීමට සිදු වේ. උදාහරණයක් ලෙස, ඔබ ඕසීආර් කරන්නේ ඉංග්‍රිසි අක්ෂර නම්, ඉංග්‍රිසි අක්ෂරවලට අදාල කොටසද ඉන්ස්ටෝල් කර ගන්න. ඒ ලෙසට ප්‍රංශ, ජර්මන්, ස්වාහිලි වැනි ලෝකයේ ප්‍රසිද්ධ භාෂාවන්/අක්ෂර සඳහා ටෙසරැක්ට් එන්ජින් එක සමග වැඩකරන භාෂා කොටස්ද සාදා තිබෙනවා. සිනැප්ටික් එකෙන්ම tesseract කියා ටයිප් කළ විට, එම භාෂාවන්ට අදාල ටෙසරැක්ට් කොටස්/ප්‍රෝග්‍රෑම් පෙන්වාවි. ඉන් තමන් කැමැති භාෂාව/භාෂාවන්ද ඉන්ස්ටෝල් කර ගන්න.


ඉන්පසු ග්‍රැෆිකල් ආකාරයට මෙම ටෙසරැක්ට් සමග වැඩ කිරීමට තවත් ප්‍රෝග්‍රැම් එකක් අවශ්‍ය වේ. ඒ සඳහා OCR Feeder නම් භාවිතා කළ හැකියි (පහත රූපය). jpeg, jif වැනි රූපයක් (දැනටමත් ස්කෑන් කර තිබෙන) ප්‍රෝග්‍රැම් එකට එකතු කර ගත හැකියි File → Add Image යන්න මඟින්. එලෙසම pdf (ඉමේජ්) ෆයිල් එකක් ප්‍රෝග්‍රැම් එකට එකතු කර ගත හැකියි File → Import PDF මඟින්. ඒවිතරක්ද නොවේ, කෙලින්ම ස්කැනර් එකෙන් ෆයිල් එකක් මීට එකතු කර ගත හැකියි File → Import Page from Scanner යන්නෙන්.



ඉහත ආකාරයට අවශ්‍ය ෆයිල් ප්‍රෝග්‍රැම් එකට එකතු කරගත් පසු, දැන් එය ඕසීආර් කළ යුතුය. ප්‍රෝග්‍රැම් එකේ වම් පැත්තේ පෙන්වනවා එක ඉමේජ් එකක් හෝ කිහිපයක්. ඉන් තමන් කැමති එක් ඉමේජ් එකක් තෝරා Document → Recognize Page යන්න තේරීමෙන් එම ඉමේජ් ෆයිල් එක ඕසීආර් කළ හැකියි. අවශ්‍ය නම් එකතු කර තිබෙන සියලුම ෆයිල් ඕසීආර් කළ හැකියි Document → Recognize Document යන්න තේරීමෙන්. එවිට ඉහත වින්ඩෝ එකේම දකුණු පසින් පෙන්වාවි ඩොක්‍යුමන්ට් එකේ ටෙක්ස්ට් (අක්ෂර). සමහර අවස්ථාවල ඉතා නිවැරදිවම අක්ෂර හඳුනාගෙන නොතිබේවි. එවිට එවැනි තැන් අතින් (මැනුවලි) නිවැරදි කළ හැකියි. ඉන්පසු එම ටෙක්ස්ට් කොපි කර ගත හැකියි. නැතිනම් File → Export මඟින් odt, html වැනි ෆෝමැට් එකකින් සේව් කර ගතද හැකියි.