FavoriteLoadingپسندیدہ کتابوں میں شامل کریں

 

 

اردو کارپس کی تیاری متن کا تجزیہ اور غلطیوں کے نمونوں کی درجہ بندی

 

 

 

محمد زاہد اقبال

 

 

 

 

 

باب اول:  کارپس کا تعارف ضرورت و اہمیت

 

 

 

مکمل کتاب ڈاؤن لوڈ کریں

 

  1. تعارف
  2. کارپس کی ضرورت و اہمیت
  3. مشینی ترجمہ میں کارپس کی اہمیت
  4. اردو مشینی ترجمہ میں کارپس کا کردار
  5. کارپس کی اقسام
  6. کچھ مخصوص کارپورہ
  7. اردو کارپس

 

 

 

 

 

 تعارف

آج کے اس ترقی یافتہ دور میں اطلاعاتی ٹکنالوجی نے مختلف شعبوں میں ایسی حیرت انگیز تبدیلیاں پیدا کر دی ہیں اور طرح طرح کے سائنسی ایجادات اور انکشافات سامنے لائے ہیں کہ انسانی عقل عالم حیرت کے سمندر میں غوطہ زنی کرنے پر مجبور ہو جاتی ہے۔  انسانی زندگی کے مختلف شعبوں میں ان ترقیات نے اس قدر اثر ڈالا ہے کہ جہاں کسی کام کے لیے گھنٹوں لگتے تھے اب وہ سکنڈوں میں ہو جاتا ہے جس کام کے لیے دور دور تک سفر کرنا پڑتا تھا اب گھر بیٹھے ہو جا تا ہے۔  در اصل ٹکنالوجی کے آمد کے بعد مشینوں کو اس حد تک تربیت دی گئی کہ وہ انسان کی طرح کسی بھی کام کو انجام دینے لگیں اسی لیے اب لوگ اپنی تمام ضروریات خود سے کرنے کے بجائے مشینوں سے کرانے لگے ہیں۔ یقیناً اکیسویں صدی نے سارے عالم پر سائنس اور ٹکنالوجی کے انقلابات کے دور رس اثرات مرتب کیے ہیں خصوصاً ترسیل و رابطے کے میدان کو اس قدر متاثر کیا کہ آج کمپیوٹر اور انٹرنیٹ انسان کی ضرورت بن گئے ہیں۔  بعض لوگ یہ بھی کہتے ہیں کہ’’ اکیسویں صدی کو انٹرنیٹ کی صدی کہا جائے تو غلط نہیں ہو گا نئی نئی ٹکنالوجی متعارف ہو رہی ہیں اورہم ان کے عادی ہو تے جا رہے ہیں۔  انٹرنیٹ کے ذریعہ ہم انگلیوں کی ذرا سی جنبش سے اپنا پیغام دنیا کے کونے کونے تک پہونچا سکتے ہیں ‘‘۔  (1)

انٹرنیٹ کے ذریعہ پیغامات کی ترسیل نہایت ہی آسان ہو گئی ہے مزید یہ کہ اس میں معلومات کا ایسا سمندر موجود ہے جو نہ تو آسانی سے ختم ہو سکتا ہے اور نہ ہی اسے کوئی آسانی سے نقصان پہونچا سکتا ہے، اور سب سے بڑی بات یہ کہ اس تک ایک لمحہ میں رسائی ہو سکتی ہے اسی لیے اب موجودہ دور میں تمام زبانوں کے ماہرین اپنے علمی و لسانی سرمایے کو اس میں نہ صرف محفوظ کر رہے ہیں بلکہ لو گوں کے استفادہ اور اس تک رسائی کے لیے راہیں بھی ہموار کر رہے ہیں۔  زبانوں کی وسیع دنیا میں ایک ترقی یافتہ زبان کی علامت یہی ہو سکتی ہے کہ اس کی معلومات سے دیگر لوگ بھی استفادہ کر سکیں۔

ٹکنالوجی کے آمد سے قبل ارددو زبان کو فروغ دینے کے لیے ماہرین اردو نے نا قابل فراموش خدمات انجام دی ہیں جن سے نہ صرف زبان کی ترقی ہوئی بلکہ اس نے نئے نئے علوم و فنون کو بھی جنم دیا، ہر دور میں لوگ اپنی اپنی زبانوں کو ترقی یافتہ زبان بنانے کے لیے مختلف قسم کی سرگرمیاں انجام دیتے ہیں اور اس کے لیے الگ الگ طریقہ کار بھی اختیار کر تے ہیں۔ موجودہ دور میں اردو بولنے والے معاشرے کے سامنے ایک بہت ہی اہم مسئلہ اپنی زبان، ثقافت اور تشخص کے تحفظ کا ہے۔

اب اردو داں طبقہ کی یہ ذمہ داری ہے کہ وہ اردو کو ترقی یافتہ زبان بنا نے کے لیے ہر ممکن کوشش کریں۔  مادری زبان کا اس کی صحیح شکل و صورت میں تحفظ اور روز مرہ کی زندگی میں اس کے موثر اور آزادانہ استعمال کے لیے ہر دور میں گراں قدر خدمات انجام دی جاتی رہی ہیں۔  مختلف زبانوں میں علمی ادبی اوردیگر علوم کو اپنے دائرہ میں شامل کرنے کی منظم کوشش بھی کی گئی ہے۔  تاریخ سے پتہ چلتا ہے کہ پچھلے کئی عرصوں سے ہر زبان والے ترقی یافتہ زبانوں کی دوڑ میں شامل ہونے کے لیے دوسرے زبانوں کے علمی، ادبی، و مذہبی سرمایے کو اپنے اندرمنتقل کرتے رہے اور اس کے لیے انہوں نے سب سے زیادہ سہارا ترجمہ کا ہی لیا۔ اسی وجہ سے کہا جاتا ہے کہ ترجمہ وہ روشن چراغ ہے جس کے ذریعے دوسری زبانوں اور تہذیبوں سے متعارف ہونے کی راہیں ہموار ہوتی ہیں۔  اور یہ ایک قوم کے علمی ذخیرے کو دوسری قوم سے روشناس کرانے میں اہم کردار ادا کرتا ہے۔

ترجمہ کے ذریعے سے ہر عہد اور زمانے میں بڑے بڑے ماہرین علم۔ ماہرین فلسفہ، ماہرین ریاضیات، ماہرین طب، ماہرین نفسیات وغیرہ کے نوبہ نو افکار و نظریات کو تمام لوگوں تک پہنچنے میں مدد ملی ہے۔  ترجمہ کے وسیلے ہی سے ایک زبان دوسری زبان کے رجحانات و تخیلات اور افکار و مزاج، نیز اس کی صرفی و نحوی ساخت سے آگاہ ہوتی ہے۔

تاریخ کے صفحات اس بات کی گواہی دیتے ہیں کہ عربوں نے اس معاملے میں پہل کی اور خلافت عباسیہ کے دور میں حکومت کی سرپرستی میں باضابطہ طور پر دارالترجمہ قائم کر کے ترجمے کیے جانے لگے جس کی وجہ سے عرب قوم بڑی تیزی سے ترقی کے منازل طے کرنے لگی۔  بعد ازاں یورپ نے اس سے فائدہ اٹھایا اور جہاں تک ممکن ہو سکا عربی کتابوں کا یورپی زبانوں میں ترجمہ کیا اور مزید تحقیق کرنے کے بعد طرح طرح کے ایجادات کیں جن کی روشنی آج ہر شہر و قریہ تک پہونچ رہی ہے اور اسی وجہ سے آج ان کا شمار صف اول کی اقوام میں ہوتا ہے۔ (2)

جہاں تک اردو زبان کی بات ہے تو اس نے بھی دیگر علوم سے استفادہ کیا ہے اور اس زبان میں بھی ترجمے کی نا قابل فراموش خدمات انجام دی گئی ہیں۔

عارف عزیز لکھتے ہیں کہ:

’’ اردو کو ایک ترقی یافتہ زبان بنانے، قومی سطح پر مقبولیت بخشنے اور ملکی زبانوں میں امتیازی درجہ دلانے میں جہاں دوسرے عوامل کا عمل دخل رہا، وہاں انگریزی، عربی اور فارسی وغیرہ زبانوں سے مختلف علوم وفنون کے تراجم نے اس میں مؤثر کردار ادا کیا ہے۔  ایسے ہی تراجم نے نوخیز اردو زبان کے لیے ترقیوں کے نئے دروازے کھول دیے۔  اسی لیے کہا جاتا ہے کہ اردو کو ایک باقاعدہ زبان کے مقام پر فائز کرنے میں تراجم کا سب سے بڑا کردار ہے۔  فورٹ ولیم کالج کے بعد دہلی کالج اور جامعہ عثمانیہ کے دارالترجمہ نے اس ضمن میں جو کارہائے نمایاں انجام دیے، اس کی بدولت ہی یہ زبان بولی سے زبان تک کا سفر بآسانی طے کر سکی ‘‘ (3)

یقیناً ماضی کی خدمات نا قا بل فراموش ہیں لیکن اب حالات بدل چکے ہیں جن ترجموں کی روایت کے بناپر ایک زبان پھلتی پھولتی تھی اور اس کے ذریعہ اس زبان میں طرح طرح کے علمی خزانوں میں اضافہ ہوتا تھا، دیگر علوم سے لوگوں کو روسناش کرایا جاتا تھا اوراس کے ذریعے خصوصاً اس زبان کی توسیع و اس کا پھیلا و ہوتا تھا اب اس کیر فتار آہستہ آہستہ سست ہوتی جا رہی ہے۔  اب لوگوں کی ذہنیت بالکل بدل رہی ہے کل تک کسی زبان کو ایک ترقی یافتہ زبان کی دوڑ میں شامل ہونے کے لیے ہرطرح کے علمی خزانوں کو اس زبان کے اندر شامل کرنا تھا، اور اب ترقی یافتہ زبانوں کی مثال نہ صرف علمی ادبی و مذہبی سرمائے والی زبان سے دی جاتی ہے ؛ بلکہ اب کسی زبان کے ترقی یافتہ ہونے کا مطلب یہ لیا جاتا ہے کہ اس کے سبھی علمی، ادبی، مذہبی ذخائر جدید ٹکنالوجی کمپیوٹر اور انٹر نیٹ وغیرہ میں مستعمل ہوں، اور لوگوں کے لیے اس سے استفادہ کیا جانا ممکن ہو کیونکہ عصر حاضر میں استفادے کا سب سے اہم میدان کمپیوٹر اور انٹر نیٹ ہی ہیں خواہ وہ علم کے حصول کے لیے ہو یا کسی چیز کی ارسال و ترسیل کے لیے یا پھر ترجمے کے ذریعے کسی معلومات یا کسی سے رابطے کے لیے وغیرہ۔

پوری دنیا میں لوگ اپنی روز مرہ کی ضروریات اس کے حوالے کرنے لگے ہیں اور اسی سے اپنی ضروریات پوری کرنے کی کوشش کرتے ہیں خصوصاً علمی میدانوں میں تو آج اس کی بڑی اہمیت ہے اور اب تمام زبانوں کے ماہرین اپنے قیمتی ورثے اور علوم وفنون کو ٹکنالوجی کے ہی آغوش میں رکھنے کی کوشش کر رہے ہیں، تاکہ کوئی بھی شخص چاہے وہ دنیا کے کسی بھی کونے میں رہتا ہو اس سے استفادہ کر سکے، اگر اس کی زبان کا سرمایہ کمپیوٹر و انٹر نیٹ میں داخل کیا گیا ہو تو اس سے استفادہ کر سکتا ہے اور اسے ہر وہ چیز مل سکتی ہے جو اس کی زبان میں موجود ہے۔

اگر کسی زبان میں ہر طرح کی علمی، ادبی یا دیگر معلومات کے ذخائر موجود ہوں لیکن وہ مشین کے لیے قابل مطالعہ(مشین ریڈایبل) نہیں ہیں تو وہ ترقی یافتہ زبان نہیں کہلائے گی۔  بلکہ بعض ماہرین تو زبانوں کے سلسلے میں یوں بھی کہتے ہیں کہ زندہ زبانیں وہی ہیں جو ٹکنالوجی سے وابستہ رکھتے ہیں۔

دنیا اطلاعیات و معلومات کی شاہراہ پرگامزن ہوئی تو بیسویں صدی کی آخری دہائی کے ماہرین لسانیات اورماہرین کمپیوٹر ٹکنالوجی زبانوں کے بارے میں یک زبان تھے کہ اکیسویں صدی میں صرف وہی زبان زندہ رہ سکے گی جو کمپیوٹر کی زبان بن جائے گی۔  کمپیوٹر کی زبان کے عام طور پر یہ معنی لیے جاتے ہیں کہ زبان کو کمپیو ٹر پر ٹائپ رائٹر کی طرح کمپوز کیا جا سکے۔ عام آدمی حتی ٰ کہ پڑھا لکھا طبقہ بھی یہی سمجھتا ہے کہ وہ اپنی روز مرہ کی ضروریات، خطوط اور رسائل کی کتابت کا کام اس مشین سے ہی لے مگر وقت نے ثابت کیا کہ جب دنیا ایک گلوبل ولیج بن گئی اور ایک کسی کمرے میں بیٹھ کر پوری دنیا کے تمام علوم و فنون پر تحقیق اور تدریس کا کام بھی اس مشین پر لیا جانے لگا تو معلوم ہوا کہ مشین دنیا بھر کے علوم و فنون کا مخزن ہے اور حصول معلومات، ترجمہ کاری اور لفظ کاری کے لیے اس مشین پر اپنی زبان کا ہونا ضروری ہے (4)

یہ بات کافی حد تک ہم سب بھی تسلیم کرتے ہیں کہ آج ہماری روز مرہ کی ضروریات مثلاً خطوط و رسائل و دیگرمعلومات کو پڑھنے یا حاصل کرنے کا کام مشین سے ہی زیادہ تر لیا جاتا ہے بلکہ اس نے انسانی زندگی کو بے شمار طریقوں سے متاثر کیا ہے جو کام انسان ایک حد تک کر سکتا ہے وہ سبھی کام کمپیوٹر کے ذریعہ برق رفتاری اور بغیر کسی غلطی کے مکمل کیا جاتا ہے اور اسی وجہ سے عصر حاضر میں کمپیوٹر اور انٹر نیٹ ہماری زندگی کی بنیادی ضرورت بن چکا ہے۔  کل تک ہم اپنے خیالات کی ترسیل کے لیے خطوط لکھا کرتے تھے آج خط کی جگہ ای میل، قلم کی جگہ کی بورڈ اور کتاب کی جگہ ای کتاب کا ا ستعمال کرتے ہیں یہ سب کچھ جدید ٹکنالوجی کمپیوٹر اور انٹر نیٹ کے ذریعہ ہی ممکن ہو سکا۔

آج انٹر نیٹ سے جڑا ہر فرد اس بات کی گواہی دے سکتا ہے کہ انٹرنیٹ آج دنیا کا سب سے بڑا معلم اور رہبر ہے، جس کے اندر دنیا بھر کے موضوعات پر کچھ نہ کچھ معلومات ضرور ڈالی گئی ہے۔ اردو نہ سہی لیکن انگریزی میں ضرور، جسے سرچ انجن کے ذریعہ گھر بیٹھے تلاش کرنا آسان ہوتا ہے، اور ہمیں وہ معلومات ضرور مل جاتی ہیں۔  یہی وجہ ہے کہ آج کسی ایک کمرے میں بیٹھ کر پوری دنیا کے تمام علوم وفنون پر تحقیق اور تدریس کا کام بھی ٹکنالوجی کے ذریعہ لیاجانے لگا ہے۔  ایسے میں معلوم ہوتا ہے کہ یہ اطلاعیاتی ٹکنالوجی دنیا بھر کے علوم وفنون کا مخزن ہے اور حصول معلومات، ترجمہ کاری اور لفظ کاری کے لیے اس جدید ترین ٹکنالوجی سے اردو زبان کو آراستہ ہونا ضروری ہے۔ مزید بڑی مقدارمیں اپنی زبان کے مواد کو اس ٹکنالوجی سے ہم آہنگ کرانا بھی ضروری ہے۔

عارف حسام لکھتے ہیں:

’’ کمپیوٹر ٹکنالوجی سے بھر پور فائدہ ہم تب ہی اٹھا سکتے ہیں جب ہم کمپیوٹر کواردو میں استعمال کریں، اردو میں احکامات جاری کریں اور اردو میں جوابات دیں۔  کمپیوٹر کے استعمال کو فروغ دینے کے لیے قومی زبان اردو کو کمپیوٹر میں لانا نہایت ضروری ہے۔ کمپیوٹر پر کام کرنے کے لیے ضروری نہیں کہ آپ کوانگریزی زبان پر عبورہو۔  آپ اردو زبان میں بھی کمپیوٹر پر کام کر سکتے ہیں اس سے نہ صرف کمپیوٹر کا استعمال بڑھے گا بلکہ ہماری آ ئندہ نسل بھی بغیر کسی جھجک کے اس جدید ٹکنالوجی کو اپنائے گی‘‘۔ (5)

یہ بات مسلّم ہے کہ کسی چیز کو اپنی زبان میں جتنا زیادہ اور اچھے طریقے سے سمجھا جا سکتا ہے اتنا دیگر زبان میں نہیں سمجھا جا سکتا اس لیے کمپیوٹر پر اپنی زبان کا ہونا اور اپنی زبان کے ذریعے استفادے کی صورتیں ہونا نہایت ضروری ہے، لیکن ہمیں یہ معلوم ہونا چاہیے کہ کمپیوٹر کے اندر استعمال ہونے والی زبان یا اس زبان کی معلومات کو کارپس کی شکل میں داخل کیا جاتا ہے۔  ایسے میں اردو زبان میں کارپس کی تیاری، اس سے متعلق معلومات کاحصول اور اس کی تیاری کے طریقہ کار کا جاننا وقت کا اہم تقاضہ ہے۔

 

کارپس:

کارپس در اصل لینگویج ٹکنالوجی کے میدان کی سب سے اہم اور بنیادی شئے ہے۔ یہ ایک ایسا ذخیرہ ہوتا ہے جو کمپیوٹر پر استعمال ہونے والے مواد پر مشتمل ہوتا ہے ہم کہہ سکتے ہیں کہ یہ انفارمیشن ٹکنالوجی کے میدان میں کسی زبان سے متعلق تعلیم و تحقیق کا ذخیرہ ہوتا ہے ؛ جو کسی زبان کے تمام تر نحوی صرفی قواعد وغیرہ کے اعتبارسے درست ہوتا ہے اور اپنے صارفین کو اس لفظ یا جملے کے بارے مختلف النوع معلومات دریافت کرنے کی سہولت فراہم کرتا  ہے خواہ وہ معلومات لسانیات کے کسی بھی شعبے سے تعلق رکھتی ہوں۔ عصر حاضر میں کارپس کسی زبان کی بقا اور اس کی تحفظ کے ساتھ ساتھ لوگوں کے لیے تخلیقی، تحقیقی وتعلیمی استفادے کا ضامن ہوتا ہے، کارپس کسی زبان کے محققین کے لیے ہمہ جہت تحقیق کے راستے ہموار کرتا ہے اورکسی بھی زبان سے متعلق کسی اصول و قواعد کا ایک حوالہ بھی اپنے پاس رکھتا ہے۔

(1) آکسفورڈ ڈکشنری کے مطابق کارپس مشین کے لیے قابل مطالعہ (ریڈایبل) وہ متن ہوتا ہے، جس کو لسانیاتی تحقیقات کے لیے اکٹھا کیا گیا ہو۔ کارپس یہ لفظ واحدہے اور اس کی جمع کار پورہ ہے۔

(2) کارپس اسم ہے اس کی جمع کارپورہ ہے یا کارپسیس ہے یہ تحریری متن کا وہ مجموعہ ہوتا ہے جو کسی خاص مصنف کے پورے کام یا کسی خاص مضمون پر لکھی ہو ئی تحریر وں کے مجموعے سے تعلق رکھتا ہے۔

(1) کیمبرج ڈکشنری کے مطابق کسی کمپیوٹر پر تقریری یا تحریری مجموعہ اس لیے جمع کیا گیا ہو تاکہ معلوم ہو سکے کہ اس کو زبان میں کیسے استعمال کیا جاتا ہے وہ کارپس ہے۔

(1) میکمیلن ڈکشنری کے مطابق تحریر کا ایک مجموعہ خواہ ایک شخص کی ہی تحریرہو

(2) کارپس کہتے ہیں کمپیوٹر میں جمع کردہ تحریری یا تقریری زبان کے مواد کے مجموعہ جو لسانی تحقیق اورلغت سازی کے لیے استعمال ہوتا ہو۔

انگریزی زبان کی ایک مشہور لغت( انسائیکلوپیڈک ڈکشنری آف لنگویز اینڈ لنگویزز) میں کارپس کے بارے لکھا گیا ہے کہ:

’’ کارپس جمع کارپورہ لسانیاتی ذخیرہ کا ایک مجموعہ ہے جو یا تو تحریری متون یا ریکارڈ شدہ تقریر کا ٹرانسکرپشن کے طور پر مرتب کیا گیا ہو۔  کارپس کا بنیادی مقصد کسی زبان کے مفروضوں کی تصدیق کرنا ہے۔ مثلاًایک مخصوص تلفظ، لفظ، یا مختلف جملے کی ساخت سے متعلق تعین کرنا کہ وہ کیسے استعمال ہوتے ہیں۔  لسانیاتی کارپس زبانوں کے مطالعے میں استعمال ہونے والے کارپورہ کے اصولوں اور استعمال سے بحث کرتا ہے۔ ایک کمپیوٹر کارپس مشین کے لیے قابل مطالعہ متون کا بڑا حصہ ہوتا ہے۔ (6)

انسٹی ٹیوٹ آف زیک نشنل کارپس(Institute of the Czech National Corpus)  میں کارپس کیا ہے کہ ذیل میں یہ مذکور ہے کہ:

’’ کارپس برقیاتی شکل میں متن کا مجموعہ ہے اور تقریری صورت میں اس کاٹرانسکرپشن ہوتا ہے جو لسانیاتی تحقیقات کے لیے استعمال ہوتا ہے۔  ایک مخصوص سرچ انجن اسی کارپس کے ساتھ کام کرنے میں سہولت فراہم کرتا ہے نیز یہ صارفین کو الفاظ کی تلاشی یا متن کے مجموعہ یا پھر اپنے اصلی متن کے تسلسل کا تعین کرنے میں مدد دیتا ہے ساتھ ہی دوبارہ ڈیٹا کو حروف تہجی کی ترتیب سے تلاش کرنے کے لیے بہت موزوں ہے کچھ کارپورہ پارٹس آف اسپیچ کے مطابق بھی سرچ کیے جا سکتے ہیں۔ ‘‘ (7)

اس وقت انٹرنیٹ میں جتنے بھی بروزرس یعنی سرچ انجن استعمال ہوتے ہیں ان کے ذریعہ کوئی بھی چیز تلاش کی جاتی ہے وہ کسی کارپس کے تعاون سے ہی تلاش کی جاتی ہے کیونکہ مشین جسے سمجھ پاتی ( ریڈ کرتی) ہے وہ تمام کارپس کی ہی شکل میں داخل( فیڈ) کیا جاتا ہے اور اسے اس طرح تربیت دی جاتی ہے کہ کسی بھی سرچ انجن کے ذریعے تلاش کیا جا سکے، مشین کے اندر کارپس کی شکل میں داخل کیا گیا مواد (یعنی مشین ریڈایبل) چاہے وہ تقریری ہو یا تحریری بروزرس صرف انہیں ہی تلاش کرپاتا ہے۔

جب کوئی صارف کسی لفظ کے بارے معلومات حاصل کرنا چاہتا ہے اور وہ اسے ان سرچ انجنوں (جیسے گوگل، بنگ، فائر فوکس، یا انٹر نیٹ ایکسپلورر وغیرہ) سے تلاش کرتا ہے تو اسے اس لفظ کے معنی، مفاہیم اور تعریفات اس صورت میں بآسانی مل جاتے ہیں جب کہ انہیں کارپس کی شکل میں پہلے ہی داخل کیا گیا ہے۔  نیز بعض وقت اس لفظ کے کئی معانی اور کئی تعریفات ہمیں مل جاتی ہیں مزید اس کے ساتھ اس کے استعمال کے طریقہ کار بھی حاصل ہو سکتے ہیں۔ اسی طرح اگر ہم سرچ انجن کے اندر کوئی پیراگراف تلاش کرنا چاہتے ہیں جو ہمیں مکمل طور پرمعلوم نہیں تو اس کو کچھ الفاظ کے ذریعے بھی تلاش کر سکتے ہیں ٹھیک اسی طرح اگر کسی متن کی اصلیت جاننا ہو یا اس کے مصنف کے بارے جاننا ہو تو آپ اس سرچ انجن کے ذریعے وہاں تک رسائی کر سکتے ہیں۔  اسی طرح کسی ڈیٹا کو الفابیٹک طریقے سے دوبارہ تلاش کر سکتے ہیں۔  عموماً یہ دیکھا جاتا ہے کہ جب کوئی صارف کسی چیز کو ایک سرچ انجن( بروزرس) سے تلاش کرتا ہے اور پھر بند کر کے کچھ وقفہ کے بعد دوبارہ تلاش کرتا ہے تو ایسی صورت میں یہ گزشتہ تلاش شدہ یا اس جیساجملہ سرچ بار میں دکھاتا ہے۔ اگر تلاش شدہ متن کا شروعاتی حرف تحریر کرتے ہیں تو وہ سرچ انجن آٹومیٹک مکمل ہیڈنگ یا اس متن کی طرف اشارہ کرتے ہوئے نیچے اس سے متعلق مکمل جملہ پیش کرتا ہے ؛ یہ تمام سہولتیں صرف اس وجہ سے ہوتی ہیں کہ اس کے اندر یہ تمام چیزیں کارپس کی شکل میں پہلے سے داخل کی جاچکی ہیں۔  یعنی اسے پہلے مشین کے لیے قابل مطالعہ بنایاجا تا ہے پھر اس کے اندر داخل کیا جاتا ہے۔  جبکہ یہی تمام متون مشین کے لیے ناقابل مطالعہ شکل میں ڈالے جائیں تو یہ سرچ انجن ان کو تلاش نہیں کر پائے گا کیوں کہ مشین صرف اسی چیز کو تلاش کرپاتی ہے جو اس کے لیے قابل مطالعہ ہو۔

کارپس اپنے استعمال کرنے والے کو صرف انٹرنیٹ پر ہی نہیں بلکہ آف لائن استعمال کرنے کی بھی سہولت فراہم کرتا ہے ؛جیسے کسی لفظ کی پوری تاریخ یا اس کے ترجمے، جملے، مصنف یا پھر کن کتابوں میں کونسے الفاظ ہو بہو منقول ہیں کے علاوہ دیگر سہولیات بھی فراہم کرنے میں تعاون کرتا ہے۔  کارپس کو جس ترتیب میں ڈھالا جائے گا وہ اس کے لیے قابل استعمال ہو گا۔

بنیادی طور پر کا رپس کی تعریف یوں کی جا سکتی ہے کہ کارپس متن کا ایک ایسا مجموعہ ہے جس میں تحریری یا تقریری موادکا ایک بڑا ذخیرہ موجود ہوتا ہے یعنی کا رپس تحریری اور تقریری دونوں طرز پر مشتمل ہو سکتا ہے۔  تقریری کارپس عموماً آڈیو ریکارڈنگ کی صورت میں ہوتا ہے۔  ایک کارپس کھلے طور پر بھی ہو سکتا ہے اور بندطریقہ پر بھی۔ کھلے طور پر کا مطلب یہ کہ کارپس کے لیے یہ ضروری نہیں کہ اس کے اندر موجود تمام معلومات کسی مخصوص شعبہ سے ہی تعلق رکھتی ہوں جبکہ ایک بند کارپس کے لیے ضروری ہے کہ وہ کسی مخصوص میدان سے متعلق یا کسی مخصوص مضمون پر مشتمل ہو۔ مثال کے طور پر کسی مخصوص میدان کا کارپس جیسے تاریخی کا رپورہ یہ ایک بند کا رپورہ ہے اس کے اندر تاریخ سے متعلق ہی تمام معلومات داخل کی گئی ہوں اور یہ صرف تاریخی معلومات ہی فراہم کرنے کے لیے بنایا گیا ہے تو اس میں مزید کوئی دوسرے میدانوں کا مواد داخل نہیں کیا جا سکتا۔  کارپس کی مدد سے ماہرین صرف و نحو، لغت نویس، اور دیگر زبان سے دلچسپی رکھنے والے افراداستفادہ کر سکتے ہیں۔  مشین کے لیے قابل مطالعہ کارپورہ ماہرین لسانیات کو ایک مخصوص لفظ یاساخت کی تمام واقعات کی بازیافت کرنے کے لیے مرتب نمونوں کو منتخب کرنے کی اجازت دیتا ہے۔ کارپس کے تجزیہ سے ہمیں کسی متن کی، صرفی، نحوی، لسانی اور عملی معلومات فراہم ہوتی ہیں اور ان ہی ذخیروں کو مشینی ترجمہ کے لیے استعمال میں لایا جاتا ہے۔  (8)

کارپس کو اردو میں اردو مثال گھر، دی بینک آف اردو، اردو ڈیٹا ہاوس اور اردو کارپس کے علاوہ اردو مثال گھراور اردو کوائف بھی کہا جاتا ہے (9)

 

کارپس کی ضرورت و اہمیت:

جب سے یہ دنیا وجود میں آئی ہے اور علم وعمل نے انسانوں میں اپنے لیے جگہ بنائی اور انسان نے دنیاداری کے رشتہ کو نبھانے کی خاطریا اپسی تعلقات میں قربت بڑھانے یا کسی پیغام کی ترسیل یا لین دین کے لیے جو مختصر سا نقشہ اپنے ذہن میں بنایا سائنس نے اس کو کوائف( DATA ) کا نام دیا ہے۔  یہ کوائف انسان ہی کی پہچان کے لیے مخصوص ہو کر نہیں رہے بلکہ ہر چیز کی پہچان کے لیے الگ الگ معیار کے مطابق اعداد و شمار بنالیے گیے اوران کو بیان کرتے ہی ذہن میں فوراً اس چیز کی بابت تمام تر تفاصیل سامنے آ جاتی ہیں۔  پہلے کسی چیز یا شخص کے بارے میں ضروری اعداد و شمار انسان خود جمع کرتا تھا۔  جس کو پیپر ورک (Paper Work ) کا نام دیا جاتا ہے اور ان کے اعداد وشمار کو محفوظ کرنے کے لیے جس شخص کو ذمہ دار ٹھرایا جاتا اس کوریکارڈ کیپر (Record Keeper)  کہتے اور اب اس ترقی یافتہ دورمیں یہ سارا کام مشین کو سونپ دیا گیا اور اردو نہ سہی لیکن دیگر زبانوں کے ان دونوں افراد کی سردردی کو سہل انگاری میں بدل دیا گیا۔ (10)

بڑی بڑی کمپنیاں، فیکٹریاں، بینکوں اور ایسے ہی دوسرے اداروں میں جہاں بہت سے لوگ کام کرتے ہوں، بہت سے کارو بار ہوں تو وہاں پر کسی شعبہ کی کار کردگی کو محفوظ رکھنے کے لیے ضروری کوائف کا جمع کر کے رکھنا تواور بھی ضروری ہو جاتا ہے اوراگر یہ سارے کاغذوں کی زینت بنا کر فائلوں میں بند کر کے رکھنا شروع کر دیں تواندازہ لگایا جا سکتا ہے کہ کس قدر جگہ کی ضرورت ہو گی؟ کس قدرمحنت درکار ہو گی؟پھر جب کبھی کسی کے بارے میں معلومات کسی دوسرے ادارے یا شخص کو بتانا ہو تب کیا کچھ کرنا ہو گا؟ کمپیوٹر سے غیر وابستہ زبان والوں کے لیے خصوصاً اس کا تصور ہی جھنجھوڑنے کے لیے کافی ہے اس کے علاوہ عصر حاضر میں ان سب کے ساتھ ساتھ ہماری ضروریات اور آپسی رابطے کس قدر متاثر ہو چکے ہیں یہ ہر لسان دان جانتا ہے۔  ایسی صورت میں اردو کے ذخائر کو مشین ریڈایبل بنایا جائے اور اس کے استعمال کے مختلف سافٹ ویر بنائے جائیں تو یقیناً اس طرح کے مسائل کو حل کیا جا سکتا ہے۔  اور اردو کارپس کے ذریعے دوسرے زبانوں کی طرح اردو کے استعمال میں آنے والی ٹیکنکل مشکلات کا حل تلاش کیا جا سکتا ہے اوراردو میں استعمال کی نئی نئی اور آسان تکنیکیں بھی بنائی جا سکتی ہیں جس سے اہل اردو کو کمپیوٹر اور انٹر نیٹ میں اردو کو لکھنے اردو کو تلاش کرنے اور اردو کے ذریعے مختلف پروگراموں کو استعمال کرنا یا اردو میں ترجمہ بآسانی اور بہتر طریقے میں حاصل کیا جا سکے گا اور اس سے استفادہ کی راہیں ہموار ہوں گی۔

جیسا کہ ماقبل میں ذکر کیا جا چکا ہے کہ کارپس کسی زبان کا مشین کے لیے قابل مطالعہ ذخیرہ ہوتا ہے۔  مشین کے لیے قابل مطالعہ یہ ذخیرہ پوری کتاب کی شکل میں بھی ہو سکتا ہے اور کسی کتاب کے لفظوں، جملوں اور متون پر بھی مشتمل ہو سکتا ہے۔ اسی وجہ سے کارپس کئی اعتبار سے اہمیت کا حامل ہے بلکہ اردو کارپس کی تیاری تو اس وقت کئی اہم میدانوں کے لیے ایک بنیادی ضرورت ہے جس کے بغیر اردو زبان کی ترقی و فروغ کا تصور بھی نا ممکن ہے، اس لیے مشینی ترجمہ میں کارپس کی ضرورت و اہمیت سے قبل مشینی ترجمہ کے علاوہ چنداہم میدانوں میں کارپس کی ضرورت و اہمیت کوواضح کرنا مناسب ہو گا بعد ازاں مشینی ترجمہ میں کارپس سے متعلق بحث کی جائے گی۔

  • تعلیم و تدریس میں کارپس کی ضرورت:

جاوید احمد کامٹوی اپنے مضمون اطلاعیاتی ٹکنالوجی اور تدریس و تعلیم میں لکھتے ہیں کہ:

’’ جہاں تک تعلیمی میدان کا سوال ہے تو اس میں جدید ٹکنالوجی نے اس قدر متاثر کیا کہ مغربی دنیا میں روایتی کتابوں، روایتی کلاس روم بلکہ روایتی اساتذہ کا تصور دھیرے دھیرے ختم ہو رہا ہے انٹرنیٹ اور دیگر گیج یٹس نے آج ان کی جگہ لے لی ہے لیپ ٹاپ کی شکل میں کلاس روم اور ٹیچر اس کے سفر و حضر کا ساتھی بن چکا ہے جس میں محض ماوس کی ایک کلک سے کسی بھی مطلوبہ معلومات یا رابطے کو کسی جن کی طرح حاضر کیا جا سکتا ہے۔  ان اشیاء کا عمل دخل اس حد تک بڑھ چکا ہے کہ آج جا ہل اور ناخواندہ کی تعریف بدل چکی ہے کمپیوٹر کے اس دور میں آج وہ شخص نا خواندہ ہے جسے حرفوں اور ہندسوں کی پہچان نہ ہو بلکہ ناخواندہ وہ شخص ہے جو کمپیوٹر کی بنیادی معلومات سے بے بہر ہو، دنیا کا شاید ہی کوئی ایسا موضوع ہو جو انٹرنیٹ پر موجود نہیں ‘‘۔ (11)

آج جدید علوم کے تصور سے ہی کمپیوٹر میں استعمال ہونے والے طرح طرح کے علمی، فنی اور دیگر پروگرام مراد لیے جاتے ہیں اور اس حقیقت سے انکار نہیں کہ کل تک جن علوم سے لوگ متعارف نہیں تھے آج اسی کے حصول کے لیے ہر جگہ کثیر تعداد میں طلبہ کوشاں ہیں۔  کمپیوٹر اور انٹر نیٹ کی اہمیت تعلیمی میدان اور اس سے متعلق تعلیم دونوں کی بڑی اہمیت ہے۔  انٹر نیٹ اور کمپیوٹر کے ذریعے اس قدر تعلیم حاصل کی جا رہی ہے کہ دنیا بھر کی معلومات کا حصول اسی پر محیط ہے۔ اور یہ کہنا مبالغہ نہیں ہو گا کہ کمپیوٹر اور انٹر نیٹ سے لوگ اس طرح متاثر ہو رہے ہیں کہ آنے والے دنوں میں بچے اسکول میں کتابیں کاپیوں کے بجائے صرف ایک دستی کمپیوٹر یا لیپ ٹاپ لے جانے لگیں گے جس میں برقی کتابیں اور کاپیوں کی جگہ سوفٹ ویر پر لکھنے کا نظام ہو جہاں بچے تحریر سیکھنے کے بجائے ٹائپنگ سیکھیں گے۔

تعلیمی میدان میں کارپس کے ذریعے طلبا خاص طور سے محققین کو ہمہ جہت علمی مضامین تک پہونچنا آسان ہو جائے گا۔  اردو کارپس کے ذریعے تعلیمی میدان سے متعلق نئی نئی تکنیکیں اور نئے نئے پروگرامس بھی ترتیب دیے جا سکتے ہیں جن سے نہ صرف اردو کی معلومات حاصل کی جائیں گی بلکہ بزبان اردو معلومات کو حاصل کرنا آسان ہو گا۔

 

لسانیاتی تحقیق میں کارپس کی ضرورت و اہمیت:

جب انسان کاغذ کے دور سے مشین کے دور میں داخل ہو گئے تو وہ اپنی زبانوں میں موجود علمی،، ادبی و مذہبی متون کو بھی کاغذ سے مشین کے طرف منتقل کرنے لگے اور اس میں ایسی اصلاحات کی گئی کہ وہ تمام متون کمپیوٹر اور انٹر نیٹ پر پڑھا جانے لگا اور یہ صرف آنکھوں کو دیکھنے کی حد تک ہی محدود نہیں رہی؛ بلکہ کمپیوٹر اور انٹر نیٹ اس تحریر کو سمجھنے بھی لگا۔  کارپس کسی زبان کا ایک حصہ ہوتا ہے اور ہم جانتے ہیں کہ آج دنیا بھر میں زبانوں پر تحقیق کا کام زوروں پر ہے۔  زبان پر تحقیق سے مراد زبان کی ساخت پرداخت کا مطالَعہ بھی ہے اور بین اللسانی تعلقات کا مطالَعہ بھی۔

کمپیوٹر کی آمد کے ساتھ ہی زبانوں پر تحقیق کے علم میں نئی اور وسیع تر جہتیں سامنے آنا شروع ہوئیں اور خالص سائنسی انداز میں زبانوں کی ساخت اور اثرات کا جائزہ لیا جانا شروع ہوا۔  اِس مطالعے اور تحقیق کے لیے زبان کے معاصر نظائر کی بنیادی اہمیت ہے۔  چنانچہ مشین کے لیے قابل مطالعہ حالت میں دنیا کی کئی زبانوں کے متون اِس مقصد کے لیے کارپس کی صورت میں جمع کیے گئے اور کمپیوٹر و اِنٹرنیٹ پر محققینِ زبان و لسانیات کے لیے مہیا کیے گئے ہیں۔  یہ متون وقت گزرنے کے ساتھ کمیت میں بڑھ رہے ہیں اور کیفیت میں بہتر ہو رہے ہیں۔  لسانی انجینئرنگ  (Language Engineering)  اور لسانیات (Linguistics)  کے سبھی شعبوں میں تحقیق کے لیے ایسے متون کی بنیادی ضرورت ہے۔  (12)

ڈاکٹر حافظ صفوان محمد چوہان لکھتے ہیں کہ:

’’ اردوکارپس کا استعمال موجودہ دور کے محققین اور اہل معانی کی اولیں ضرورت ہے اس کے استعمالات لسانی اور لسانیاتی تحقیق کے لیے عام استعمال میں آنے والی اردو کی مثالیں بنانا اورجمع کرنا، اور اس کام کو مستقل طو رپر کیے جانا بے حد ضروری ہے اس قسم کے ذخیرہ امثال کی ضرورت، تیاری اور لائحہ عمل پر راقم الحروف کا کہنا ہے کہ اردو کارپس کی تیاری لسانی تحقیقات کے لیے ریڑھ کی ہڈی کی حیثیت رکھتی ہے اوراِس ترتیب پر یعنی اردو کارپس کی شکل میں اردو کے متون اگر ذخیرہ کیے جائیں، اور اِن کو مستقل طور پر اَپ ڈیٹ بھی کیا جاتا رہے، تو اردو لسانی تحقیق کا نیا منظر نامہ سامنے آتا ہے اور اردو کو وہ مقام ملنے کی امید کی جا سکتی ہے جس کی وہ جائز طور پر حق دار ہے ؛ یہ سب کارپس مل کر دنیا میں جاری لسانیاتی تحقیقات کو بہت کام کے بنیادی متون فراہم کر سکتے ہیں طلبہ کی تدریسی ضرورتوں کو پورا کرنے کے ساتھ ساتھ اردو کارپس مختلف علوم و فنون کے اساتذہ اور اساتذہٴ زبان و ادب کے لیے بھی فائدہ مند ہو گا کیونکہ یہ لوگ اِس کے ذریعے سے اپنے طلبہ کی ضروریات کے مطابق تازہ بتازہ مواد حاصل کریں گے۔  کلاسیکی اردو ادب کے طلبہ و اساتذہ بھی اِس مواجہ کو اپنے لیے ویسا ہی سودمند پائیں گے جیساکہ یہ جدید لسانیاتی تحقیقات کے لیے ہو گا۔  (13)

دیگر زبانوں میں ٹکنالوجی کے ذریعے تحقیق کے نئے نئے میدان کھل رہے ہیں آج کسی زبان کے محقق کو اپنی لسانی تحقیقات سے متعلق کچھ معلومات حاصل کرنا ہو تو وہ اس تک بغیر کسی مشقت کے ہی پہنچ جاتا ہے۔  انگریزی کی بات کریں تو ان لوگوں نے کئی کارپس صرف اس مقصد کے لیے بنائے ہیں کہ ان ذخیروں کے ذریعے لسانیاتی تحقیقات آسانی سے ہو جائے آج انٹر نیٹ پر کسی ایک لفظ کی تحقیق کریں اس کی پوری تفصیلات آپ کے سامنے موجود ہوتی ہیں، مثلاً اس کے معنی کیاہیں؟اس کی جمع کیا ہے؟ اس کا اصل ماخد کیا ہے؟ اصل میں یہ کس ملک کی زبان ہے؟ اس کے استعمال کے طریقے کیا کیا ہیں؟ وغیرہ جیسی معلومات کو بس چند لمحوں میں حاصل کیا جاتا ہے۔

موجودہ دور میں کارپس پر مبنی اس طرح کا پروگرام (سوفٹ ویر ) بھی بنایا جا سکتا ہے جس کے ذریعہ لسانیاتی تحقیقات کے ساتھ مختلف النوع معلومات، جیسے کسی لفظ کا صرفی و نحوی قواعد کے ساتھ اس لفظ سے متعلق تاریخی معلومات اس کے مترادفات، مرکبات اور وہ معرفہ ہے یا نکرہ وہ مذکر ہے یا مونث اس کے علاوہ اس کے معنی وغیرہ بنیادی معلومات بھی حاصل کیے جا سکتے ہیں۔

آئیے ! جائزہ لیتے ہیں کہ کارپس پر مبنی کسی پروگرام کے تحت ہمیں کس طرح کی معلومات حاصل ہوتی ہیں ؛

مثلاً میں اپنے نام کے بارے جاننا چاہتا ہوں تو اس کارپس کے ذریعے بنائے گئے پروگرام یا لغت میں زاہد تلاش کرتے ہیں تو ہمیں اس طرح سے معلومات سامنے آتی ہیں۔ سب سے پہلے آئے گا زاہد کس زبان کا لفظ ہے؟ اس کے بعد اس کا اصل مادہ کیا ہے؟اس کے بعد وہ سب سے پہلے کہاں اور کب استعمال ہوا تھا؟ پھر وہ معرفہ ہے یا نکرہ؟ اس کا جنس مخالف کیا ہے؟ جمع استثنائی اور جمع غیرندائی کیا ہیں؟ اس کے اردو معنی کیا ہیں؟ اس سے متعلق کوئی شعر ہے تو وہ بھی معلوم ہو سکتا ہے اس کے بعد اس کا انگریزی ترجمہ پھر اس کے مترادفات اور مرکبات کیا کیاہیں؟۔ مندرجہ ذیل مثال سے سمجھا جا سکتا ہے۔

زاہِد    ز ہ د

عربی زبان میں ثلاثی مجرد کے باب سے مشتق اسم فاعل ہے۔  اردو میں عربی سے ماخوذ ہے اور بطور اسم مستعمل ہے۔  1611ء میں "کلیات قلی قطب شاہ” میں مستعمل ملتا ہے۔

اسم نکرہ – (مذکر- واحد)

جنسِ مخالف: زاہِدَہ [زا + ہِدَہ]

جمع استثنائی: زاہِدان [زا + ہِدان]

جمع غیر ندائی: زاہِدوں [زا + ہِدوں (واؤ مجہول) ]

1۔ دنیا کی خواہش اور رغبت چھوڑ دینے والا، علائق دنیا سے کنارہ کش ہو جانے والا، پرہیز گار، عابد۔

زاہدوں کو راس کیا آئے گی جنت کی فضا

حشر کے دن بھی سجدے میں پڑے رہ جائیں گے (1984ء، چاند پر بادل، 118 )

انگریزی ترجمہ

Abstinent, religious, devout; one who shuns the world and exercises himself in acts of devotion, a devotee, a monk, recluse, hermit; a zealot

مترادفات:

سَنْت  سَنْیاسی سادھُو  تَیَسّی ذاکِر  عابِد مُتَّقِی صُوفی

مرکبات

زاہِدِ خُشْک،   زاہِدِ فَریب،   زاہِدِ فَریبی،   زاہِدِ مُرْتاض

اسی طرح لفظ ترجمہ کے بارے معلوم کرتے ہیں تو اس طرح معلومات ہمارے سامنے آتی ہیں۔

تَرْجَمَہ [تَر + جَمَہ] (عربی)

تَرْجَمَہ  ر ج م

عربی زبان سے اسم مشتق ہے۔  اردو میں ساخت اور معنی کے اعتبار سے بعینہ داخل ہوا۔  اردو میں سب سے پہلے 1802ء کو "خرد افروز” میں مستعمل ملتا ہے۔

اسم نکرہ ( مذکر- واحد)

واحد غیر ندائی: تَرْجَمے [تَر + جَمے ]

جمع: تَرْجَمے [تَر + جَمے ]

جمع غیر ندائی: تَرْجَموں [تَر + جَموں (و مجہول) ]

  1. ایک زبان سے دوسری زبان میں منتقل کرنا (مطلب و معنی کو) ۔

"اس بشارت میں آنے والے پیغمبر کے سب سے پہلے وصف کا ترجمہ برگزیدہ کیا گیا ہے۔ ” ( 1933ء، سیرۃ النبی، 731:3 )

  1. تذکرہ، حال، سوانح۔ "شیخ جلال الدین سیوطی نے طبقات میں ان کا مفصل ترجمہ لکھا ہے۔ ” (1924ء، تبرکات آزاد، 300 )
  2. اظہار تعبیر و تشریح۔

کشاف امر حق ہے بیاں اس سعید کا

ہاں ترجمہ ہے مصحف رب مجید کا

( 1874ء، انیس، مراثی )

انگریزی ترجمہ   Interpretation;  translation   مرکبات

تَرْجَمَہ نَوِیس ، تَرْجَمَۃُ اللَّفَظ، تَرْجَمَہ نِگار  (14)

اس اعتبار سے دیکھا جائے تو اردو کارپس ان تمام معلومات کو ایک جگہ پیش کر سکتا ہے جو کہ کسی لسانیات کے طالب علم، محقق یا دیگر اردو والوں کے لیے نہایت ضروری ہوتی ہیں۔ اور اس طرح کی معلومات ترتیب دینے کے لیے کارپس کی تیاری کی جائے تو اردو کے لیے اس سے بڑھ کر مزید اور بہتر اضافی معلومات کے ساتھ کئی اس طرح کے پروگرام بنائے جا سکتے ہیں۔

  • ادبی تحقیق کے لیے کارپس کی ضرورت و اہمیت:

ماہرین کا کہنا ہے کہ دنیا میں اس شاہراہ اطلاعیات نے دانش، تفکر، علم اور ابلاغ کے راستے ہی بدل ڈالے ہیں۔  کمپیوٹر اب تحریر کا بھی اور تدریس کا بھی سب سے بڑا واسطہ (Medium) بن چکا ہے۔

اس بحث سے قطع نظر کہ ہماری زبان، ادب اور ثقافت کو اپنے ابلاغ کے لیے اردو کے اس نئے واسطے کی ضرورت ہے یا نہیں اور آیا یہ آزاد فضا میں غیر ترقیاتی انداز میں زندہ رہ سکتی ہے یا نہیں، ہمیں اردو کو اس جدید ٹکنالوجی کے حوالے سے دیکھنے کی کوشش کرنی ہو گی۔  جس ادبی محضرمیں ہم نے تربیت مطالعہ و تحریر پائی تھی، نئی نسلوں میں اس کا قاری عنقا ہو گیا ہے اور اب وہ نیا قاری جس زبان کا عادی ہو چکا ہے، ہمارے شاعر اور ادیب اس میں اظہار کی راہ نہیں پا رہے۔  قلم سے کاغذپر لکھنے والے کلیدی تختے، برقیاتی گتے اور صوت نگاری کی سان پر نہیں چڑھ رہے۔  ہم جس ادبی محضر اور علمی کینڈے (Academic Genre ) کی بات بیسویں صدی میں کرتے تھے، وہ ایک قصہ پارینہ بن چکا ہے۔  حرف اور عبارت کا جو واسطہ ہمارے زیر استعمال رہا ہے اگلی نصف صدی میں شاید اس کی ضرورت ہی ختم ہو جائے۔  متن تا صوت اور صوت تا متن کی تمام تر منتقلی کا کام کمپیوٹر سنبھال لے گا۔  ایک اندازے کے مطابق ہر ڈیڑھ سال بعد کمپیوٹر کا سائز دو گنا چھوٹا اور قوت دوگنا زیادہ ہوتی ہے۔  ایک چوتھائی صدی پہلے کے بڑے بڑے الماری نما کمپیوٹر بیسویں صدی کے آخر میں صرف میز اور اکیسویں صدی کے آغاز پر ہتھیلی میں آ چکے ہیں۔ اب اگلے عشرے تک یہ کان اور آنکھ پر اور اس کے بعد کے دو عشروں بعد صرف دماغ کے اندر نصب ہو جائیں گے تب شاید انتقال و ابلاغ کے لیے بول چال کی ضرورت بھی باقی نہیں رہے گی۔ ایسے میں اردو کی صورت کیا ہو گی، اس کے ادبی پہلوؤں کی تدریس کا اونٹ کس کروٹ بیٹھے گا اس کا اندازہ کیا جا سکتا ہے۔

جدید ٹیکنالوجی کا یہ پہلو اردو دوستوں سے درد مندی سے غور و فکر کا متقاضی ہے۔ اب تک ہم نے جن امور کو سطحی اور نچلے درجے کا سمجھا تھا اور آزاد فنون کی جن سطحوں کو بورژوائی مقام دے رکھا تھا انھیں اتھل پتھل کرنے کی ضرورت ہے۔  (15)

موجودہ دور میں اب ہر قاری کو کتابوں اور دیوانوں کے مطالعہ سے زیادہ الیکڑونک کتابیں اور برقی مجلے زیادہ پسند ہیں جسے وہ اپنے سفر و حضر کا سامان بنا سکے اور جب دل چاہے اس سے استفادہ کر سکے اردو کے قارئین کے لیے کسی شاعر کی شاعری یا کسی غزل کے مفہوم یا پھر کسی دیگرصنف سخن میں موجود الفاظ اس کے مفہوم یا تاریخ جاننے کی ضرورت ہو تواسے گھنٹوں، دنوں اور بعض وقت مہینوں بھی لگ جاتے ہیں جدید ٹکنالوجی نے اتنی سہولت دے رکھی ہے کہ اگر ہم یہ تمام کو ایک مرتبہ ایک جگہ جمع کر کے کسی سوفٹ ویر کے ذریعے استعمال کے قابل بنا ناچاہیں تو اس کے اندر کسی شاعر کی پوی زندگی کی داستان کے ساتھ اس کے تمام تر خدمات تک ایک لمحہ میں رسائی کی جا سکتی ہے۔ (16)

اور اس بات سے کس کو انکار نہیں ہے کہ اردو زبان میں ادبی میدان بڑی اہمیت کا حامل ہے اور اس میں الفاظ کا ایک بڑا ذخیرہ ہے مگر اس ذخیرے میں مسلسل اضافے کی ضرورت ہے۔ اور ان ادبی ذخائر کو مشینی دنیا سے ہم آہنگ کرانا وقت کی اہم ضرورت ہے کیونکہ کہ اب تحقیق کے طریقے بدل رہے ہیں۔

اردو ادب کی ہی تحقیق نہیں بلکہ سبھی زبانوں میں تحقیق کے قدیم ذرائع میں روایتی کتابوں، قلمی نسخوں سے براہ راست استفادہ اور فیلڈ ریسرچ جیسے ذرائع زمانہ قدیم سے رائج ہیں۔  کل تک متعلقہ موضوع کے ماہرین سے ان کی رائے معلوم کرنے اور ان کے تجربات سے استفادہ کے لئے کو سوں سفر کرتے تھے آج مشین نے ان فاصلوں کا ختم کر دیا ہے۔ اب گھر بیٹھے گھر بیٹھے دنیا کی بڑی بڑی لائبریوں کے ای سیکشن(E- Section) کا مطالعہ کرنا، ماہرین سے تبادلہ خیال کرنا اب بہت ہی آسان ہو گیا ہے کل تک کسی نسخے کی تلاش یا اصل نسخے کی دریافت کے لیے مختلف مقامات کے مختلف لائبریریوں کا چکر لگا نا پڑتا تھا آج کسی کمپیوٹر کے ذریعے ان نسخوں تک پلک جھپکتے ہی پہونچا جا سکتا ہے۔  لیکن اردو زبان کے کسی محقق کو اردو زبان کی روح کہا جانے والا اور دیگر زبانوں سے خوبصورت اور منفرد بنانے والا میدان اردو ادب سے متعلق کسی نسخے کی تحقیق کرنی ہو یا پتہ لگا نا ہو کہ اسا سی نسخہ کون ہے؟ اور کہاں ہے؟ تو اسے کئی دنوں تک مسلسل کئی مقامات کا چکر لگانا پڑتا ہے جب کہ انگلش والے اس طرح کی معلومات یا تحقیق کو چند لمحے میں حاصل کر لیتے ہیں۔

عزیر اسرائیل لکھتے ہیں کہ:

’’ ادبی تحقیق میں قلمی نسخوں کی تحقیق اور ان کا باہم مقابلہ کرنا ایک دشوار کام ہے۔  بعض معاملوں میں ایک ہی کتاب کے سیکڑوں نسخے ہوتے ہیں۔  ان کے باہمی فرق کو واضح کرنے میں سالوں لگ سکتے ہیں۔  انگریزی زبان والوں نے اس کام کو آسان کرنے کے لئے ایک اہم سوفٹ ویر بنایا ہے۔  Canterbury tale project ایک ویب سائٹ کے ذریعہ پیش کیا گیا پروگرام ہے۔  وہ قلمی نسخوں کو سائنٹفک انداز میں پیش کرتا ہے۔  اب تک اس نے ہزاروں قلمی نسخوں کو ڈیجیٹلائز کر دیا ہے۔  اس پروگرام کی خاصیت یہ ہے کہ اس میں ایک ساتھ کئی نسخوں کو داخل کرنے پر کمپیوٹر سبھی نسخوں کے اختلاف کو آن واحد میں بیان کر دیتا ہے۔  اس طرح فرق کو تلاش کرنے کے لئے سبھی نسخوں کو پڑھنے کی ضرورت نہیں ہے ‘‘(17)

ٹکنالوجی کے میدان میں ادبی تحقیق کے لیے اہل اردو کو ان تمام اصناف سخن کو کتابوں سے مشین میں لانے کی ضرورت ہے یعنی کے ان متون کو چاہے وہ غزل کے متون ہوں یا نظم کے یا پھر نثر کے سب کو کارپس کی شکل میں تیار کرنا ہو گا۔  اگر اردو ادب کے ذخائر کو کارپس کی شکل میں کمپیوٹر اور انٹرنیٹ پر ڈالا جائے تو نہ صرف اردوو الوں کے لیے مفیداہو گا بلکہ اردو کے محققین کو مہینوں کا سفر دنوں میں تبدیل ہو سکتا ہے اور صحیح نسخے یا تواریخ یا پھر اصل مصنف کی معلومات چند لمحوں میں حاصل کی جا سکتی ہے اور پھر مزید اس پر تحقیق کے بھی مختلف النوع راہیں ہموار ہوں گی جس سے نہ صرف اردو ادب کی بقا بلکہ اسے ہر طرح کے رنگ و بو سے مزین کیا جا سکتا ہے۔

اس اہمیت کو سمجھتے ہوئے پا کستان سائنس اینڈ ٹکنالوجی نے 2010 میں اردو اطلاعیات اور برقیاتی تحقیق کے موضوع سے ایک مضمون شا ئع کیا جس میں موجودہ دور میں کمپیوٹر اور انٹرنیٹ میں اردو زبان کی شمولیت و ان سے استفادہ کی اہمیت اور اس میدان میں تحقیق کے لیے نئے نئے گوشوں کا اردو اطلاعیات کے حوالے سے ذکر کیا گیا ہے۔ اور اردو کے تئیں موجودہ دور میں کمپیوٹر اور انٹر نیٹ کی مقبولیت کو مد نظر رکھتے ہوئے تحقیقی مقالہ جات کی کمپیوٹر پر ہی تیاری، تحقیقی رپورٹوں /مقالوں کی ویب سائٹ کا قیام اور اشاعت کے لیے کمپیوٹر کے ذریعے ترسیل وغیرہ۔  یہ تمام امور اُردو کی ادبی تحقیق کو کمپیوٹر کی مدد دینے کا آغاز کرتے ہیں۔  ان کاموں کے لیے اُردو کے بنیادی متون (نظم و نثر) وغیرہ کا ڈیٹا بیس یا کوائفیہ بنانا بنیادی شرط ہے۔  اس کے ساتھ ساتھ تحقیقی مواد مثلاً بنیادی حوالے یا مصادر کو برقیاتی صورت میں محفوظ کرنا اہم ہے۔  نیز تحقیق کے لیے مختلف تلاش انجن  (Search Engine)   تیار کرنا ہوں گے۔  ان کی مدد سے مواد حاصل کیا جائے گا یا کوائف ڈال کر ان کا تجزیہ کیا جائے گا یا کوئی رپورٹ تیار کی جائے گی، جیسے مخطوطہ شناسی، SPSS ، برقیاتی تحقیق (E-Research) ، قرطاسِ اُسلوب یا رہنمائے طرز (Style Guide) ، کتابیات سازی اور اشاریہ بندی کے سافٹ ویئر وغیرہ کی جانب نشاندہی کرتاہے۔ (18)

اگر ہم اردو کے تئیں بے فکری اور غیر ذمہ داری کاثبوت دیں گے تو اس سے نہ صرف اردو زبان کو نقصان پہونچے گا بلکہ اردو زبان کا قدیم ورثہ جس سے آج بھی لوگ استفادہ کرتے ہیں اور اردو ادب و دیگر ماہرین کی کتب جو دیگر زبانوں سے ہمیں ممتاز کرتی ہیں اردو کے لیے قابل فخر ہیں وہ سب الماریوں اور میوزیم کی زینت کے سوا کسی کام کی نہ رہیں گی چونکہ زمانے کے ساتھ قدم ملا کر چلنے والی ہی قوم ترقی کی منزلوں تک رسائی کرتے ہیں۔ ورنہ وہ دن دور نہیں کہ آج جو ورثہ ہمارے پاس مشین کے لیے ناقابل مطالعہ شکل میں موجود ہے کل کسی دیمک کی خوراک ہو جائے گا ہمیں عثمانیہ یونیورسٹی کے علوم و خدمات و اردو کے قیمتی سرمائے و ذخائر کے فوت ہونے کا ملال آج تک ہے کل ہماری آئندہ نسلوں کے لیے ہمارے بقیہ سرمائے کے فوت و ملال کا سبب نہ بن جائے۔  اس لیے اردو زبان کو دیگر زبانوں کے ساتھ قدم بہ قدم آگے بڑھنا چاہیے اور تمام تر اپنے علمی، ادبی، مذہبی ور تاریخی ذخائر وغیرہ کو نہ صرف میوزیم کی زینت اور سیاحوں کی دل لگی کا سامان بنایا جائے بلکہ اس کی حقیقی تحفظ کے لیے جدید ٹکنالوجی سے آراستہ کیا جائے اور جدیدٹکنالوجی کے تعاون سے اسے تراش کر مزید اس میں پوشیدہ ہیرے – جوہرات کو دریافت کرنے کی کوشش کی جائے تاکہ ٹکنالوجی کے استعمال سے اپنی زبان سے متعلق تعلیم و تحقیق کے نئے نئے گوشے تلاش کیے جا سکیں۔

 

مشینی ترجمہ میں کارپس کی ٖضرورت و اہمیت

 

مشینی ترجمہ میں کارپس کا کردار:

معلومات کے روزافزوں خزانے انٹرنیٹ سے استفادہ کرنے کے لیے خصوصاً انگریزی سے واقفیت ضروری ہے کیونکہ زیادہ تر کتابیں اور مضامین انگریزی میں ہی دستیاب ہیں۔ جولوگ انگریزی سے واقف نہیں ہیں وہ ان معلومات سے فیض یاب نہیں ہو سکتے جب تک کہ انہیں یہ معلومات ان کی زبان میں پیش نہ کی جائیں، ماہرین کا کہنا ہے کوئی بھی شخص کسی چیز کو جتنی آسانی سے اپنی مادری زبان میں سمجھ سکتا ہے اتنا آسانی سے دوسری زبان میں نہیں سمجھ سکتا، اور اس چیز کے لیے ترجمہ ہی ایک اہم وسیلہ ہے۔  لیکن نئے نئے مضامین اور کتابوں کے ساتھ آن لائن مضامین اور مقالے کی اشاعت اتنی تیزی سے ہو رہی ہے کہ کوئی مترجم اسے ترجمہ بھی نہ کرپاتا ہے کہ دوسری کتاب یا مقالہ اسی مضمون پر آ جاتا ہے۔  ایسے میں اگر مشین کے ذریعے ترجمہ کیا جائے تو ترجمے کی رفتار تیز ہو گی اور اس طرح یہ ممکن بھی ہو سکے گا کہ کتابوں اور مضامین کے شائع ہوتے ہی اس کا ترجمہ شائقین تک پہنچ جائے۔ یہی وجہ ہے کہ ہر زبان والے نے ترجمے کے لیے جدید ترین وسائل کو اپنایا اور ترجمے کے میدان میں تیز رفتاری سے کام انجام دیے۔

استاد محترم ڈاکٹر خالد مبشر الظفر کے مطابق مشینی ترجمہ در اصل اللہ کے جانب سے انسانوں کو عطا کردہ صلاحیت کی نقل ہے جہاں ایک انسانی دماغ کی جگہ ایک مصنوعی دماغ، احکامات کی جگہ سوفٹ ویر اور انسانی اعضاکی جگہ ہارڈویر ترجمہ کا کام انجام دیتے ہیں۔

ہچنس کے مطابق اب مشینی ترجمہ کا مطلب وہ کمپیوٹرز ہیں جو انسانی مدد کے بغیر ایک زبان سے دوسری زبان میں ترجمہ کا کام انجام دیتے ہیں (19)

آرنلڈ بلکان کے مطابق ایک کمپیوٹر پروگرام یا ایک مشین کے ذریعہ ایک زبان کے جسے اصل زبان کہا جاتا ہے متن کو دوسری زبان جسے ہدفی زبان کہا جاتا ہے، میں ڈھالنا ہے۔  (20)

بہر حال مشینی ترجمہ دور حاضر کی ترقیوں سے استفادہ کی موثر مثال ہے جس میں مواد کو ایک زبان (اصل زبان) سے دوسری زبان ( ہدفی زبان ) میں منتقلی کے لیے انسان کے بجائے مشین ترجمہ کا کردار ادا کرتی ہے۔  ابتدا میں یہ مشین مینول (Manual ) یا دستی مشین تھی لیکن الکٹرانکس کی ترقی کی بناء پر ان مشینوں کے معیار میں اور ان کے ذریعے انجام پانے والے کاموں کی رفتار دونوں میں زبردست تبدیلیاں ہوئیں اور وہ اس وجہ سے کہ اس مشین کی فہم اور یاد داشت میں کارپس کی شکل میں وہ تمام باتیں ڈال دی جاتی ہیں جو ایک انسانی دماغ کے اندر ممکن العمل ہیں، مثلاً کسی مخصوص زبان کے حروف۔  اشارات، الفاظ، محاورے، استعمال کے ماحول کے ساتھ الفاظ کے مفہوم کی تبدیلیاں، مخصوص اصطلاحات، صرف و نحو کے ضابطے اور قاعدے، لسانی باریکیاں اور لسانی اصول، ادبی نزاکتیں، الفاظ اور اصطلاحات کے ہم پہلو مفاہیم، صوتی تبدیلیاں، املاکے اصول وغیرہ۔ اور جب یہ مشین مکمل طور پر تیار ہو جائے تو پھر اس میں ہدفی زبان سے متعلق بھی درج بالاتمام ضروری باتوں کو کارپس کی ہی شکل میں ڈالا جاتا ہے اس کے بعد آٹومیٹک تبدیلیے کا استعمال کیا جاتا ہے۔ جو یا تو کوئی آلہ ہارڈ ویر یا پھر کوئی پرگرام (سوفٹ ویر ) ہوتا ہے اور اصل زبان کے متن کو اس مشین کے حوالے کیا جا تا ہے تاکہ وہ حسب حکم اپناکام انجام دے اور پھر حسب منشا اور دستیاب سہولیات کو استعمال کرتے ہوئے متن کو دوسری مطلوب زبان میں حاصل کر لیا جاتا ہے۔ (21)

یہ تمام اسی صورت میں ممکن ہو سکتا ہے جب مشین کے اندر متون، الفاظ، اصطلاحات، محاورے وغیرہ مشین ریڈ ایبل شکل میں ڈالے جائیں اور مشین کے اندر جتنے الفاظ یا متون ڈالے جائیں گے اتنے ہی بہتر ترجمے ہمیں مل سکتے ہیں۔  الفاظ کی کمی یا متون کے کمی کی وجہ سے بعض وقت مشین کے ذریعے ترجمہ ملنامشکل ہو جاتا ہے یا پھرصحیح ترجمہ نہیں مل پاتا۔  یہ کارپس اس کمی کو پورا کرنے میں نہایت ہی اہمیت کا حامل ہوتا ہے اور مشینی ترجمہ کے عمل کو بہتر بناتا ہے۔

 

اردو مشینی ترجمہ میں کارپس کا کردار:

عصر حاضر میں جدید ٹکنالوجی نے جس طرح زندگی کے دیگر شعبوں میں ترقی کی ہے اسی طرح علمی میدان

میں بھی اس طرح کی ترقی کی سخت ضرورت ہے اور زبانوں کو بھی اس کے ساتھ ہم آہنگ کر کے ان ترقیات سے استفادہ کرنا چاہیے۔  ڈاکٹر خالد مبشر الظفر صاحب اپنے مضمون مشینی ترجمہ میں لکھتے ہیں کہ:

’’ ترجمہ دور حاضر کا ایک اہم ترین علمی میدان اور بنیادی ضرورت بن چکا ہے اردو زبان میں سرمایہ علم کی منتقلی کا انحصار انسانی تراجم پر ہے جس کی رفتار ظاہر ہے کہ بہت تیز نہیں ہے۔ اسے تیز رفتار بنانے کے لیے لازم ہے کہ کہ جدید ٹکنالوجی سے بلا تکلف اور بھر پور استفادہ کیا جائے، نئے طریقوں اور تکنیکوں کے استعمال سے ترجمہ کی رفتار اورمعیار بہتر بنایا جا سکتا ہے۔  حالیہ برسوں میں محققین اور ماہرین ٹکنالوجی نے بہت سے طریقے، تکنیک اور آلات ایجاد کر لیے ہیں جن کے ذریعے ترجمہ کے عمل میں زبردست تیزی لائی جا سکتی ہے۔  ترجمہ کے میدان میں ان طریقوں۔  وسائل اور تکنیک کا استعمال اور موثر اطلاق نہایت فائدہ مند ہے اور یہیں سے ترجمہ کی تکنالوجی Translation Technology کا سر چشمہ نکلتا ہے۔  ترجمہ کی تکنالوجی سے استفادہ کرتے ہوئے ترجمہ کا عمل نہایت منظم اور رفتار اور معیاری بن سکتا ہے۔۔ ۔۔ مشینی ترجمہ دور حاضر کے زبردست علمی انقلاب کا باعث بن سکتا ہے۔ اس کے اثرات دنیاکی تہذیب و تمدن پر بھی ہوں گے اور سیاست پر بھی۔  علمی و تحقیقی میدانوں میں بھی یہ استفادہ کا موجب بنے گا اور ابلاغ وترسیل کے میدان میں بھی۔  ترجمہ در اصل تکنالوجی کا ایک خوبصورت روپ ہے جس کے ذریعہ ترجمہ کی رفتار و کارکردگی میں اضافہ ہو گا۔  دنیا بھر میں تکنالوجی کے ہارڈ ویر اور سوفٹ ویر ترقی کی منازل کی طرف گامزن ہیں اور یقیناً ترجمے کے میدان میں بھی یہ اثر انداز ہو رہے ہیں۔  ‘‘(22)

اردومشینی ترجمہ کی رفتار میں اضافہ اور بہتری کے لیے جو درکار مسائل ہیں ان میں سے ایک ذخائر کی کمی ہے۔ جتنا زیادہ ذخیرہ مشین کے اندر موجود ہو گا اتناہی بہتر ترجمہ کیا جا سکتا ہے کارپس کی تیاری سے نہ صرف کسی زبان کی شاخت پرداخت کا پتہ چلے گا بلکہ اسے مشین کے اندر ڈال کر مشینی ترجمہ کے لیے استعمال کیا جائے تو دیگر زبانوں کی طرح اردو کے تراجم بھی بہتر حاصل کیے جا سکتے ہیں۔  اگر مشین میں ترجمہ شدہ کارپس الفاظ، ان کے معنی اور ان کی دیگر خصوصیات کے ساتھ زبان کی قواعد کے سارے قوانین اور نحو کی بھی ترکیبیں اس میں ڈال دی جاتی ہیں تومشین لفظوں، زبان اور قواعد کے بارے میں معلومات کارپس سے اخذ کرتی ہے اور ترجمہ فراہم کرتی ہے چنانچہ قواعدی ترجمہ کار بنیادی طور پر کارپس پرہی انحصار کرتا ہے۔  مثلاً اگر ایک جملہ She is reading . کا ترجمہ کرنا ہو تو سافٹ وئیر یہ دیکھے گا کہ یہ جملہ کس زمانے سے تعلق رکھتا ہے۔  is سے معلوم ہو گا کہ یہ فعل حال ہے۔ ing سے پتہ چلے گا کہ یہ فعلِ حال جاری ہے۔  پھر سافٹ وئیر یہ دیکھے گا کہ اردو میں جملہ کی جنس اور نحوی ترکیب کیا ہے یعنی اگر انگریزی کی صورت میں یہ فاعل + امدادی فعل + فعل +ing تھا تو اردو کی صورت میں یہ فاعل + فعل + امدادی فعل ہو جائے گا۔  چنانچہ وہ اس جملہ کا ترجمہ’’وہ پڑھ رہی ہے ‘‘ دے گا۔  (23)

اسی طرح اگر ترجمہ شدہ کارپس جملوں پر مبنی تیار کیا گیا ہو گا تو مشین کسی ایک جملے کو اس کے متبادل جملے کو تلاش کرے گی اگر کارپس میں وہ جملہ یا اس جیسا جملہ متوازی یا ترجمہ شدہ شکل میں داخل کیا گیا ہو گا تو ترجمہ آسانی سے حاصل کیا جا سکتا ہے۔

اس طرح کے ترجمے کے طریقہ کار کے بارے ڈاکٹرخالد مبشر الظفر لکھتے ہیں کہ:’’جب ترجمے کے لیے کوئی متن اس سافٹ ویئر میں داخل کیا جاتا ہے تو یہ سب سے پہلے اپنے پاس موجود جملوں سے اس کا جملہ بہ جملہ موازنہ کرتا ہے اور دیکھتا ہے کہ آیا فل اسٹاپ یا کسی اور علامت والا کوئی جملہ ایسا جو اس ماخذ جملے سے سو فیصد ملتا ہو۔  اگر ایسا جملہ مل جائے تو ٹھیک، اور اگر ایسا نہیں ہے تو ایک تکنیک استعمال کی جاتی ہے جسے تقابل  (Concordance) کہتے ہیں۔  اس میں تقابلی سطح (Concordance Level)طے کی جاتی ہے کہ ماخذ جملہ مطلوبہ جملے سے کتنا میل کھاتا ہے۔  یہ سطح عام طور سے 50فیصد سے لے کر 90 فیصد تک رکھی جاتی ہے۔  (لیکن ہروقت یہ ضروری نہیں ) یہ تقابل اس امر کو روشنی میں لاتا ہے کہ ماخذ جملے کا کتنے فیصدی حصہ موجودہ ڈاٹا بیس سے فراہم کیا جا سکتا ہے۔  مثلاً داخل کیا گیا ایک ماخذ جملہ اگر یہ ہے۔

Muhammad Hamid is writing

اگر اس کی تقابلی سطح 80 فیصد رکھی ہوئی ہے۔  اب اگر ڈاٹا بیس کے اندر کوئی جملہ ایسا رکھا ہے جس میں "is writing” آتا ہے اور اس کاترجمہ’’لکھ رہا ہے ‘‘ کیا ہوا ہے۔  اور فرض کیجیے کہ ڈاٹا بیس کے اندر "Muhammad Hamid ” کاترجمہ موجود نہیں ہے تواب یہ سافٹ ویئر ماخذ جملے کے دوچنک (ٹکڑے ) بنالے گا جن میں سے ایک چنک کا ترجمہ موجود ہے اور دوسرے کا موجود نہیں۔  تو یوں ماخذ جملے کا پچاس فیصد ترجمہ کیا ہوا جملہ حاصل ہو جائے گا۔ مبنی بر مثال ترجمہ کار سافٹ ویئر ذو لسانی کارپس اور اپنے پاس رکھے ذخیرہ علم (Knowledge-base) کے بیک وقت استعمال سے ترجمہ کرتا ہے، اور ٹرانسلیشن میموری (TM) میں ماخذ متن سے مکمل یا جزوی مماثلت رکھنے والے پہلے سے موجود تراجم کے نمونوں سے استفادہ کرتا ہے۔  چنانچہ اس کو مبنی بر معلومات یا مبنی بر مثال ترجمہ کہتے ہیں ‘‘۔ (24)

بہر حال جہاں تک اردو کی بات ہے اردو زبان دنیاکی ترقی پذیر زبانوں میں شمار ہوتی ہے۔  اردو بولنے اور لکھنے والوں کی ایک بڑی تعداد دنیا بھر میں ملتی ہے اس لحاظ سے اردو عالمی سطح کی زبان بھی کہلاتی ہے۔  بعض ممالک نے اردو زبان کو قومی زبان کا درجہ دیا ہے۔  ہندوستان میں بھی اردو زبان کو اہم مقام حاصل ہے۔  دستوری طور پر ارد و کو ملک کی 18 اہم زبانوں میں شامل کیا گیا ہے ملک کی بہت ساری ریاستوں نے اردو زبان کو ریاستی زبان یا دوسری سرکاری زبان کادرجہ دیا ہے۔  اس طرح اردو ان ریاستوں کی دفتری زبان ہے۔  علاوہ ازیں ہندوستان کی بیشتر ریاستوں میں اردو زبان نہ صرف اسکول کی سطح بلکہ کالجوں اور یونیورسٹیوں کی سطح پر ذریعہ تعلیم ہے۔  لیکن کمپیوٹراور ٹکنالوجی کے نظام سے مکمل طور پر ہم آہنگ نہیں ہو سکی ہے بلکہ ٹکنالوجی کے شعبہ میں اردو زبان کی عمر ابھی ابتدائی ہے اس لحاظ سے اردو زبان میں مشینی ترجمہ کے مسائل اور مشکلات ہیں۔  تاہم خوش آئندہ بات یہ ہے کہ ان مسائل کو حل کرنے کی بڑے پیمانے پر کوشش بھی جاری ہے جس میں قابل لحاظ مقتدرہ قومی زبان اسلام آباد، نیشنل یونیورسٹی فار سائنس اینڈ ٹکنالوجی لاہور کے علاوہ ہندوستان میں وزارت انفارمیشن ٹکنالوجی حکومت ہند، سی ڈیک پونے آئی آئی آئی ٹی حیدرآباد، مولانا آزاد نیشنل اردو یونیورسٹی کا شعبہ ترجمہ وغیرہ شامل ہیں۔  لیکن آج بھی اردو زبان کو جدید ٹکنالوجی سے لیس کرانا ایک بہت بڑا چیلنجنگ کام ہے۔  (25)

 

 لغت سازی کے میدان میں کارپس کا کردار:

کارپس پر مبنی کسی بھی زبان کی لغت ٹکنالوجی کے میدان میں ایک بنیادی چراغ کی حیثیت رکھتی ہے جس کی روشنی میں طرح طرح کے مسائل حل کیے جاتے ہیں۔  یہ لغات یک لسانی بھی ہو سکتی ہیں اور ہمہ لسانی بھی لیکن مشینی ترجمہ کے لیے چونکہ اس سے ترجمہ کرنا مقصود ہوتا ہے اس لیے مشین کے اندر یہ لغات بین لسانی یا ہمہ لسانی ہو تی ہیں۔

مشینی ترجمہ کے اندرکسی زبان کے لیے اس ترجمے کے سوفٹ ویر میں سب سے اہم چیز کارپس کی شکل میں لغت کی تیاری ہوتی ہے۔  جس کے ذریعے مشین ترجمے کا عمل انجام دیتی ہے۔

کارپس پر مبنی لغات مشینی ترجمہ میں اہم کردار ادا کرتی ہیں اور اس کے ذریعے ترجمے کیے جانے والے ترجمے کو لغت پر مبنی مشینی ترجمہ  (Dictionary-Based MT ) کہتے ہیں۔ اس طریقے میں مشینی ترجمہ کار اپنے پاس موجود کسی خود کار لغت کی بنیاد پر ہی ایک متن کا دوسری زبان میں ترجمہ کر کے لفظوں کی قطار بنائے چلا جاتا ہے، ایسا ترجمہ جس میں الفاظ کا آپس میں کوئی تعلق نہ ہو۔  لغات الفاظ کی تصریفی صورتوں کے حامل ہو بھی سکتے ہیں اور نہیں بھی۔  ترجمے کی یہ تکنیک جہاں شاید سب سے زیادہ غیر پیچیدہ ہے وہیں بڑی تعداد میں رکھے گئے چھوٹے چھوٹے فقرات (جملے نہیں ) کے ترجمے کے نہایت شاندار نتائج دیتی ہے۔  مثلاً مصنوعات کی فہرستیں، تعارفی کتابچے، تشہیری مواد، وغیرہ ترجمے کا یہ طریقہ دستی ترجمے کے لیے بہت معاون ہو سکتا ہے اگر مترجم دونوں زبانوں کا ماہر ہو اور نحوی اور صرفی قواعد کی درستی کر سکتا ہو۔

مشینی ترجمہ کے علاوہ کسی بھی برقیاتی لغت کی کافی اہمیت ہوتی ہے جس سے ہمہ جہت فوائد حاصل کیے جاتے ہیں۔

ڈاکٹر حافظ صفوان کے مطابق:

’’ کا رپس کی صورت میں جمع کیے گئے متون پر تحقیقات کر کے لغت بھی شائع ہو سکتی ہے، بالفاظ دیگر کارپس کے کئی استعمال ہوتے ہیں جن میں سے ایک لغت کی تیاری اور اشاعت بھی یعنی لغت کارپس کی مدد سے کی گئی لسا نی و لسانیاتی تحقیقات کا ایک نتیجہ بھی ہو سکتا ہے۔  دنیا کی بڑی زبانوں میں جدید لغات بھی اِنہیں متون پر کی گئی تحقیقات کی بنیاد پر بنتے ہیں ‘‘۔  (26)

یہ مجوزہ کارپس ہر لفظ اور ہر لغوی اندرآج  (Headword) کی تہ میں موجود ہو گا۔  لغت نویس ہو یا محقق، وہ جس لفظ کے اندرآج پر کام کرنا چاہے اُس کے استعمال کی صدہا صورتیں انگلی کے صرف ایک اشارے سے کمپیوٹر کی اسکرین پر آ موجود ہوں گی۔  لفظ کا ہر سطحی استعمال اور ہر نوعی معانی مثلاً محاوراتی، اِستعاراتی، فرضی، مرادی، حقیقی، مجازی، اِصطلاحاتی، موضوعی، وقتی، وغیرہ، سامنے پا کر ہر طرح کی تحقیق میں سہولت مل سکے گی۔  یہاں تک کہ الفاظ کے بالائے لغت معنی بھی سامنے ہوں گے۔  لفظ مجرد شکل میں لیکن مختلف معنی و مفہوم میں بھی سامنے ہو گا اور اپنی جملہ تصریفی شکلوں، تعلیقیوں (Affixes) اور مرکبات کی صورت میں بھی (27)

اردو زبان میں مشین کے لیے قابل مطالعہ کارپس کی تیاری اور اسے یک لسانی یا ہمہ لسانی لغات میں ترتیب دیا جائے تو اس کے ذریعے اردو سے متعلق تحقیق و تجزیہ کمپیوٹر و انٹرنیت پر ممکن ہو سکے گا۔  یہ تجزیات ادبیِ لسانی، صرفی، نحوی اور معانیاتی میدانوں میں نئی معلومات فراہم کر سکیں گے۔  جس کی مدد سے مشینی ترجمہ پر تحقیق کی راہیں ہموار ہوں گی الیکٹرونک لغات کو مشینی ترجمہ کے مد نظر رکھتے ہوئے اگر ترتیب دیا جائے تو یقیناً کارپس کی شکل میں جمع کردہ ذخیرہ کی مدد سے مشینی ترجمہ کے لیے مختلف النوع لغات تیار کی جا سکتی ہے جیسے ایک عام لغت جس کے اندر کسی زبان کے پورے الفاظ شامل کیے گئے ہوں اس کے علاوہ محاوروں کا اصطلا حات اور مرکبات الفاظ کی الگ الگ لغت تیار کی جا سکتی ہے جس سے مشینی ترجمہ میں آنے والے مسائل کو حل کرنے میں آسانی ہو گی۔  نیز اگر یہ کارپس تقریری شکل میں تیار کیے جائیں تو اس لفظ کی معلومات سے ساتھ اس کا تلفظ بھی معلوم کیا جا سکتا ہے اسی طرح اگر اعراب پر مبنی کارپس تیار کیا جائے تو یقیناً اس لفظ کی صحیح ادائیگی اعراب کی وجہ سے جانی جا سکتی ہے۔

فی زمانہ ہمہ جہت فوائد کو سامنے رکھتے ہوئے کارپس پر مبنی لغت تیار کی گئی ہے ؛ جو مندرجہ بالا میدانوں کا احاطہ کرتے ہوئے بنیادی معلومات فراہم کرتی ہے ؛ جس کا نام’’ آن لائن اردو لغت‘‘ ہے۔

 

آن لائن اردو لغت:

موجودہ دور میں کارپس پر مبنی لغات میں سے ایک اردو آن لائن لغت ہے جسے پاکستانی وزارت برائے انفارمیشن ٹیکنالوجی جو ایک خصوصی قومی وزارت ہے جو پاکستان میں اقتصادی ترقی کے حصول کی خاطر، انفارمیشن ٹیکنالوجی کے فروغ اور ٹیلی مواصلات کے پھیلاؤ کی کاوشوں میں حکومتِ پاکستان کے ساتھ سرگرمِ عمل ہے کی جانب سے تیار کی گئی ہے۔ ’’آن لائن اردو لغت‘‘ ایک جامع لغت ہے جس میں ایک لاکھ، بیس ہزار سے زائد الفاظ اور مرکبات شامل ہیں جن میں سے بیشتر الفاظ کی تمام تر تاریخی، لسانی اور معنوی تفصیلات شامل ہیں اور ان کی وضاحت کے لیے امثال مع حوالہ جات درج ہیں۔  مزید برآں نسبتاً زیادہ مستعمل الفاظ کے محاورات اور ضرب الامثال بھی درج ہیں۔  اس لغت میں تلفظ کی وضاحت کے سلسلے میں ہر ممکنہ ابہام کو دور کرنے کے لیے الفاظ کے ارکان درج کرنے کے ساتھ ساتھ اضافی علامات کی مدد سے تلفظ واضح کیا گیا ہے۔  اردو لغت میں الفاظ کے معنوی مترادفات اور املائی متغیرات بھی فراہم کیے گئے ہیں۔ ’’ آن لائن اردو لغت‘‘ میں صرفی حوالے سے کسی بھی لفظ کی تصریف شدہ مستعمل حالتیں حتی الامکان درج کی گئیں ہیں اور اردو الفاظ کا انگریزی ترجمہ بھی پیش کیا گیا ہے۔ ’’ آن لائن اردو لغت‘‘ سے استفادہ کے لیے’’مدد‘‘ اور’’لفظ کی تلاش‘‘ میں حتی الامکان جدید سہولیات کا خیال رکھا گیا ہے۔ ’’ آن لائن اردو لغت‘‘ وزارت برائے انفارمیشن ٹیکنالوجی کے’’منصوبہ برائے اردو لوکلائزیشن‘‘ کے تحت الیکٹرانک گورنمنٹ ڈائریکٹوریٹ کی نگرانی میں تیار کی گئی ہے۔  (28)

آن لائن اردو لغت کی تیاری کے سلسلے میں کئی لغات سے استفادہ کیا گیا اور جن لغات کو بنیادی ماخذ کے طور پر استعمال کیا گیا وہ درج ذیل ہیں۔

اردو لغت (اردو لغت بورڈ، کراچی)

قاموس مترادفات (وارث سرہندی، اردو سائنس بورڈ)

John T. Platts, Dictionary of Urdu, Classical Hindi and English

Duncan Forbes, Dictionary, Urdu and English

John Shakespear’s Dictionary, Urdu – English and English – Urdu

(29 )

بہر حال کسی کارپس کی مدد سے لغت بھی تیار کی جا تی ہے جو مشینی ترجمہ کے لیے بھی استعمال کی جا سکتی ہے۔ اور ہمہ جہت معلومات کے لیے بھی۔ اس طرح کی لغات سے متوازی کارپس یعنی ایک لفظ کے لیے دوسری زبان کے متوازی لفظ کی تیاری کرنا آسان ہو گا جیسا کہ ماقبل میں اردو آن لائن لغت میں یہ بتلایا گیا کہ اس میں لفظ کا انگریزی معنی بھی داخل کیا گیا ہے، اس کے ذریعے متوازی کارپس بنا کرمشینی ترجمہ کے لیے استعمال کرنا آسان ہو گا۔  اس کے علاوہ کارپس کی شکل میں جتنے زیادہ الفاظ یا جملے مشین کے اندر داخل کیے جائیں گے اتنا بہتر ترجمہ فراہم کیا جا سکے گا نیز کثیر الفاظ و اصطلاحات پر مبنی لغات کی تیاری بھی مشینی ترجمہ کی بہتری میں اہم کردار ادا کر سکتی ہیں۔  ٖ

ڈاکٹر خالد مبشر الظفر لکھتے ہیں کہ:

’’اردو مشینی ترجمہ کا ایک اہم مسئلہ اردو کی معتبر الکٹرونک لغت بھی ہے کہ جس کے بغیر مشینی ترجمہ ممکن نہیں ہے تاہم اردو کی الکٹرانک لغت کا کام ہو چکا ہے۔  اس سلسلہ میں پاکستان میں مقتدرہ قومی زبان نے رسم الخط اور فانٹ کے علاوہ الکٹرونک لغت پر قابل قدر کام انجام دیے ہیں ہندوستان میں حیدرآباد میں آئی آئی آئی ٹی میں سمپرک Sampark کے تحت پروفیسر رحمت یوسف زئی کی سرکردگی میں بھی اردو ہندی الکٹرونک لغت پرکام جاری ہے علاوہ ازیں بعض ویب سائٹس نے آن لائن ترجموں کی سہولتیں دی ہیں مگر ان کی لغت بالکل محدود ہے اور ایک یا دو جملوں کا ترجمہ وہ بھی محدود سطح پر ہی ممکن ہے۔  ایک مستند اور معتبر اردو الکٹرونک لغت کی تیاری کے بعد اردو میں مشینی ترجمہ کے مسائل پر بہت حد تک قابو پایا جا سکتا ہے ‘‘۔ (30)

خلاصہ کے طور پر ہم یہ کہ سکتے ہیں کہ اردو کارپس کی مدد سے اردو مشینی ترجمہ میں آنے والے مسائل کو حل کرنے میں آسانی ہو گی ہم جانتے ہیں کارپس ایک متون کے بڑے ذخیرہ کو کہتے ہیں مشینی ترجمہ میں جو غلطیاں یا دیگر مسائل ہیں ان سب کو مطالعہ کرنے کے بعد کارپس کو اسی کی ضرورت کے مطابق ڈھالا جا سکتا ہے اگر اصطلاحات کے صحیح ترجمے نہیں ہو پا رہے تو ہمیں اصطلاحات کا ہی ایک کارپس بنانا چاہیے اسی طرح اگر محاورے کے ترجمے صحیح ہو پارہے ہیں تو اس کا ایک الگ کارپس بنانا چاہیے اور پھر اسے مشین میں ڈالنا چاہیے۔  اگر ہم اردو کارپس تیار کرتے ہیں تو اس کے ذریعے صرف ترجمہ ہی نہیں بلکہ اس لفظ کی پوری وضاحت اسی زبان میں مل سکتی ہے نیز ہمیں یہ پتہ چلے گا کہ کسی لفظ کے مترادفات کیا ہیں اس کے اردو معنی کیا کیا ہیں اس لفظ کے استعمال کے کتنے طریقے ہو سکتے ہیں، اس کے مرکبات کیا کیا ہیں اس کی جنس کیا ہے آیا وہ معرفہ ہے یا نکرہ اور اس کے ساتھ ساتھ انگریزی زبان میں اس کاترجمہ کیا ہو گا یہ تمام چیز یں کارپس کے ذریعے آسانی سے حاصل کی جا سکتی ہیں۔ ٹکنالوجی کے میدان میں کسی زبان کے لیے ان تمام چیزوں کی سہولت ہی در اصل اس زبان کی زندگی ہے۔

 

کچھ مخصوص کارپس:

اس وقت کمپیوٹر پر دنیا کی کئی زبانوں کا ڈیٹا اس مقصد کے لیے جمع کیا گیا ہے تا کہ زبان کی شاخت پرداخت کا

مطالعہ بھی ہو اور بین اللسانی تعلقات کا مطالعہ کے ساتھ ساتھ زبانوں کے علم میں نئی اور وسیع تر جہتیں سامنے آئے اور یہ ڈیٹا وقت گزنے کے ساتھ ساتھ کمیت میں بڑھتا اور کیفیت میں بہتر سے بہتر ہو رہا ہے۔  لسانی انجینئرنگ اور لسانیات کے سبھی شعبوں میں اس تحقیق کے لیے اس ذخیرہ امثال کی بنیادی ضرورت ہے۔ دی بینک آف انگلش کے نام سے انگریزی زبان کا سب سے بڑا ذخیرہ جس کے روح رواں آنجہانی پروفیسر جان میک ہارڈی تھے اس وقت برمگھم یونیورسٹی برطانیہ میں قائم ہے۔ دی بینک آف انگلش تقریباً 450 ملین بولے اور لکھے جانے والے الفاظ کا مجموعہ ہے جسے کمپیوٹر میں زبان کے تحقیقی استعمال کے لیے اکٹھا کیا گیا ہے۔ یہ مواد 1990 ء سے اب تک کے استعمال ہونے والے ذخیرہ کردہ متن سے لیا گیا ہے۔  ہر مہینے اس مواد میں 10 ملین الفاظ کا نیا ڈیٹا ڈالا جاتا ہے۔  اس ذخیرۂ متن میں موجود بیشتر حصہ برطانوی انگریزی پر مشتمل ہے جب کہ امریکن انگریزی کے متون 25 فیصد ہیں، 5 فیصد مواد دنیابھر میں بولی اور لکھی جانے والی انگریزی سے لیے گئے ہیں جس میں آسٹریلیائی اورسنگا پورکی انگریزی بھی شامل ہے۔ (31)

دی بینک آف انگلش، کو کولن ورڈویب کا حصہ بتایا گیا ہے جوتقریباً 465 ملین بولے اور لکھے جانے والے الفاظ کا مجموعہ ہے جسے کمپیوٹر میں زبان کے لغتیاتی تجزیے اور تحقیقی استعمال کے لیے اکٹھا کیا گیا ہے۔ اس کے اندر% 40 حصہ برطانوی انگریزی پر مشتمل ہے جب کہ امریکن انگریزی کے متون % 30ہیں بقیہ %30متون آسٹریلیائی، نیوزی لینڈ اور کینڈیائی انگریزی کے ہیں۔ (32)

امریکن انگریزی کارپس  ( (COCA میں 450 ملین سے زیادہ الفاظ ذخیرہ ہیں اوریہ امریکی انگریزی اور علاقائی لہجوں کے انگریزی متون کو شامل کیے ہوئے ہیں ہر سال اس مقدار میں کم سے کم دو مرتبہ الفاظ کا اضافہ کیا جاتا ہے جو 200 ملین الفاظ پر مشتمل ہوتا ہے اس میں بھی 1990سے 2012 تک کے متون موجود ہیں۔  (33)

ایک سو ملین عصر حاضر کے الفاظ پر مبنی BNC جس کے اند ردس فیصد تقریری اور نوے فیصد تحریری الفاظ شامل ہیں (34)

Cobuild Bank of English

برٹش اور کچھ امریکن الفاظ پر مشتمل تین سو ملین الفاظ کا کوبلڈ بنک آف انگلش کارپس تیار کیا گیا ہے۔  (35)

Corpus of Spoken American English

تین سو ملین امریکن تقریری الفاظ پر مبنی 1990 میں تیار کیا گیا ہے۔ (36)

Complete Corpus of Old English

اعراب پر مبنی ہلنسکی کارپس ایک سو پچاس ملین قدیم انگلش سے درمیانی انگلش تک کے الفاظ پر مشتمل تیار کیا گیا ہے۔ (37)

 

اردوکارپس:

اردو میں سب سے پہلے ڈاکٹر حافظ صفوان محمد چوہان کی جانب سے مرکزِ فضیلت برائے اردو اِطلاعیات، مقتدرہٴ قومی زبان اسلام آباد میں ”دی بینک آف اردو“ کے موضوع پر کام شروع کرنے کی تجویز دی گئی۔  ڈاکٹر عطش درانی کی سربراہی میں یہاں پر ”اردو ڈیٹا بینک“ کے نام سے ایک شعبہ پہلے سے قائم ہے، لیکن یہیں پر کام کر رہے ایک دوسرے شعبے’’ اردو ڈیٹابیس‘‘ کے مخفف کے ہم آواز اور ہم صورت ہونے  (Homonymous)  کی وجہ سے اِلتباس (اِن دونوں شعبوں کا انگریزی مخفف UDB ہے ) اور’’ دی بینک آف انگلش‘‘ کے نام سے بہت دور ہونے کی وجہ سے اِس کا نام بدلنے کی تجویز دی گئی، جسے’’اردو اِطلاعیات: آج اور کل‘‘ کے عنوان سے 7-8 جون 2008ء کو ہونے والی ایک قومی ورکشاپ میں ماہرینِ اردو و اِطلاعیات اور حکومتِ پاکستان کے نمائندہ حکامِ بالا نے قبول کیا؛ ڈاکٹر حافظ صفوان ہی کی تجویز پر اردو کارپس کے لیے’’دی بینک آف اردو‘‘ اور اِس کی متبادل اردو اِصطلاح’’اردو مثال گھر‘‘ بھی قبول کی گئی۔  لیکن یہ سفارش بھی کی جاتی ہے کہ لفظِ کارپس کے لیے کوئی متبادل اردو اِصطلاح نہ بنائی جائے کیوں کہ دنیا بھر میں یہ لفظ اپنے مخصوص معنی میں استعمال میں ہے۔ ’’کارپس‘‘ کا لفظ بھی اُسی طرح اُردوالیا جائے جیسے مثلاً کمپیوٹر، اِنٹرنیٹ اور ٹیلی فون وغیرہ الفاظ زبانِ اردو کے جسم کا حصہ بن چکے ہیں۔  (38)

UMC005:English-Urdu Parallel

یہ انگلش اور اردو زبان میں انگلش اردو کے جملوں کی صف بندی کا ایک متوازی کارپس ہے یہ کارپس شماریاتی مشین ٹرانسلیشن کے تجربے کے لیے استعمال کیا جا سکتا ہے۔  اس میں چار مختلف میدانوں کے متون شامل کیے گئے ہیں۔

(1) قرآن (2) بائبل (3) پین ٹری بینک (دیواری پرچہ) (4) ای میل کارپس۔

Corpus کارپس Sentence pairs جملے کے جوڑے EN tokens انگلش ٹوکنس UR tokens اردو ٹوکنس EN vocabulary انگلش ذخیرہ UR vocabulary اردو ذخیرہ UR normalized vocabulary اردو معمولی ذخیرہ
Quran قران 6414 252603 269991 8135 8027 7183
Bible بائبل 7957 210597 203927 5969 8995 6980
Penn

پین

6215 161294 185690 13826 12883 12457
Email ای میل 8736 153519 200179 9087 10042 9626

اس کے اندر لائسنسنگ کی وجہ سے براہ راست ڈو نلوڈ کرنے کے لیے قرآن اور بائبل کے متون کو فرہم کیا گیا۔

(39)

ہندوستانی کثیر متوازی کارپس Indic multi-parallel corpus

کثیر متوازی ہندی کارپس تقریباً دو ہزار وکی پیڈیا جملوں کو مندرجہ ذیل ہندوستانی زبانوں میں ترجمہ کیا گیا ہے

(1)          بنگالی

(2)          ہندی

(3)          ملیالم

(4)          تامل

(5)          تلگو

(6)          اردو

(40)

TDIL کے تحت کئی کارپس تیار کیے جا چکے ہیں جن میں اردو زبان بھی شامل ہے جو مندرجہ ذیل ہیں۔

 

اردو ہندی عام متن کارپس:

یہ مشینی ترجمہ کے لیے تیار کیا گیا ہے اور یہ ہندوستانی زبان سے ہندوستانی زبان مشینی ترجمہ اردو سے ہندی متوازی کارپس انسانی مترجم کے ذریعہ تیار کیا گیا ہے۔  یہ کارپس ویب کے اندر سیاحوں، مسافروں اور دیگر اسی مناسبت سے تیار کیا گیا ہے یہاں پورے 1000 جملے بہت ہی سادہ، آسان، اور مرکب جملوں کے شکل میں ہیں۔ (41)

 

انگلش اردو سیاحتی متن کارپس: English-Urdu Tourism Text Corpus-EILMT

انگلش اردو سیاحتی متن کارپس انگلش سے ہندوستانی زبان میں مشین ٹرانسلیشن کنسورشیم کے تحت یونی کوڈ میں تیار کیا گیا ہے۔  اس کا بنیادی ذخیرۂ الفاظ مختلف جگہوں کے ناموں، سیر کے مقامات، آرٹ اور فن تعمیر، تہذیب و تمدن پر مشتمل ہے۔  مجموعی طور پر یہ کارپس سیاحوں اور اس کی دلچسپی سے متعلق معاملات کی وضاحت اور اس کی تفصیل پر مبنی ہے۔  یہ کارپس XML  (قابل توسیع مارک اپ زبان/مارک اپ لینگویج، ایک ٹیکسٹ فائل میں کوڈ کا ایک سیٹ جویہ ہدایت جاری کرتا ہے کہ اسے پرنٹر یا ویڈیو ڈسپلے پر کس طرح دکھایا جائے اور اس کی انڈکس اور اور اس کے مندرجات کے لنکس کیسے بنائے جائیں۔ ) کی شکل میں ہے جس کا سائز تقریباً 15200 جملوں تک ہے۔  (42)

 

 ہندی اردو سیاحتی متن کارپس: Hindi-Urdu Tourism Text Corpus-ILCI

ہندوستانی زبان میں کارپس کی تیاری کی پیش قدمی (ILCI) پروجکٹ ہندوستانی حکومت کے جانب سے کی گئی، جواہر لعل نہرو یونیورسٹی نئی دہلی میں اصل زبان کی حیثیت سے ہندی کارپس کو جمع کیا گیا تھا اور اسے اردو میں ہدفی زبان کی حیثیت سے ترجمہ کیا گیاجس میں سیاحتی میدان کے 25000 جملے شامل ہیں اور ہر جملہ اپنی ایک الگ پہچان رکھتا ہے۔ اور یہ ترجمہ شدہ جملے ہندوستانی معیاری دفتر (BIS) کے مطابق نحوی صرفی ٹیگ کیا گیا ہے۔ (43)

  • ہندی اردو ہیلتھ متن کارپس: Hindi-Urdu Health Text Corpus-ILC

ہندوستانی زبان میں ہندی اردو ہیلتھ متن کارپس (ILCI) پروجکٹ ہندوستانی حکومت کے جانب سے شروع کیا گیا، جواہر لعل نہرو یونیورسٹی نئی دہلی ہندی میں اصل زبان کی حیثیت سے کارپس کو جمع کیا گیا تھا اور اسے اردو میں ہدفی زبان کی حیثیت سے ترجمہ کیا جس میں صحت کے میدان کے 25000 جملے شامل ہیں اور ہر جملہ ایک اپنا الگ پہچان رکھتا ہے یہ ترجمہ شدہ جملے ہندوستانی معیاری دفتر (BIS) کے مطابق نحوی صرفی ٹیگ کیا گیا ہے (44)

 

 

کارپس کی اقسام

 

کارپس کی کئی اقسام ہیں۔  ہر مضمون کا الگ کارپس بنایاجا سکتا ہے اور کئی مضامین کو شامل کر کے بھی ایک کارپس بنایا جا سکتا ہے جس کے اندرمتن کے ذخائرکسی خاص مضمون یا میدان سے تعلق نہ رکھتے ہوں بلکہ ہمہ جہت مضامین کے تمام الفاظ پر مشتمل خالص اسی زبان سے اس کا واسطہ ہوایسے کارپس کو عام کارپس کہتے ہیں۔  اگر میدان کی بات کریں تو کارپس کے استعمال کے مطابق اس کے کئی میدان ہو سکتے ہیں لیکن جب ہم مشینی ترجمہ کے لیے کارپس تیار کرتے ہیں تو اس کے اندر عموماً چار طرح کے متون کا ذخیرہ تیار کیا جا سکتا ہے پہلا مذہبی دوسرا علمی تیسرا ادبی چوتھا صحافتی میدان ان میدانوں کے الفاظ و جملوں پر مبنی متوازی کارپس مشینی ترجمہ کے لیے تیار کیا جا سکتا ہے۔

اگر مشینی ترجمہ کے علاوہ کی بات کریں تو کارپس کی کئی اقسام کی جا سکتی ہیں لیکن بنیادی طور پر کارپس کے جو اقسام ہوتے ہیں وہ دو طرح کے ہوتے ہیں ایک تحریری اور دوسرا تقریری پھر ان دونوں کی الگ الگ قسمیں بنائی جا سکتی ہیں۔

جان سنتنا لاریو ( Juan Santana Lario) کے مطابق کارپس کی چھ اقسام ہیں۔

1 مقصد کے اعتبار سے: According to purpose

2متن کے انتخاب کے اعتبار سے: According to text selection procedure

3 واسطہ کے اعتبار سے: According to Medium

4 زبانوں کی تعداد کے اعتبار سے: According to number of languages

5 عارضی قسموں کے اعتبار سے: According to temporal variety

6 متکلم کے اعتبار: According to type of speaker

 

1: مقصد کے اعتبار سے کارپس کی دو قسمیں ہیں۔  ایک عام مقصدی کارپس دوسرا مخصوص میدان یا ذیلی زبان کا کارپورہ

عام مقصدی کارپس:

عام مقصدی کارپس کے اندرمختلف لسانی مطالعہ کی ایک وسیع پیمانے پر بنیادی معلومات کا ذخیرہ شامل کیا جاتا ہے جس کے ذریعے اس زبان کی عام نمائندگی ہوتی ہے۔

کسی خاص میدان یا ذیلی زبان کا کارپورہ:

یہ اس طرح کا ذخیرہ ہوتا ہے جس کے اندر کسی زبان کے مخصوص میدان کے بارے میں تمام چیزوں کی جانکاری فراہم کی جاتی ہیں، اور اس میدان سے متعلق تمام ترالفاظ، اصطاحات اور استعارے کنایہ کے بارے بھی معلومات فراہم کی جا تی ہیں۔ مثلاً اردو زبان کے اندر ادب کے میدان میں شاعری سے متعلق تمام الفاظ کو یکجا کر دیا جائے اور اس کی وضاحت اس طرح کی جائے کہ فلاں شاعر اس لفظ سے یہ مفہوم مراد لیتے تھے اور فلاں شاعر کچھ اور اسی طرح اردو شاعری میں استعارے، کنایے، تلمیحات اور تشبیہات وغیرہ زیادہ استعمال ہوتے ہیں ان تمام کی وضاحت مع مفاہیم ایک کارپس کے اندر شامل کیا جا سکتا ہے جسے کوئی ایک کلک سے معلوم کر سکتا ہے کہ فلاں لفظ سے شاعر کی کیا مراد ہے اور یہ لفظ مزید کتنے معنوں کے لیے استعمال کیا جا سکتا ہے۔

 

2: متن کے انتخاب کے اعتبار سے دو قسمیں ہیں ایک سادہ کارپس دوسرا مکمل متن کارپورہ

سادہ کارپس: اس کے اندر سادہ متن شامل کیے جاتے ہیں

مکمل متن کارپورہ: اس کے اندر پورے جملے پر مبنی متون شامل کیے جاتے ہیں۔

 

3: واسطے (Medium) کے اعتبار سے تین قسمیں ہیں پہلا تحریری کارپس دوسرا تقریری کارپس اور تیسرا مخلوط کارپس

تحریری کارپس:اس کے اندر صرف تحریری شکل میں ہی معلومات داخل کی جاتی ہے اور زیادہ تر کارپس تحریری شکل میں ہی ہوتے ہیں۔

تقریری کارپس:

اس کے اندر لوگوں کی گفتگو یا دوران خطاب بولے گئے الفاظ کی ریکارڈنگ شدہ الفاظ ہوتے ہیں جس سے کسی لفظ کی صحیح تلفظ اور دوران گفتگو کسی لفظ کو کس اعتبار سے ادا کیا جاتا ہے نیز کسی لفظ کی ادائگی کے اعتبار سے معنی ومفہوم کس طرح تبدیل ہوتے ہیں ان کی نشاندہی ہوتی ہے۔

مربوط کارپس: اس ذخیرہ کے اندر دونوں طرح کے کارپس شامل ہوتے ہیں یعنی تحریری کارپس کے ساتھ اس کا تلفظ اور اس کی صوتی شکل کو بھی شامل کیا جاتا ہے۔

 

4: زبانوں کی تعداد کے اعتبار سے کارپس کی دو قسمیں ہیں یک لسانی(Monolingual) اور ہمہ لسانی (Multilingual)

یک لسانی کارپس:

اصل میں کارپس کئ طرح کے ہوتے ہیں ان کے اندر ایک زبان کے متون بھی ہو سکتے ہیں اوریہ مختلف زبانوں کے متون پربھی مشتمل ہو سکتے ہیں۔ ایک لسانی کارپس کے اندر صرف ایک ہی زبان کی مختلف شاخوں کے متون کو شامل کیا جاتا ہے اور اس کے اندر ایک ہی زبان کی تمام تر معلومات جمع کیا جاتا ہے۔

ہمہ لسانی کارپس:

ہمہ لسانی کارپس میں کئی زبانوں کے الفاظ و متون شامل کیے جاتے ہیں۔  اس کے اندر ایسے الفاظ شامل کیے جاتے ہیں جو کہ استعمال کے اعتبار سے الگ الگ زبانوں کی نمائندگی کرتے ہیں مثلاً ایک لفظ سیب ہے اسے انگریزی میں ایپل اور عربی میں تفاحۃ یا پھر اس کے اندر مضامین کے اعتبار سے ایک ہی مضمون کے متون الگ الگ زبانوں میں ہوتے ہیں۔  ہمہ لسانی کارپس در اصل متوازی کارپس ہوتا ہے۔

 

5: عارضی قسموں کے اعتبار سے کارپس کی دو قسمیں ہیں پہلی ہم زماں یا معاصر کارپس دوسری تاریخی کارپس۔

ہم زماں کارپس: اس کے اندر وہ الفاظ یا متون شامل کیے جاتے ہیں جن کو موجودہ دور میں استعمال کیا جاتا ہے

تاریخی کارپس: اس کے اندر ایسے الفاظ یا متون شامل کیے جاتے ہیں جن سے پتہ چلتا ہے کہ پہلے زمانے یا قدیم زمانے میں کس طرح کے الفاظ بولے جاتے تھے اورانہیں کیسے استعمال کیا جاتا تھا وغیرہ۔

 

6: متکلم کی اقسام کے مطابق کارپس کی دو قسمیں ہیں مقامی لوگوں کے لیے اور سیکھنے والوں کے لیے۔

مقامی لوگوں کے لیے:

مقامی لوگوں کے لیے اس اعتبار سے ہو سکتا ہے کہ وہاں کے لوگوں کو اس لفظ کی صحیح ادئے گی معلوم ہو سکے۔ اور آپسی تلفظ یا ادائیگی کی تفریق کو جان سکے کہ ایک ہی زبان والے ایک ہی لفظ کس کس طرح سے ادا کرتے ہیں۔

سیکھنے والوں کے لیے:

اس سے مراد یہ ہو سکتا ہے کہ کوئی دیگر زبان والا ہو اور کسی دوسری زبان کو سیکھنا چا ہتا ہو تو اسے اس زبان کو سکھانے کے لیے اس کا تلفظ وغیرہ داخل کیا جاتا ہے یہ عام طور سے تقریری کارپس کے ذیل میں آتا ہے۔ (45)

اس کے علاوہ ماہرین نے متوازی یا ترجمہ شدہ کارپس (PARALELL CORPUS ) اور مونیٹر کارپس کو بھی کارپس کے اقسام میں شامل کیا ہے

ترجمہ شدہ کارپس:

اس کے اندر کسی زبان کے متن اس طور پر داخل کیے جاتے ہیں کہ اس کے اندر تمام متون کو دوسرے زبان میں اس کے ترجمے کے ساتھ تیار کیا جاتا ہے۔  یہ ترجمے لفظ کی بنیاد پر بھی ہو سکتے ہیں کہ اس متن کے اندر استعمال لفظ کا متبادل لفظ بھی داخل کر دیا جائے، اور پورے جملے کو بھی ترجمہ کر کے داخل کیا جا سکتا ہے، مثلاً ً اردو کے متون کے ساتھ اس کا ترجمہ انگریزی، فارسی، عربی اور ہندی زبان بھی شامل کیا جاتا ہے۔  تاکہ کوئی لفظ تلاش کریں تو اس کا متبادل کسی دوسری زبان میں بھی موجود ہو۔  ایسے کارپس مشینی ترجمہ کے لیے نہایت ہی مفید ہوتے ہیں اور مشینی ترجمہ کے دوران ایسے ہی کارپس کی ضرورت پڑتی ہے

مونیٹر کارپس:

یہ ایسا کارپس ہوتا ہے جو محققین کی ضرورت پر منحصر ہوتا ہے اور اسی کے مطابق کارپس میں مواد کو داخل کیا جاتا ہے۔  یعنی اس کے اندر محققین اپنی ضرورتوں کے مطابق ایسے الفاظ کو ہی شامل کرتے ہیں جو محض تحقیقی کاموں کے لیے ہو۔ اس میں ایسے الفاظ کی فہرست بھی شامل ہو سکتی ہے جس کاکسی دور میں استعمال ہوتا ہو اور اب استعمال نہیں ہوتا ہو یا پھر اس کی شکل میں تبدیلی ہو چکی ہو یا پھر اس لفظ کو ایک ہی شخص الگ الگ مقامات پر الگ الگ معنی کے لیے استعمال کرتا ہو۔  یا پھرشاعروں کے استعمال شدہ جو شعر میں کچھ اور عام بول چال میں کچھ اور استعمال کرتے ہوں جس سے قاری کو اس لفظ کے صحیح استعمال نہ معلوم ہوتا ہو اس کی محققین رہنمائی کرتے ہوں۔  یا پھر اس کے اندر کسی زبان کے ایسے متون موجود ہوں جو لفظ بلفظ تحقیق شدہ ہو کہ یہ کس زبان کا لفظ ہے؟ اس کا واحد، جمع کیا ہے؟ اس کا مصدر کیا ہے؟ اس کا املا کس طرح ہوتا ہے؟ یا پھر مکمل جملے کے اندر کہ یہ کونسا جملہ ہے اسمیہ ہے یا خبریہ، ما ضی ہے یا مستقبل، یا حال، اس طرح نحو اور صرف کے تمام قواعد پر مبنی ہو۔ (46)

 

کارپس لسانیات کیا ہے؟( What is Corpus Linguistics)  کے ذیل میں کارپس لسانیات کی تعریف کرتے ہوئے اس کی اقسام میں مندرجہ ذیل قسموں کو شامل گیا ہے۔

 

لسانیاتی کارپس:

یہ قدرتی زبان کی معلومات تک رسائی فراہم کرتی ہے اس کے اندر لفظوں کے مجموعوں اور وسیع نمونوں کو مطالعہ کے قابل بناتا ہے لسانیاتی کارپس صرف ایک لفظ اور اس کی تعداد کا مطالعہ تھا لیکن جدید ٹکنالوجی کے آنے سے الفاظ کے ایک بڑے مجموعے اور وسیع نمونوں کو مطالعہ کی اجازت مل گئی ہے، جو کہ ایک ہی وقت میں اس کے تجزیہ کے قابل ہوتا ہے یعنی ایک ہی وقت میں ایک سے زیادہ معلومات کا تجزیہ کیا جا سکتا ہے اور اس کے ذریعے اپنی منزل تک رسائی کی جا سکتی ہے مختلف لسانی کارپس سوفٹ ویر پروگرام آن لائن مارکٹنگ اور تجزیاتی آلات اورمحققین کو ایک ہی وقت میں معلومات کی ایک بڑی تعداد کا تجزیہ کرنے کی اجازت دیتا ہے نیز یہ دوسری زبانوں کے مطالعہ کی سہولت بھی فراہم کرتا ہے۔  قدرتی زبان کے ساتھ دوسری زبانوں کے مطالعہ سے زبانوں کے سیکھنے کے لیے اچھے سے سمجھنے کی اجازت دیتا ہے گویا کہ یہ تخلیقی صورت کے مقابلے میں حقیقی طور پر استعمال ہوتا ہے لسانیاتی کارپس کا مطالعہ ہمیں بتاتا ہے کہ کوئی بھی لفظ یا جملہ کیا ہوا؟ اور کیسے ہوا؟(47)

 

کثیر لسانی کارپس (Corpus Multilingual ) :

اس کے نام سے ہی پتہ چلتا ہے کہ یہ کثیر لسانی کارپس ہے جو مختلف زبانوں کے متون پر مشتمل ہوتا ہے۔

 

پارسایا ہوا کارپس ( Parsed Corpus) :

یہ قدرتی زبان کا ایک ایسا مجموعہ ہے جس میں ہر ایک جملے کا تجزیہ کیا جاتا ہے یہ تجزیہ نحوی قواعد کے اعتبار سے ہوتا ہے اور اس کی وضاحت بھی کی جاتی ہے نحوی تجزیہ عام طور پر ایک درخت کی شاخ کے طرح ہوتا ہے پارس کیے ہوئے کارپس کو’’ ٹری بینک ‘‘کے نام سے بھی جانا جاتا ہے۔

 

متوازی کارپس( Parallel Corpus ) :

اس اصطلاح سے مراد ایسے متن کا مجموعہ ہے جو ایک دوسرے کا متوازی ہو ایک دوسرے کا مد مقابل ہو۔

مشینی ترجمہ میں متوازی یا ترجمہ شدہ کارپس ہی داخل کیا جاتا ہے جس میں ایک زبان کے الفاظ و جملوں کو دوسری زبان کے مناسب الفاظ و جملوں کے ساتھ پوری لسانی قواعد کے ساتھ جوڑیاں تیار کی جاتی ہیں اور مشینی ترجمہ میں داخل کیا جاتا ہے۔ اگر جملوں پر مبنی متوازی کارپس داخل کیا گیا ہو تو اس ترجمہ کاری کی تکنیکی صورت گری یوں ہوتی ہے کہ اس کے پاس کمپیوٹر (یا کمپیوٹروں کے ایک سلسلے ) میں ایک بڑا ذخیرہ معلومات یا ڈیٹابیس رکھا جاتا ہے جس میں پورے پورے جملوں اورفقروں کا ترجمہ پورے جملے کے سارے لسانی پہلوؤں کو سوچ کر، نہیں کرتے بلکہ پہلے جملے کو مناسب ٹکڑوں میں تقسیم کر ایک ایک ٹکڑے کا مناسب حال ترجمہ اپنے ذہن میں کر لیتے ہیں اور پھر ان سب ترجمہ شدہ ٹکڑوں کو مطلوبہ زبان کی قواعد کے مطابق درست انداز میں ترتیب دے کر مطلوبہ زبان کا پورا جملہ بنالیتے ہیں۔  بنیادی طور پر یہ ترجمہ کار سافٹ ویئر ذولسانی ذخیرہ معلومات(Bilingual Corpus) کی تربیت یافتہ (Trained) صورتیں ہوتی ہیں جن میں ہر جملہ اپنے ترجمے کے ساتھ ایک ایک جوڑے کی شکل میں رکھا ہوتا ہے۔  چنانچہ یہ ذخیرۂ معلومات یا معلومات کی اساس جن دو زبانوں کی ہو، مشینی ترجمہ کا یہ طریقہ ان دونوں زبانوں میں ایک دوسرے کا متن ترجمہ کرنے کی یکساں صلاحیت رکھتا ہے۔ (48)

 

تشریحی کارپس (Annotation corpus)

اس سے مراد مختلف زبانوں کی معلومات کے علاوہ متن کی توسیع ہے مثلاًاس میں قواعدی تجزیہ وغٖیرہ ہوتا ہے عموماً

خام کارپس کی شکل میں یہ سادہ متون پر مشتمل ہوتا ہے اس کے علاوہ اس کی دلیل یا وضاحت بھی استعمال ہوتی ہے۔

 

ترتیب شدہ کارپس (Collection corpus ) :

اس سے مراد ایک ایسا تسلسل یا پیٹرن جس میں الفاظ بالترتیب ایک ساتھ ہوتے ہیں۔  (جیسے لغات)

 

اشاریہ کارپس ( corpus Concordance ) :

یہ اصطلاح ایک لفظ یا فقرہ اور اس کے فوری سیاق وسباق کو احاطہ کرتی ہے لسانیاتی کارپس میں یہ اشاریہ ایک لفظ سے لفظ کے تسلسل اور جملے یا محاورے کے مختلف استعمال کا تجزیہ کرنے کے لیے استعمال ہوتا ہے۔

 

علم حروف کارپس (Orthography corpus ) :

اس سے مراد املا اور ہجے کا علم ہے یہ ایک مخصوص زبان کا معیاری تحریر نظام ہے جس میں ہجوں اور اوقاف کے نشانات کے لیے مختلف گرامر کے قواعد شامل ہیں جو تلفظ کے استعمال کے لیے ہوتا ہے وہ تحریری نظام کے تجزیہ میں ایک راہ پیدا کرتا ہے کیونکہ اس زبان کے مقامی متکلمین کبھی کھبی ہجے والے حروف کی جگہ متبادل حرف استعمال کرتے ہیں یا سرے سے ہی ترک کر دیتے ہیں بنیادی طور پر اس کے اندر املا اور ہجے کے بارے معلومات ہوتے ہیں یہ مخصوص زبان کا معیاری تحریری نظام ہوتا ہے جس میں حروف تہجی اور اوقاف کے نشانات کے لیے مختلف گرامر کی قواعد شامل ہوتے ہیں۔

 

علامتی کارپس ( corpus Token):

یہ ایک الگ لفظ کی علامت ہے جو ٹوکنائزیشن میں اہم کردار ادا کرتا ہے اور ٹوکن کے اندر الفاظ اور متن کے مجموعے کی تقسیم کاری شامل ہوتا ہے یہ طریقہ اکثر زبانوں کے مطالعہ میں استعمال ہوتا ہے جو الفاظ کے ساتھ وقفہ کی جگہ کی حد بندی نہیں کرتے۔


مسلمہ قطعیت کارپس (
Lemmasation corpus ) :

یہ اصطلاح لفظ Lemma سے ماخذ ہے جس کے معنی مسلمہ قطعیت ہے جس سے مراد ایک لفظ کی مختلف شکلوں کا سیٹ بنانا تریب دینا ہے مثال کے طور پر Laugh سے Laughed کے گروپ کا عمل ہے جو وہی معنی رکھتے ہیں۔  جیسے اردو میں مصدر سے اسم، فعل حرف، واحد، جمع وغیرہ بنتا ہے جیسے کھانا سے کھایا وغیرہ۔

 

وائلڈ کارڈ کارپس (Wild Card corpus  )

( اردو انگلش ڈکشنری کے مطابق:کِسی بھی حرفی علامت یا علامتوں کی جگہ لے سکتی ہے ) اس سے مراد کچھ مخصوص حروف جیسے سوالیہ نشان؟ یا ستارے * جو ایک کردار یا حروف کی نمائندگی کرتے ہیں جیسے @ > “: #+ / وغیرہ۔ (49)

TDIL (Technology Development for Indian Languages

کے مطابق کارپس کی کچھ اور قسمیں مندرجہ ذیل ہیں:

تقابلی کارپس: Comparable corpus: یہ کارپس دو یا دوسے زیادہ زبانوں کے تقابل کے لیے استعمال کیا جاتا ہے

حوالہ کارپس: Reference corpus یہ کارپس کی ایک ایسی قسم ہے جو متعلقہ پیمانوں کی بنیاد پر جمع کیا جاتا ہے اور یہ تحریری اور تقریری، رسمی اور غیر رسمی زبانوں پر مشتمل ہوتا ہے جو مختلف سماجی اورطبقاتی حالات کی نمائندگی کرتا ہے

: Spoken corpus

بول چال کی زبان کا کارپس: اس کارپس میں روزمرہ کے بولے گئے متن کو رکھا جاتا ہے۔

غیر تشریحی کارپس: Unannotated corpus

یہ تشریحی کارپس کے برخلاف خام حالت میں سادے متون میں ہوتا ہے

تقریری کارپس: Speech corpus

تقریری زبان کا آڈیوریکارڈنگ کی شکل میں ایک بڑا مجموعہ ہوتا ہے۔  اکثر تقریری کارپس ریکارڈنگ کے مطابق ہر لفظ اور وقت تقریر کا متعلقہ نقل بھی اضافی متن کی شکل میں ہوتا ہے۔ (49)

خلاصہ:خلاصہ کے طور پر یہ کہا جا سکتا ہے کہ عموماً کارپس مضمون کے مقابلے زبان پر مبنی ہوتے ہیں یعنی کہ ایک زبان کے الفاظ کی وضاحت پر مبنی کارپس زیادہ ہوتے ہیں۔ اور ان زبان کی مشین کے ذریعے نمائندگی کی جو صورتیں مشہور ہیں وہ ما قبل میں بتائی جا چکی ہیں۔  ایک تحریری دوسرا تقریری۔  تحریری کارپس کے اندر کسی زبان کی تمام معلومات تحریری شکل میں ہوتی ہیں اور تقریری کارپس کس زبان کی تمام معلومات ریکارڈنگ صوتی شکل میں موجود ہوتی ہے جسے مشین کے ذریعے استعمال میں لایا جاتا ہے۔

یہ بات واضح ہے کہ اردو زبان کے مواد کو قابل مطالعہ شکل میں کمپیوٹر پر ڈالنا اور انٹر نیٹ کی مدد سے تمام لوگوں تک آسانی اور استعمال کے قابل بنانا وقت کی اہم ضرورت ہے۔  یونی کوڈ نے اردو مواد کو انٹرنیٹ اور کمپیوٹر پر ڈالنے کی نئی راہیں ہموار کی ہیں۔  جدید دور میں اردو مواد کو انٹرنیٹ پر بڑے پیمانے پر ایک وقیع کارپس میں تبدیل کرنا وقت کی اہم ضرورت ہے۔  اردو زبان میں مشین کے لیے قابل مطالعہ کارپس کی تیاری اردو ٹکنالوجی پر مبنی تجزیہ ممکن ہو سکے گا۔  یہ تجزیات صرفی، نحوی اور معانیاتی میدانوں میں نئی معلومات فراہم کر سکیں گے۔  جس کی مدد سے مشینی ترجمہ پر تحقیق کی راہیں ہموار ہوں گی۔

٭٭٭

 

 

حوالے

 

  1. یہ ہے انٹر نیٹ ریڈیو: ثنا غوری 17 فروری 2014

http://www.express.pk/story/228205

  1. ترجمہ ابلاغیات ایم۔ ایے۔ اردو فاصلاتی تعلیم صفحہ 152 مانو
  2. ترجمے کی تہذیبی و ثقافتی اہمیت: عارف عزیز 3/1/2014 Tahreek.Net

https://www.facebook.com/tahreek.net/posts/244460785721855

  1. اردو اطلاعیات جلد اول صفحہ ۵۵۔ مقتدرہ قومی زبان پاکستان
  2. اردو اطلاعیات جلد دوم صفحہ 133 مقتدرہ قومی زبان پاکستان
  3. ) Crystal, David. 1992. An Encyclopedic Dictionary of Language and Languages. Oxford, 85
  4. Institute of the Czech National Corpus

http://ucnk.ff.cuni.cz/english

  1. corpus.byu.edu/time/
  2. اردو مثال گھر ( دی بینگ آف اردو) : ایک تعارف تحقیق جام شور شمارہ 16 صفحہ 71
  3. کمپیوٹر دیٹا پروسیسنگ ( محمود انور عاشی ) صفحہ 16-15)
  4. : اطلاعاتی ٹکنالوجی اور تدریس و تعلیم:جاوید احمد کامٹوی اردو دنیا مئی 2010
  5. ڈاکٹر حسن الدین احمد اردو الفاظ شماری:

http://www.urduweb.org/mehfil/threads/%D8%A7.18004/

  1. Urdu Data House: An Introduction:تحقیق جام شور شمارہ 16 2008
  2. اردو آن لائن لغت <http://182.180.102.251:8081/oud/default.aspx>
  3. ( اردو اطلا عیات جلد اول ) مقتدرہ قومی زبان پاکستان صفحہ نمبر 75
  4. اردو تحریک:آل احمد سرور
  5. (عزیر اسرائل , کمپیوٹر اور اردو تحقیق و تنقید)

http://www.urdulinks.com/urj/?cat=14

http://www.urdulinks.com/urj/?cat=5

http://www.urdulinks.com/urj/?p=99

  1. برقی تحقیقات پاکستان مقتدرہ قومی زبان پاکستان
  2. مشینی ترجمہ: ڈاکٹر خالدمبشر الظفر زیر طبع
  3. An introduction to Machine Translation, W. John Hutchins & Harold L.Somers, Academic Press Limited , USA Arnold Balkan, et al 1994 )
  4. مشینی ترجمہ: ڈاکٹر خالدمبشر الظفر زیر طبع
  5. مشینی ترجمہ: ڈاکٹر خالدمبشر الظفر زیر طبع
  6. مشینی ترجمہ میں قواعد کا نظام:سید ماجد علی ایم۔ فل مقالہ صفحہ نمبر 14
  7. مشینی ترجمہ میں قواعد کا نظام:سید ماجد علی ایم۔ فل مقالہ صفحہ نمبر 17
  8. اردو کارپس تکنیکی تعارف ضرورت و اہمیت: http://www.urduweb. / org/mehfil/threads/%D8%A7.18004
  9. اردو ڈیٹاہاوس این انٹروڈکشن:تحقیق جام شورو، شمارہ:۱۶، ۲۰۰۸ حافظ صفوان
  10. اردو کارپس تکنیکی تعارف ضرورت و اہمیت: حافظ صفوان http://www.urduweb
  11. اردو آن لائن لغت

http://182.180.102.251:8081/oud/default.aspx

  1. اردو آن لائن لغت

http://182.180.102.251:8081/oud/default.aspx

  1. اردو زبان میں مشینی ترجمہ کی صورت حال ڈاکٹر خالد مبشر الظفر زیر طبع
  2. Urdu Corpus: Technical Introduction, Design & Scope (http://www.urduweb)
  3. world wide words Investigating the English language across the globe.

http://www.urduweb.org/mehfil/threads/1800

http://www.twc.it

  1. http://en.wikipedia.org/wiki/BYU_Corpus_of_American_English
  2. Corpus Linguistics 1/3) 2003 Anatol Stefanowitsch
  3. Corpus Linguistics 1/3) 2003 Anatol Stefanowitsch
  4. Corpus Linguistics 1/3 2003 Anatol Stefanowitsch
  5. Corpus Linguistics 1/3 2003 Anatol Stefanowitsch
  6. اردو کارپس : تکنیکی تعارف، اہمیت، ضرورت اور دائرہ و لائحہٴ عمل

http://www.urduweb.org/mehfil/tags/%D8%A7%D8%B1%D8%AF%D9%88+%DA%A9%D8%A7%D8%B1%D9%BE%D8%B3

 

  1. UMC005 Statistics: English-Urdu Parallel Corpus (by Bushra Jawaid and Daniel Zeman)
  2. Indic multi-parallel corpus:) <http://www.tdil-dc.in/index.php>
  3. TDIL (Technology Development for Indian Languages)

http://www.tdil-dc.in/index.php

  1. TDIL (Technology Development for Indian Languages)

http://www.tdil-dc.in/index.php

  1. TDIL (Technology Development for Indian Languages)

http://www.tdil-dc.in/index.php

  1. TDIL (Technology Development for Indian Languages)

http://www.tdil-dc.in/index.php

  1. MODELOS GRAMATICALES. Corpus Linguistics
  2. Compiling a Glossary of Terminology used in Shoemakin ( Jaroslave Blecha)
  3. http://www.cl2011.org.uk/corpus-linguistics-terms-and-their-meanings.html
  4. مشینی ترجمہ میں قواعد کا نظام:سید ماجد علی ایم۔ فل مقالہ صفحہ نمبر 17
  5. corpus linguistic

http://www.cl2011.org.uk

  1. http://www.tdil-dc.in/index.php?option=com_vertical&parentid

٭٭٭

 

مکمل کتاب ڈاؤن لوڈ کریں