المؤتمر الدولي لعلوم وهندسة الحاسوب باللغة العربية

Feed Rss

طريقة تعتمد على المدونات اللغوية لتجهيز بيانات تدريب واختبار أنظمة الوسوم النحوية

عبد المحسن الثبيتي، ندى الطوالة، سعد العتيبي، بشاير المرشدي – مدينة الملك عبدالعزيز للعلوم والتقنية، السعودية

الملخص

تزداد قيمة المدونات اللغوية عندما تضاف إلى ألفاظها معلومات تصف هذه الألفاظ مثل الوسوم النحوية أو الدلالية.  وتعد الوسوم النحويةــ إضافة تصف اللفظة ؛ لتحديد كونها اسم أو فعل أو حرف على أقل تقديرــ من أهم الوسوم التي تبنى عليها الكثير من الدراسات اللغوية, و دراسات المعالجة الآلية للغة. وعندما تكون المدونات اللغوية كبيرة الحجم فإنه من المتعذر إتمام وسمها يدويا؛ مما يتطلب بناء نظام حاسوبي يقوم بهذه المهمة. ويحتاج تطوير هذا النظام إلى بيانات لتدريبه واختبار كفاءته, وهذه البيانات هي نصوص موسومة نحويا تبعا لقائمة من الوسوم النحوية معتمدة مسبقاً. لكن إعداد هذه البيانات لتدريب  النظام واختباره هي الخطوة الأكثر استهلاكا للموارد؛ ولعل هذا هو السبب في عدم وجود بيانات مرجعية لتدريب واختبار كفاءة أنظمة الوسوم النحوية العربية. و في هذه الدراسة نستعرض طريقة توفر الوقت والجهد والكلفة في إعداد بيانات التدريب والاختبار الخاصة بأنظمة الوسوم النحوية. تعتمد الطريقة المقترحة  على 1) التوزيع الإحصائي لألفاظ المدونة اللغوية العربية، 2) الكلمات العربية ذات الوسوم النحوية الثابتة ، 3) بعض القواعد البسيطة والمباشرة. و تستعرض الورقة ما يمكن تحقيقه نظريا باستخدام هذه الطريقة ,كما توضح نتائج تطبيق مثل هذه الطريقة على عينة من النصوص. و قد أثبتت نتائج الاختبارات إمكانية توفير حوالي 50% من المصادر اللازمة لمثل هذه الانظمة.
الكلمات الجوهرية: حوسبة اللغة، الوسم النحوي الالي، المدونات اللغوية، بيانات التدريب والاختبار، تعلم الالة، المصادر اللغوية
————————————————————————————————————————————–

A Corpus Based Method to Prepare Training and Evaluation Dataset for Arabic Grammatical Tagging Systems
Abstract. The significance of corpora is increased when their words are tagged with additional information describing each word’s syntactic or semantic role.  Grammatical tagging – assigning grammatical tag(s) to a word such as noun, verb or preposition/conjunction at least – is essential for linguistics and computational research.   When corpora are very large it is almost impossible to tag them manually. In this case automatic tagging is required.  Training and evaluation of automatic grammatical tagging systems requires a benchmarking dataset. This dataset is a corpus which was previously tagged according to a predefined tag set. Providing this dataset demands a lot of resources and this is may be the reason why there is no benchmarking dataset for Arabic grammatical tagging system. In this study, we introduce a method that can be used to reduce the cost and effort to prepare such a grammatical tagging dataset. The proposed method is based on 1) the statistical distribution of KACST Arabic corpus words, 2) the Arabic words with fixed grammatical tags and 3) direct and simple Arabic grammar rules. This paper also illustrates what can be achieved theoretically and practically using the proposed method. The experiment’s results show the ability to save 50% of the resources needed for such systems.

Keywords: Computational linguistics, Automatic grammatical tagging, Corpora, Training and evaluation dataset, Machine learning, Language resources.

Comments are closed.