أميمة الدكاك، وئام العبود، وسيم صافي – المعهد العالي للعلوم التطبيقية والتكنولوجيا، سورية
نظام الإجابة الدقيقة عن الأسئلة هو نظام يُجيب عن الأسئلة الموجهة بلغة طبيعية، حيث يتكون هذا النظام من عدة مكونات هي محلل السؤال، محرك البحث، محلل الوثائق المستردة، وأخيراً مركب الجواب.
يهدف هذا المشروع إلى تصميم مكونة تحليل السؤال وفهرسة مدونات عربية في نظام استرجاع معلومات للإجابة عن الأسئلة. تهدف مكونة تحليل السؤال إلى استخراج أكبر قدر ممكن من المعلومات من السؤال المطروح باللغة الطبيعية، حيث يجري استخراج الكلمات المفتاحية من السؤال، وأنماط هذه الكلمات (أمارات الكلام)، بالإضافة لمعلومات أخرى. أما عملية الفهرسة للمدونات العربية فقد جرت بالاعتماد على إمكانيات محرك البحث Lucene، وجرى إجراء العديد من التعديلات التي على هذا المفهرس لكي يتلاءم مع النصوص المكتوبة باللغة العربية، وبناءً على هذه التعديلات، جرى فهرسة العديد من المدونات العربية، والتي سنأتي على ذكرها بالتفصيل، كما جرى وضع العديد من النماذج النحوية للجمل العربية بما يساعد في استخراج الجواب الدقيق للسؤال المطروح باللغة العربية.
الكلمات الجوهرية: نظام الإجابة الدقيقة عن الأسئلة، محلل السؤال، محرك البحث، محلل الوثائق، مركب الجواب، أمارات الكلام، محرك البحث.
Designing a Question Anaysis Component and Indesxing Arabic Corpora in An Information Retrieval Systems for Question-Answering
The concepts of Information Retrieval Systems have achieved, recently, a significant progress and widespread on many levels, where their applications integrated with many other applications and Websites, to ensure the best search capabilities and retrieval of information accurately. Recently, many industrial companies and research centers increased significantly their interest in these techniques, especially after the great development in many areas related to information retrieval, such as Automatic Natural Language Processing (ANLP), Data Mining, and Machine Learning. The emergence of many advanced concepts also helped in this, especially in Parallel Computing techniques such as the advanced ideas in Cloud Computing, in addition to the significant progress in the field of Service Oriented Computing (SOC). We focus in this article on some important information retrieval systems, where we offer the most important systems performed in foreign languages (not Arabic), and how these systems were achieved, then we review in detail the systems achieved for the Arabic language, and their components, and the used corpora for testing these systems. Finally, we present some Arabic corpora that we use in our project, where we view for each one the size of the vocabulary, and the most important features of its files. Thus, in this article, we have made a comprehensive study of information retrieval systems in Arabic and the steps which we have applied on Arabic corpora towards completing the information retrieval system in our institute.
Keywords: Information Retrieval Systems, Automatic Natural Language Processing, Arabic Language Processing, Data Mining, Question Answering Systems.