إطلاق تجريبي

عن فلك

فلك: بوابة المدوَّنات اللُّغويَّة العربيَّة

منصة فلك هي إحدى مبادرات مجمع الملك سلمان العالمي للُّغة العربيَّة الذي تركّز رسالته على تعزيز حضور اللُّغة العربيَّة في العالم الرَّقمي؛ عبر إثراء المحتوى العالمي بها وفقًا لأحدث المنهجيات العلميَّة المتَّبعة في بناء المدوَّنات اللغوية لتخدم الباحثين اللغويين في دراسة الظواهر اللغوية العربية، وعلماء البيانات، ومهندسي تقنيات الذكاء الاصطناعي. وتعنى هذه المنصة بتوفير مادةٍ لغويَّةٍ غنيةٍ يمكن اعتمادها في تمثيل العينات اللغويَّة التي تصلح لدراسة الظَّواهر المتعلقة بالعربية، مع إتاحة أحدث الأدوات في تحليل البيانات اللُّغويَّة، واستقرائها. ويعمل المجمع على إضافة مدوناتٍ جديدةٍ باستمرار، وكذلك أدواتٍ حاسوبية للبحث والتحليل لتلبي الاحتياجات العلمية للباحثين في المجالات اللغوية والحاسوبية. ويسعد المجمع بالتعاون مع الباحثين والمهتمين في مختلف المجالات من أجل تطوير المنصة وإثرائها بالمدونات اللغوية المتنوعة، وتحسين وظائفها ورفع القيمة العلمية والعملية لها.

أبرز أهداف المنصة

أبرز أهداف المنصة

توصيف الأدوات:

الكشاف السياقي (Concordancer):
إحدى الأدوات التي تستعمل في تحليل البيانات اللغوية، وتتيح للباحث الكشف عن الكلمات والعبارات ومعرفة سياقات استعمالاتها في مدونة معينة. ينتتج عن هذه الأداة قائمة من الأسطر concordance lines التي تتوسطها الكلمة أو العبارة المبحوثة search term ممثلة ما يعرف بالكشاف السياقي concordance للكلمة. ويمكن الاستفادة من هذه الأداة من خلال عدد من المحددات المتاحة في المدونة: على مستوى أوعية المدونة، أو مجالاتها، أو فترة زمنية معينة منها، أو منطقة جغرافية محددة تمثلها نصوصها، أو حتى موضوعا منها.
الكشاف السياقي المنطوق (Spoken concordancer):
إحدى الأدوات التي تستعمل في تحليل البيانات اللغوية، وتتيح للباحث الكشف عن الكلمات والعبارات ومعرفة سياقات استعمالاتها في مدونة معينة. ينتتج عن هذه الأداة قائمة من الأسطر concordance lines التي تتوسطها الكلمة أو العبارة المبحوثة search term ممثلة ما يعرف بالكشاف السياقي concordance للكلمة. ويمكن الاستفادة من هذه الأداة من خلال عدد من المحددات المتاحة في المدونة: على مستوى أوعية المدونة، أو مجالاتها، أو فترة زمنية معينة منها، أو منطقة جغرافية محددة تمثلها نصوصها، أو حتى موضوعا منها.
قوائم الشيوع (Words frequency lists):
تزوّد قوائم الشيوع المستخدم بمعلوماتٍ تتعلق بتكرارات الكلمات في نصوص المدوَّنة. ويتاح للمستخدم أن يُضمِّن في قائمة الشيوع ما يعرف بقائمة الكلمات المستبعدة stop words التي يمكن الاطلاع عليها من خلال النقر على عرض الكلمات المستبعدة، وأن يُضمِّن أيضا قائمة الرموز والأرقام الخاصة التي يتضمنها أحيانا النص العربي.
التتابعات اللَّفظيَّة (N-grams):
تمكن هذه الأداة من البحث عن كلمة أو كلمتين متتاليتين، أو ثلاث كلمات متتالية في أي مدونة، ومعرفة تكرارات ورودها. ويمكن من خلال الأداة أيضا تحديد ما يمكن أن يكون من ضمن هذه التتابعات أو ما ليس ضمنها، فضلا عن تحديد الحروف التي يبدأ بها هذا التتابع أو ينتهي بها. ومن خلال معرفة التتابعات اللفظية، يمكن تحديد التراكيب أو الأنماط اللغوية وتكراراتها في النصوص، وتحسين النماذج اللغوية.
الكلمات السابقة واللاحقة (Words before/after):
تتيح هذه الأداة للمستخدم معرفة عدد تكرارات الكلمة التي تلي الكلمة أو العبارة المبحوثة، وتكرارات الكلمة التي تسبق الكلمة أو العبارة المبحوثة. ويمكن الاستفادة من هذه الأداة من خلال عدد من المحددات المتاحة في المدونة: على مستوى أوعية المدونة، أو مجالاتها، أو فترة زمنية معينة منها، أو منطقة جغرافية محددة تمثلها نصوصها، أو حتى موضوعا منها. وتمكن هذه الأداة من دراسة الأسلوب، والأنماط اللغوية، ومن فهم كيفية استخدام اللغة للتعبير عن الأفكار والمعاني.
السوابق واللواحق (Prefixes and suffixes):
تمكّن هذه الأداة من البحث عن تصريفات الكلمة المبحوثة، فتعرِض نتائج البحث عن أي كلمة بعد إضافة السوابق، ثم بعد إضافة اللواحق، ثم بعد إضافة السوابق واللواحق لها. وذلك يعتمد على طبيعة الكلمة كانت اسمًا أو فعلًا أو صفة. وفضلا عن ذلك تظهر نتائج تكرار هذه التصريفات في المدونة، وعند النقر على أي كلمةٍ، يمكن الانتقال مباشرةً إلى الكشاف السياقي لتلك الكلمة. وتفيد هذه الأداة في دراسة عدد من الظواهر اللغوية، منها معرفة الانتشار الصرفي لكلمة معينة في مدونة مخصوصة.
التصاحب اللفظي (Collocation):
تتيح هذه الأداة معرفة نتائج تصاحب كلمة واحدة فقط مع كلمات مجاورة ضمن نافذة تصاحب قبلية وبعدية يحددها المستخدم. ويحسب التصاحب بعدد من الأساليب الإحصائية المعروفة في قياس التصاحبات اللفظية، ويمكن للمستخدم الاختيار منها بحسب حاجته، وكذلك البحث من خلال عدد من المحددات المتاحة في المدونة: على مستوى أوعية المدونة، أو مجالاتها، أو فترة زمنية معينة منها، أو منطقة جغرافية محددة تمثلها نصوصها، أو حتى موضوعا منها.
توزيع التكرار (Frequency distribution):
يمكن من خلال هذه الأداة معرفة التَّوزيع الإحصائي لكلمة أو عبارة مبحوثة، من خلال عدد من المحددات المتاحة في المدونة: على مستوى أوعية المدونة، أو مجالاتها، أو فترة زمنية معينة منها، أو منطقة جغرافية محددة تمثلها نصوصها، أو حتى موضوعا منها. وتظهر النتائج مع معلومات تتعلق بتكرار الكلمة الخام، وتكرارها النّسبي، وعدد النُّصوص التي وردت فيها الكلمة أو العبارة المبحوثة.
البحث عن أمثلة (Example search):
تمكن هذه الأداة من البحث عن أمثلة لكلمة واحدة فقط في المدونة. وتختلف هذه الأداة عن الكشاف السياقي في أنها تظهر النتائج في جمل مستقلة مقطعة، ويمكن التحكم في الكلمة المبحوثة من خلال اختيار البحث في مشتقاتها أيضا أو إظهار نتائج عشوائية للأمثلة، حيث لا تظهر هذه الأداة إلا 40 مثالًا في كل عملية بحث.
استخلاص المصطلحات (Keywords):
أداة حاسوبية لاستخلاص المصطلحات وترشيحها في المدونات المتخصصة وفقًا لمقياس محدّد، ومعايير علمية، تهدف إلى تمكين الباحثين من دراسة المصطلحات في موضوعٍ أو حقلٍ معينٍ، وبناء معاجم متخصصة بها.
الإحصائيات (Statistics):
تستخدم هذه الأداة للكشف عن الإحصاءات المتعلقة ببيانات المدونة، من حيث (عدد نصوصها، عدد كلماتها، ونسبة توزيع تلك النصوص على كل من: المجال، الوعاء، الفترة، المنطقة).
مقياس شيوع المفردات (Word frequency measures):