اذهب إلى المحتوى

السؤال

نشر

مرحبا للجميع

يستعمل التشابه التوزيعي لحل مشكلات تصنيف الكلام إلى اسم وفعل وحرف إذا كانت البيانات قليلة وتكرارات الحرف مثلا صفرية أو منخفضة

هل أحد لديه فكرة عن آلية ذلك فقط الآلية دون الكود ؟

Recommended Posts

  • 0
نشر

يوجد أداة برمجية تُستخدم في عدة لغات برميجة تُسمى A Part-Of-Speech Tagger (POS Tagger).

  •  A Part-Of-Speech Tagger (POS Tagger) : عبارة عن برنامج يقرأ النص المكتوب و يُجزء الكلام بناءًا على الإسم أو الفعل أو الصفة.

يُمكنك الإطلاع على هذه الأداة و المزيد حولها من خلال الموقع الرسمي لها، من هُنا.

بالإضافة لشرح آخر حول إستخدام هذه الأداة في الجافا، هُنا.

  • 1
نشر

تقنيا حسب خبرتي في مجال Data Science غالبا ما يتم إستعمال ادوات لدراسة التباعد والتقارب بين البيانات في مجال سواء تحليل البيانات أو التنقيب عنها او في علوم البيانات ككل، فكمثال نعتبر اننا نستعمل فقط Regression classification ونريد أن نرى هل يوجد إرتباط بين البيانات أم لا حتى لا نقع في مشكلة متغير له علاقة بمتغير أخر كمثال قد نجد أن هناك علاقة بين X1 و X2 على الشكل التالي:

X1 = 5*X2

وبالتأكيد لحظة التصنيف هذا الشيئ سيؤثر بشكل سلبي على التصنيف ولن نحصل على دقة 100% بسهولة، لأجل ذلك يجب حذف X2 الذي تم استكشافه عن طريق التباعد بين البيانات ونترك في inputs فقط X المستقلة, ستساعدك كثيرا مكتبة pandas الموجودة في البايثون لتحليل البيانات.

تحياتي.

  • 0
نشر

نعم أخي الكريم ولكن لو جربت تطبيقها على نص لم تدرب عليه سيحدث هناك أخطاء في بعض أقسام الكلام بسبب وجود كلمات غير معروفة لم يدرب عليها النموذج، ومن ثم التشابه التوزيعي سيساعد في التخلص من وقوع النموذج في هذه الأخطاء ولكن السؤال كيف؟

 

  • 0
نشر
بتاريخ 22 ساعات قال Arabic Language:

نعم أخي الكريم ولكن لو جربت تطبيقها على نص لم تدرب عليه سيحدث هناك أخطاء في بعض أقسام الكلام بسبب وجود كلمات غير معروفة لم يدرب عليها النموذج، ومن ثم التشابه التوزيعي سيساعد في التخلص من وقوع النموذج في هذه الأخطاء ولكن السؤال كيف؟

 

كيف ؟ الإجابة بسيطة ولا علاقة للبيانات المدربة مع البيانات الغير مدربة لأن ما نقوم به الأن هو Data preprocessing و الهدف الأول والأخير هل الحصول على موديل بدقة عالية من دون تواجد ولا X واحد له علاقة ب X أخر، ولتستكشف ذلك كل ما عليك هو إستعمال pandas ودراسة ذلك، الفيديو التالي سيوضح لك كيف ستقوم بذلك.

  • 0
نشر

في ال NLP همنا الأول و الأخير هو إيجاد أفضل طريقة لتمثيل النص وبالتالي الحصول على أفضل النتائج سواءاً كانت المهمة تصنيف أم ترجمة أم توليد نصوص أو أو.. وعندما نحاول إيجاد أفضل طريقة لتمثيل النص فهذا يتطلب أن نضع نصب أعيننا أمرين مهمين يجب أن يضمنهم التمثيل وهما التشابه التوزيعي وفرضية التوزيع (تمثيل النص المقصود به هو تمثيل كل كلمة بشعاع من الأرقام وهذه الأشعة مجتمعة نسميها Vector space).
أي هدفنا هو تمثيل الكلمات التي لدينا بأشعة وهذه الأشعة تعكس المعنى الدلالي للكلمات.
التشابه التوزيعي (Distributional similarity) هو مفهوم ولايتم التعبير عنه بكود. الفكرة هنا أنه يمكن فهم معنى الكلمة من السياق الذي تظهر فيه الكلمة. يُعرف هذا أيضاً باسم  السياق الضمني (connotation) : يتم تعريف المعنى حسب السياق. وهذا معاكس للسياق الحرفي (denotation) : المعنى الحرفي لأي كلمة. على سبيل المثال: "NLP rocks". المعنى الحرفي لكلمة “rocks ” هو “الحجارة” ، ولكن من السياق نجد أنها تشير إلى شيء جديد وعصري. وهناك أيضاً مفهوم آخر في ال NLP وهو فرضية التوزيع  (Distributional hypothesis):في علم اللغة، يفترض هذا أن الكلمات التي تحدث في سياقات متشابهة لها معاني متشابهة. على سبيل المثال ، تحدث الكلمات الإنجليزية “Dog” و “Cat” في سياقات مماثلة. وبالتالي ، وفقاً لفرضية التوزيع ، يجب أن يكون هناك تشابه قوي بين معاني هاتين الكلمتين. الآن  في نماذج فضاء المتجه  Vector Space، يتم تمثيل معنى الكلمة بواسطة المتجه. وبالتالي ، إذا ظهرت كلمتان في سياق مشابه، فيجب أن تكون متجهات التمثيل المقابلة لها أيضاً قريبة من بعضها البعض. وهذان المفهومان يقوداننا إلى مفهومين هامين جداً في  NLP أولاً التمثيل التوزيعي (Distributional representation): يشير هذا إلى مخططات التمثيل التي يتم الحصول عليها بناءً على توزيع الكلمات من السياق الذي تظهر فيه الكلمات. تستند هذه المخططات على فرضيات التوزيع. حيث يتم الحصول على الخاصية التوزيعية من السياق. رياضياً، تستخدم مخططات التمثيل التوزيعي متجهات عالية الأبعاد لتمثيل الكلمات. يتم الحصول على هذه المتجهات من مصفوفة (co-occurrence matrix)  التي تلتقط التكرار المشترك للكلمة والسياق وأبرز الأمثلة عنه هو تمثيل النص من خلال One-Hot-Encoding و BoN و TF-IDF.
ثانياً التمثيل الموزع (Distributed representation) الذي يستند إلى فرضية التوزيع. كما تحدثنا، فإن المتجهات في التمثيل التوزيعي هي أبعاد عالية جدًا ومتفرقة. هذا يجعلهم غير فعالين من الناحية الحسابية ويعيق التعلم. للتخفيف من ذلك ، تضغط مخططات التمثيل الموزعة على الأبعاد بشكل كبير. ينتج عن هذا متجهات مضغوطة (أي ذات أبعاد منخفضة) وكثيفة (أي بالكاد أي أصفار). تُعرف مساحة المتجه الناتجة بالتمثيل الموزع. وهو مابنى عليه ميلكوف ورقته البحثية عام 2013 التي أنتجت نموذج word2vec تحت مفهوم ال Wordembedding الذي فجر بها عصراً جديداً لل NLP. وهذا التتمثيل نعتمد عليه الآن في أغلي مهام ال NLP (الطبة Embedding في كيراس تعتمد على فكرة ال Wordembedding ) عنوان الورقة "Efficient Estimation of Word Representations in
Vector Space"

انضم إلى النقاش

يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.

زائر
أجب على هذا السؤال...

×   لقد أضفت محتوى بخط أو تنسيق مختلف.   Restore formatting

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   جرى استعادة المحتوى السابق..   امسح المحرر

×   You cannot paste images directly. Upload or insert images from URL.

  • إعلانات

  • تابعنا على



×
×
  • أضف...