اذهب إلى المحتوى

إياد أحمد

الأعضاء
  • المساهمات

    92
  • تاريخ الانضمام

  • تاريخ آخر زيارة

كل منشورات العضو إياد أحمد

  1. أريد طريقة فعالة (ذات تعقيد زمني مقبول) لاستخراج الأسماء Nouns من ملف نصي؟ لقد كتبت الكود التالي لكنه كما تلاحظون يستخدم الحلقات المتداخلة: import nltk text = open(path).read() all_nouns = [] for sentence in nltk.sent_tokenize(text): for w,post in nltk.pos_tag(nltk.word_tokenize(str(sentence))): if (post == 'NNPS' || pos == 'NNS' || post == 'NNP' || post == 'NN'): all_nouns.append(w)
  2. هناك العديد من الطرق للقيام بعملية tokenizing للنص في nltk على سبيل المثال: from nltk.tokenize import word_tokenize text = '''I'll be there within 5 min.''' word_tokenize(text) # ['I', "'ll", 'be', 'there', 'within', '5', 'min', '.'] لكن ماذا عن العملية العكسية أي Untokenize، كيف نقوم بذلك؟
  3. أعمل على مهمة لبناء نموذج تحليل مشاعر لتغريدات تويتر، وكما نعلم فإن أغلب النصوص تحتوي اختصارات، مثلاً: I’ll be there within 5 min. Are u not gng there? Am I mssng out on smthng? I’d like to see u near d park. أحتاج إلى فض هذه الاختصارات مثلاً تحويل I'll إلى i will ، ونفس الأمر بالنسبة ل gng وباقي الاختصارات.
  4. أعلم أنه يمكنني إيجاد تردد كلمة محددة من خلال brown corpus بالشكل التالي: import nltk words = nltk.corpus.brown.words() freq = nltk.FreqDist(words) freq["will"] # 2204 لكن عندما أحاول إيجاده ل Bigrams دوماً يعطيني 0: freq["will be"] # 0
  5. هل هناك دالة لحساب التشابه بين جملتين من خلال مقياس cosine similarity باستخدام NLTK؟
  6. إذا استخدمت nltk.word_tokenize لتقسيم النص والحصول على ال tokens، فسأحصل على قائمة بالكلمات وعلامات الترقيم أيضاً، لكنني أحتاج فقط الكلمات، لذا كيف يمكنني التخلص من علامات الترقيم؟
  7. أبحث عن طريقة لتقسيم النص إلىn-grams ، أعتقد أن nltk تقوم ب bigrams و trigrams فقط، لكنني أحتاج إلى 4 و 5 grams؟
  8. هل هناك دالة في nltk لقياس التشابه بين كلمتين؟
  9. أقوم ببعض عمليات المعالجة المسبقة على بياناتي النصي (أعمل على بناء نظام استرجاع)، وأريد تطبيق عملية Lemmatization على النصوص (أي ربط الكلمات ذات المعاني المتشابهة بكلمة واحدة -مفهوم أكثر تعميماً من الاشتقاق البسيط حيث يقوم بتحليل موروفولوجي للنص-). لذا هل هناك طريقة للقيام بذلك في NLTK؟ على سبيل المثال : corpora --> corpus rocks --> rock better --> good
  10. أعمل على تطوير شبكة RNN و الآن أنا في مرحلة المعالجة المسبقة للنصوص، وأحتاج إلى اشتقاق الكلمات لكي أقوم بتخفيضها في النصوص. كما تعلمون فإن ال Stemming يقوم بتحويلات مثل تحويل مجموعة الكلمات التالي: “chocolates”, “chocolatey”, “choco” إلى كلمة جذر وحيدة هي: “chocolate” لذا هل هناك طريقة للإيجاد جذر الكلمة ؟ مثلاً في NLTK؟
  11. كيف يمكننا معرفة مرادفات و مضادات كلمة، أعرف أنه يمكننا القيام بذلك من خلال NLTK و WORDNET لكن لم أستطع القيام بذلك؟
  12. أعمل على مشروع تحليل مشاعر معتمد على الجانب لإحدى الشركات، وفي هذا النوع من المشاريع فإن الخطوة الأساسية هي تقسيم النص إلى جمل بعد ذلك استخراج وحدات الرأي من النص. لذا ما أحتاجه هنا هو دالة تقوم بتقسيم النص إلى جمل؟
  13. أعمل على بناء خوارزمية في ال NLP وأحتاج إلى طريقة يمكنني من خلالها تصنيف كل كلمة حسب نوعها (اسم علم، اسم، اسم جمع, فعل،..إلخ) هل تحتوي NLTKعلى دالة أو طريقة للقيام بذلك؟ فعلى فرض لدي النص التالي: "Life is like riding a bicycle. To keep your balance, you must keep moving." كيف يمكنني تحديد الصنف القواعدي لكل كلمة فيه؟ على سبيل المثال keep هي فعل و MUST هي شرط... أيضاً أريد حذف كلمات التوقف.
  14. أعمل على مجموعة للنصوص و أريد القيام بعملية Tokinaization للنص، فهل هناك دوال مساعدة للقيام بالأمر؟
  15. أقوم ببعض عمليات المعالجة المسبقة للبيانات، وحالياً أريد أن أقوم بعملية تصفية للكلمات غير المفيدة أو كما تسمى ب " stop words" مثل (.إلخ...."such as “the”, “a”, “an”, “in”) أي أحرف الجر و الضمائر وغيرهم، لذا هل هناك طريقة لتصفيتهم من النص؟
  16. لدي بعض النصوص التي تحتوي على العديد من الفراغات ورموز t\ و n\، وأريد تنفيذ عملية tokinezation على النصوص، لذا هل هناك حل للتخلص من هذه الفراغات أو تجاهلها؟ هذه عينة من النصوص: "The price\t of burger \nin BurgerKing is Rs.36.\n"
  17. أقوم ببعض عمليات المعالجة على نصوص، وأحتاج إلى طريقة لتحديد فيما إذا كانت الكلمة تنتمي إلى اللغة الإنجليزية أم لا، حيث أنه في حال كانت تنتمي للغة أريد القيام بشيء محدد، وإلا شيء آخر..
  18. أقوم ببعض عمليات استخراج البيانات باستخدام سيلينيوم من صفحة بها محتوى محمل بجافا سكريبت. على سبيل المثال ، المحتوى الذي أريده بالتنسيق التالي: <span class="rule">stay away from women</span> ... ... ... <span class="rule">Never forget the previous rule</span> وأريد الحصول على النصوص الموجودة ضمن ال span؟
  19. كيف يمكننا تثبيت مكتبة NLTK في بايثون؟
  20. لدي صفحة ويب بها جدول، يحتوي الجدول على صفين فقط بكل منهما عدة خلايا. ما أحاول القيام به هو المرور على الصفوف وإرجاع النص الموجود في كل خلية. الكود بالشكل التالي: <table class="datadisplaytable"> <tbody> <tr> <td class="A">200</td> <td class="A">100</td> <td class="A">Adward</td> <td class="B">VB</td> <td class="B">30</td> <td class="B"></td> </tr> <tr> <td class="A">500</td> <td class="A">200</td> <td class="A">Roland</td> <td class="B">VC</td> <td class="B">52</td> <td class="B"></td> </tr> </tbody> </table>
  21. لدي المقطع التالي من كود HTML: <body> <p id='A'> # </p> <p id='B'> ## </p> <p id='C'> ### </p> </body> من خلال الكود التالي يمكنني الحصول على الوسم p الأول: driver.find_element_by_id('A') لكن أريد الحصول على الأخ التالي له next sibling؟
  22. لدي مقطع HTML التالي: <span id="A"> <select id="X" name="X"> <option value="A"></option> <option value="B"></option> <option selected="" value="C"></option> <option value="D"></option> </select> </span كيف يمكننا تحديد قيمة (ولتكن B) من قائمة من الخيارات (قائمة منسدلة)؟
  23. أريد الحصول على قائمة بجميع معرفات العناصر الموجودة في الصفحة إلى جانب نوع الوسم الموجودة فيه؟ كيف يمكنني القيام بذلك؟
  24. أريد تحديد حد أقصى لوقت استجابة تنفيذ الأوامر في Selenium WebDriver، على سبيل المثال أريد شيئاً مثل هذا: driverObj = get_my_driver() # تحديد وقت الاستجابة على 10 ثوان driverObj.set_timeout(10) # الآن عند إرسال طلب للصفحة، أريده أن يتوقف أو أن يرمي استثناء عند تجاوز المدة المحددة وهي 10 ثوان driverObj.get('URL')
  25. لدي حوالي 200 رابط من الشكل التالي: <a href="1.html">A1</a> <a href="2.html">A2</a> <a href="3.html">A3</a> <a href="4.html">A4</a> ... <a href="200.html">A200</a> حصلت عليهم من خلال السطر التالي: links=browser.find_elements_by_partial_link_text('A') سؤالي الآن هو كيف يمكنني الحصول على الخاصية href لكل الروابط؟
×
×
  • أضف...