إياد أحمد نشر 13 ديسمبر 2021 أرسل تقرير نشر 13 ديسمبر 2021 أبحث عن طريقة لتقسيم النص إلىn-grams ، أعتقد أن nltk تقوم ب bigrams و trigrams فقط، لكنني أحتاج إلى 4 و 5 grams؟ 1 اقتباس
0 Ali Haidar Ahmad نشر 13 ديسمبر 2021 أرسل تقرير نشر 13 ديسمبر 2021 أنت مخطئ، ف NLTK تحتوي على الوحدة ngrams (ربما لا يعرفها الكثيرون) التي تمنحك حرية التقسيم إلى 2 , 3 , 4, 5 ,6 , .... , n-grams. مثال: # استيراد الوحدة from nltk import ngrams # تحديد نص text = 'Web oficial de Lionel Messi jugador del Futbol Club Barcelona y uno de los mejores jugadores del mundo.' # grams تحديد عدد ال n = 5 # tokens نقوم بتمرير النص كوحدات # ونمرر أيضاً عدد التقسيمات sixgrams = ngrams(text.split(), n) # نقوم بالمرور عليها وطباعتها بالشكل for grams in sixgrams: print(grams) """ ('Web', 'oficial', 'de', 'Lionel', 'Messi') ('oficial', 'de', 'Lionel', 'Messi', 'jugador') ('de', 'Lionel', 'Messi', 'jugador', 'del') ('Lionel', 'Messi', 'jugador', 'del', 'Futbol') ('Messi', 'jugador', 'del', 'Futbol', 'Club') ('jugador', 'del', 'Futbol', 'Club', 'Barcelona') ('del', 'Futbol', 'Club', 'Barcelona', 'y') ('Futbol', 'Club', 'Barcelona', 'y', 'uno') ('Club', 'Barcelona', 'y', 'uno', 'de') ('Barcelona', 'y', 'uno', 'de', 'los') ('y', 'uno', 'de', 'los', 'mejores') ('uno', 'de', 'los', 'mejores', 'jugadores') ('de', 'los', 'mejores', 'jugadores', 'del') ('los', 'mejores', 'jugadores', 'del', 'mundo.') """ اقتباس
السؤال
إياد أحمد
أبحث عن طريقة لتقسيم النص إلىn-grams ، أعتقد أن nltk تقوم ب bigrams و trigrams فقط، لكنني أحتاج إلى 4 و 5 grams؟
1 جواب على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.