# Select columns that are important for further analysis, focusing on those that may contain missing values
data_columns_nulls = data_train[['cyto_score','cyto_score_detail','hla_high_res_6','hla_high_res_8','hla_high_res_10','hla_match_b_high','tce_imm_match','mrd_hct','tce_match','tce_div_match']]# Drop rows with NaN values in columns that are not part of the selected ones# Commented line below would remove any rows with NaN values, but we're handling missing data per column#data_train.dropna(inplace=True)for columns in data_train.columns:if columns notin data_columns_nulls.columns:# Drop rows where the selected column has NaN values
data_train = data_train.dropna(subset=[columns])# Calculate and print the total number of missing values per column (if needed)
missing_values = data_train.isna().sum()print(missing_values)
2- املئ القيمه الNaN في الاعمدا المعين التي لم امسحها
# Fill missing values in the columns selected for analysisfor columns in data_columns_nulls.columns:# For categorical columns (object type), fill NaN with the most frequent value (mode)if data_train[columns].dtype =='object':
data_train[columns].fillna(data_train[columns].mode()[0])else:# For numerical columns, fill NaN with the mean of the column
data_train[columns].fillna(data_train[columns].mean())print("-"*20)# Calculate and print the total number of missing values per column (if needed)
missing_values = data_train.isna().sum()print(missing_values)
نتجه الmissing_values زي الاول بطبظ طيب ازي مش المفروض يكون كلها اصفر
السؤال
Ali Ahmed55
السلام عليكم
انا هنا في الكود ده عاوز
1- امسح القيمه الNaN ماعد اعمده معين
ودي نتجيه الmissing_values
لحد دلوقتي تمام بعد كده
2- املئ القيمه الNaN في الاعمدا المعين التي لم امسحها
نتجه الmissing_values زي الاول بطبظ طيب ازي مش المفروض يكون كلها اصفر
2 أجوبة على هذا السؤال
Recommended Posts
انضم إلى النقاش
يمكنك أن تنشر الآن وتسجل لاحقًا. إذا كان لديك حساب، فسجل الدخول الآن لتنشر باسم حسابك.