Дубликаты - одинаковые строки в данных, которые могут исказить анализ.
Основные методы
df.duplicated()
- находит дубликаты (возвращает True/False)
df.drop_duplicates()
- удаляет дубликаты
df.nunique()
- количество уникальных значений
Параметры drop_duplicates()
subset
- столбцы для проверки дубликатов
keep
- какую копию оставить (
'first'
,
'last'
,
False
)
ignore_index
- пересоздает аккуратный последовательный индекс (0, 1, 2, 3, 4...).
Пример
df_clean = df.drop_duplicates() # Удалить полные дубликаты
df_partial = df.drop_duplicates(subset=['name']) # По имени
df_last = df.drop_duplicates(keep='last') # Оставить последний
Задание
1) Посчитайте количество полных дубликатов в прикрепленном датасете (программа должна вывести целое число)
2) Удалите все полные дубликаты и выведите размер получившегося датасета.