Олимпиадный тренинг

Задача . Удаление дубликатов

Задача

Темы:

Дубликаты - одинаковые строки в данных, которые могут исказить анализ.

Основные методы

df.duplicated() - находит дубликаты (возвращает True/False)
df.drop_duplicates() - удаляет дубликаты
df.nunique() - количество уникальных значений

Параметры `drop_duplicates()`

subset - столбцы для проверки дубликатов
keep - какую копию оставить ('first', 'last', False)
ignore_index - пересоздает аккуратный последовательный индекс (0, 1, 2, 3, 4...).

Пример

df_clean = df.drop_duplicates()  # Удалить полные дубликаты
df_partial = df.drop_duplicates(subset=['name'])  # По имени
df_last = df.drop_duplicates(keep='last')  # Оставить последний

Задание

1) Посчитайте количество полных дубликатов в прикрепленном датасете (программа должна вывести целое число)
2) Удалите все полные дубликаты и выведите размер получившегося датасета.

time 1000 ms
memory 256 Mb
Правила оформления программ и список ошибок при автоматической проверке задач