Описание данных для Pandas (Серии 20-25)
Группировка, агрегация и соединение таблиц
Формат заданий
В рамках последующих заданий вам будет необходимо проанализировать данные, представленные в таблицах course и user_course_progress,
и ответить на комплексный аналитический вопрос. В каждом задании будет сформулирован отдельный этап ответа на этот вопрос.
Для решения заданий воспользуйтесь возможностями библиотеки pandas.
Таблицы, которые понадобятся вам в рамках заданий, представлены в виде CSV-файлов: course (course.csv) и user_course_progress (user_course_progress.csv)
Данные
В таблице course представлены следующие колонки:
- «id» — идентификатор курса на платформе.
- «subject» — предмет, к которому привязан этот курс. По одному и тому же предмету может быть несколько разных курсов.
- «date_started» — дата, когда курс запустился.
- «max_score» — максимальный балл, который можно набрать за курс. Если в данный момент ученикам в курсе для изучения доступны не все темы, то значение в колонке будет пропущено. Максимальный балл всегда является целым числом.
Схема таблицы:
| Колонка |
Тип данных |
Пропуски |
Первичный ключ |
| id |
Целое число |
False |
True |
| subject |
Строка |
False |
False |
| date_started |
Момент времени |
False |
False |
| max_score |
Целое число |
True |
False |
В таблице user_course_progress представлены следующие колонки:
- «user_id» — идентификатор пользователя на платформе.
- «course_id» — идентификатор курса на платформе.
- «progress» — суммарное число баллов, которые ученик заработал в данном курсе.
Схема таблицы:
| Колонка |
Тип данных |
Пропуски |
Первичный ключ |
| user_id |
Целое число |
False |
True |
| course_id |
Целое число |
False |
True |
| progress |
Вещественное число |
False |
False |
|