Модуль: Работа с таблицами в Pandas


Описание данных для Pandas (Серии 20-25)


Группировка, агрегация и соединение таблиц

Формат заданий

В рамках последующих заданий вам будет необходимо проанализировать данные, представленные в таблицах course и user_course_progress,
и ответить на комплексный аналитический вопрос. В каждом задании будет сформулирован отдельный этап ответа на этот вопрос.
Для решения заданий воспользуйтесь возможностями библиотеки pandas.

Таблицы, которые понадобятся вам в рамках заданий, представлены в виде CSV-файлов: course (course.csv) и user_course_progress (user_course_progress.csv)

Данные

В таблице course представлены следующие колонки:

  1. «id» — идентификатор курса на платформе.
  2. «subject» — предмет, к которому привязан этот курс. По одному и тому же предмету может быть несколько разных курсов.
  3. «date_started» — дата, когда курс запустился.
  4. «max_score» — максимальный балл, который можно набрать за курс. Если в данный момент ученикам в курсе для изучения доступны не все темы, то значение в колонке будет пропущено. Максимальный балл всегда является целым числом.

Схема таблицы:

Колонка Тип данных Пропуски Первичный ключ
id Целое число False True
subject Строка False False
date_started Момент времени False False
max_score Целое число True False
 

В таблице user_course_progress представлены следующие колонки:

  1. «user_id» — идентификатор пользователя на платформе.
  2. «course_id» — идентификатор курса на платформе.
  3. «progress» — суммарное число баллов, которые ученик заработал в данном курсе.

Схема таблицы:

Колонка Тип данных Пропуски Первичный ключ
user_id Целое число False True
course_id Целое число False True
progress Вещественное число False False