Вы находитесь на странице: 1из 9

ПЕРМСКИЙ ФИЛИАЛ ФЕДЕРАЛЬНОГО ГОСУДАРСТВЕННОГО

АВТОНОМНОГО ОБРАЗОВАТЕЛЬНОГО УЧРЕЖДЕНИЯ

ВЫСШЕГО ОБРАЗОВАНИЯ

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»

Факультет экономики, менеджмента и бизнес-информатики

Анализ данных в Spreadsheets


ОТЧЕТ

студентов образовательной программы бакалавриата «Экономика»

по направлению подготовки 38.03.01 Экономика

Выполнили:
Аверенс А.
Литвинов Б.
Мартынов И.

Пермь

2021 год
1.Разобраться с данными, какие в базе представлены переменные, что они
означают, какие шкалы у переменных?

Books:

Переменная Что означает Шкала


id порядковый номер 1-10000
наблюдения
book_id индивидуальный 1-33288638
номер книги
best_book_id самое популярное 1-33288638
издание для заданной
работы
work_id Рабочий ID 87-56399597
books_count Число изданий для 1-3455
заданной работы
isbn ISBN индивидуальный
номер
isbn13 ISBN индивидуальный
номер
authors Авторы Значения “string” (4664
уникальных значений)
original_publication_yea Год публикации 1750 до н.э. - 2017
r оригинала (год)
произведения
original_title Оригинальное 9274 уникальных
название книги значений
title Название 9956 уникальных
значений
language_code Код языка 26 уникальных
значений
average_rating Средний рейтинг 2.47 - 4.82
ratings_count Сумма всех рейтингов 2716 - 4780653
для книги
work_ratings_count Количество оценок для 5510 - 4942365
книги
work_text_reviews_cou Число текстовых 3 - 155254
nt рецензий для книги
ratings_1 Число читателей 11-456191
проголосовавших за
рейтинг 1/5
ratings_2 Число читателей 30-436802
проголосовавших за
рейтинг 2/5
ratings_3 Число читателей 323-793319
проголосовавших за
рейтинг 3/5
ratings_4 Число читателей 750-1481305
проголосовавших за
рейтинг 4/5
ratings_5 Число читателей 754-3011543
проголосовавших за
рейтинг 5/5
image_url Интернет-ссылка на Индивидуальная URL-
обложку книги ссылка
small_image_url Интернет-ссылка на Индивидуальная URL-
обложку книги ссылка
маленького размера

Ratings:

Переменная Что означает Шкала


book_id идентификатор книги 1-1000
user_id уникальный номер уникальный номер
пользователя
rating рейтинг книги, 1-5
оставленный
пользователем

To read:

Переменная Что означает Шкала


user_id идентификатор 1-53424
пользователя
book_id уникальный номер уникальный номер
книги

2. Проанализировать «books.csv» на пропуски, выбросы, ошибки. Принять


решение для дальнейшего анализа.

Наличие пропусков в нашем случае не является существенной


проблемой для анализа - наличие у книг двух форматов названий, ISBN и
ID позволяет идентифицировать произведение даже в том случае, если
какая-то ячейка пуста. Также в ходе наших манипуляций с данными книги
с отсутствующей информацией постепенно отсеиваются: после
выполнения 4 и 7 пунктов база сокращается в общей сложности на 1000
произведений, а применяемый нами алгоритм определения рейтинга
позволяет отсеять книги с отсутствующими данными. Присутствуют,
впрочем, ошибки кодировки - неправильные названия книг, изданных на
русском, греческом, арабском и прочих языках.

В целях проведения анализа данных на потенциальные выбросы


были посчитаны 1-й и 3-й квартили, затем межквартильный диапазон и,
наконец, верхняя и нижняя границы. Нижняя граница не может быть
меньше 0 для всех переменных (по здравому смыслу).

Первым шагом в поиске значений выбросов статистики является


определение статистического центра диапазона данных. С этой целью
необходимо сначала определить границы первого и третьего квартилей.
Определение границ квартиля – значит разделение данных на 4 равные
группы, которые содержат по 25% данных каждая. Группа, содержащая
25% наибольших значений, называется первым квартилем.

Границы квартилей в Excel можно определить с помощью функции


КВАРТИЛЬ. Данная функция имеет 2 аргумента: диапазон данных и
номер для получения желаемого квартиля. Вычитая от значения первого
квартиля третьего, можно определить набор 50% статистических данных,
который называется межквартильным диапазоном.

Верхняя граница была подсчитана следующим образом: значение


третьего квартиля + межквартильный диапазон * 1,5.

Чтобы выделить цветом для улучшения визуального анализа данных


можно создать простое правило для условного форматирования, что и
было сделано.

3. Рассчитать по «ratings.csv» средний рейтинг для каждой книги (Вставка-


>сводная таблица), округлить до 2-ух знаков после запятой.

По данным из таблицы «ratings.csv» был рассчитан средний рейтинг


для каждой книги. Минимальный рейтинг составил 1,96 у книги с
идентификационным номером 1793, а максимальный рейтинг 4,82 у книги
с идентификационным номером 7947.

4. СЦЕПИТЬ таблицу из п.3 и «books.csv» (функция ВПР(VLOOKUP)).

С помощью команды ВПР(VLOOKUP) были сцеплены две таблицы:


«ratings.csv» и «books.csv. Данные таблицы были сцеплены по колонке
“book_id”. Результатом стало то, что теперь в таблице «books.csv»,
появилась колонка “average_c_rating” посчитанная по другой таблице
«ratings.csv», которая показывает средний рейтинг книги.

5. Рассчитать по «books.csv» средний рейтинг для каждой книги используя


соответствующие переменные, округлить до 2-ух знаков после запятой.

По данным из таблицы «books.csv» был рассчитан средний рейтинг


для каждой книги. Минимальный рейтинг составил 2,47 у книги с
идентификационным номером 1793, а максимальный рейтинг 4,82 у книги
с идентификационным номером 3628.
6. Рассчитать по «to_read.csv» для каждой книги количество
пользователей, сделавших пометку о желании прочесть данную книгу
(Вставка->сводная таблица).

По данным из таблицы «to_read.csv» было рассчитано для каждой


книги количество пользователей, сделавших пометку о желании прочесть
данную книгу. Минимальное количество, желающих прочесть книгу,
составило 1 для 44 книг, а максимальное количество, желающих прочесть
книгу, составило 3689 для книги с идентификационным номером 1.

7. СЦЕПИТЬ таблицу из п.6 и «books.csv» (функция


ВПР(VLOOKUP)).

С помощью команды ВПР(VLOOKUP) были сцеплены две таблицы:


«to_read.csv» и «books.csv. Данные таблицы были сцеплены по колонке
“book_id”. Результатом стало то, что теперь в таблице «books.csv»,
появилась колонка “user_lists” посчитанная по другой таблице
«to_read.csv», которая показывает количество пользователей, сделавших
пометку о желании прочесть данную книгу.

8. В отдельной ячейке рассчитать по «books.csv» средний год


публикации, округлить до целого числа.

Средний год публикации - 1982, что свидетельствует о большом


количестве произведений, созданных в двадцатом веке.

9. Вычислить количество книг, которые:

а) написаны на английском (eng) или русском языке (rus)

На британском английском написано 5629 книг. На русском - всего


одна, из-за ошибок кодировки она числится в базе под названием
Горе РѕС‚ СѓРјР°. На деле это “Горе от ума” Грибоедова.

б) имеют средний рейтинг выше 4.0

Зависит от того, какой рейтинг использовать - если применять


изначально имеющийся в базе рейтинг, то таких книг будет 4551. Если
применять рассчитанный нами в пункте 5 средний рейтинг, то книг будет
2848.

в) изданы не раньше среднего года публикации, рассчитанного в п.8


(с обязательной ссылкой на ячейку в условии)

Таких книг 7319 - т.е. подавляющее большинство из 8977 книг в


скомбинированном датасете.
г) хотят прочитать более 1000 человек (функция
СЧЁТЕСЛИ(COUNTIF))

Подобных книг всего 109.

д) одновременно удовлетворяют пунктам а-г (функция


СЧЁТЕСЛИМН(COUNTIFS)).

Подобных книг 42. Если использовать посчитанный нами рейтинг,


то их окажется всего 20.

10. Вычислить количество книг, которые написаны на русском языке


(rus) или изданы после 2010 года.

Подобных книг 2342 (2341 книг, выпущенных после 2010, и одна


книга на русском 1825 года)

11. Придумать, обосновать и реализовать алгоритм «Как бы Вы


выбирали топ 10 книг».

Очевидно, что датасет отражает не столько объективизированную


оценку произведений, сколько их “трендовость”, зафиксированную
интернет-сервисами (так в топе оказались популярные “Дивергент” и
“Голодные игры”). При этом книга может не иметь высокой оценки и быть
достаточно старой, но оставаться “на слуху” у многих читателей из-за
недавней адаптации или экранизации (у “Великого Гэтсби” около двух
миллионов оценок).

Для поиска оптимального алгоритма мы обратились к тематическим


интернет-ресурсам. В частности, нас заинтересовало, по какой логике
составляется рейтинг фильмов Кинопоиска, где аналогично учитывается
количество голосов и рейтинг, но с поправкой на усредненное значение
для всей базы произведений.

Этот же механизм оценки используется на западном IMDb и (с


некоторыми модификациями) в отечественной книжной базе
“Лаборатория Фантастики”. Суть в том, что сперва находится суммарное
значение всех оценок, а после оно складывается с долей голосов за фильм
в общем пуле голосов, умноженной на средний рейтинг. При этом
показатель M определяет порог числа рецензий.

Рейтинги интернет-сервисов не учитывают соотношения


развернутых текстовых рецензий (а такой показатель мы как раз имеем) к
обычным оценкам. Однако в базе данных много книг, у которых огромное
соотношение числа текстовых рецензий к общему числу (к примеру,
графические романы).
Поэтому сперва при помощи FILTER отберем книги с количеством оценок
не менее 250 000. Затем применим формулу

Rating = Average Calculated Rating - Average Review Rating * (Regular


Reviews / Total Reviews) + Total Mean Rating

Логика применения данного алгоритма следующая: книги


сортируются по вычисленному нами среднему рейтингу, после чего
делается поправка на соотношение числа “неаргументированных”
рецензий к общему числу оценок. На последнем шаге прибавляется общий
средний рейтинг исключительно для того, чтобы значения коэффициента
были ненулевыми.

Результат:

Authors Year Title Rating


William Shakespeare, An Excellent conceited Tragedie of Romeo and
Robert Jackson 1595 Juliet 3,997692507
William Golding 1954 Lord of the Flies 3,948583609
Amy Tan 1989 The Joy Luck Club 3,862445285
Louis Sachar, Louis
Sachar 1998 Holes 3,858924624
Gail Carson Levine 1997 Ella Enchanted 3,851678658
Anne Frank, Eleanor
Roosevelt, B.M. Het Achterhuis: Dagboekbrieven 14 juni 1942 - 1
Mooyaart-Doubleday 1947 augustus 1944 3,851601121
Harper Lee 1960 To Kill a Mockingbird 3,850347586
Shel Silverstein 1981 A Light in the Attic 3,812380746
John Steinbeck 1937 Of Mice and Men 3,805225743
Jon Krakauer 1996 Into the Wild 3,801688352
Homer, Robert Fagles,
E.V. Rieu -720 Ὀδύσσεια 3,784342098
Dr. Seuss 1960 Green Eggs and Ham 3,755878262
Mark Twain, John
Seelye, Guy Cardwell 1884 The Adventures of Huckleberry Finn 3,749138957
Dr. Seuss 1957 The Cat in the Hat 3,747477148
William Goldman 1973 The Princess Bride 3,740521487
Louisa May Alcott 1868 Little Women 3,735585434
J.D. Salinger 1951 The Catcher in the Rye 3,727681315
Truman Capote 1965 In Cold Blood 3,725099017
William Shakespeare 1606 The Tragedy of Macbeth 3,723973921
Sue Monk Kidd 2001 The Secret Life of Bees 3,716512424

У алгоритма есть некоторые недостатки: так, в список наряду с


серьезными произведениями попали популярные детские книги,
например, произведения доктора Сьюза. Но в целом можно рассматривать
такой механизм отбора книг как рабочий, пусть и не идеальный - нам
удалось нивелировать влияние трендов на оценивание произведений, а
присутствие в списке известных произведений Шекспира, Марка Твена и
Гомера является логичным.