Вы находитесь на странице: 1из 2

Предобработка данных

Синтаксис
Метод set_axis() для изменения названий столбцов
In df.set_axis(['a','b','c'],axis = 'columns',inplace = True)

# аргументы - список новых названий столбцов,


# axis со значением columns для изменений в столбцах,
# inplace со значением True для изменения структуры данных

Методы isnull() и isna() для определения Метод dropna() для удаления


пропущенных значений пропущенных значений
In df.isnull() In df.dropna()
df.isna() # удаление всех строк, где есть
# хотя бы одно пропущенное значение
# В сочетании с методом sum() —
# подсчёт пропущенных значений In df.dropna(subset = ['a','b','c'],
df.isnull().sum() inplace = True)
df.isna().sum() # аргумент subset - названия столбцов,
# где нужно искать пропуски
Метод fillna() для заполнения In df.dropna(axis = 'columns',
пропущенных значений
inplace = True)
In df = df.fillna(0) # аргумент axis со значением 'columns'
# аргумент - значение, на которое # для удаления столбцов с хотя бы
# будут заменены пропущенные значения # одним пропущенным значением

Метод duplicated() для нахождения дубликатов Метод drop_duplicates() для удаления дубликатов
In df.duplicated() In df.drop_duplicates().reset_index(drop
= True)
# В сочетании с методом sum() - # аргумент drop со значением True,
# возвращает количество дубликатов # чтобы не создавать столбец со
df.duplicated().sum() # старыми значениями индексов

'''
Метод unique() для просмотра всех При вызове метода drop_duplicates()
уникальных значений в столбце вместе с повторяющимися строками
In df['column'].unique() удаляются их индексы, поэтому
используется с методом reset_index()
'''

Метод replace() для замены значений в таблице или столбце


In df.replace('first_value', 'second_value')

# первый аргумент - текущее значение


# второй аргумент - новое значение
Словарь
Предобработка Пропущенные значения бывают разные:
Процесс подготовки данных для дальнейшего
анализа. Его суть заключается в поиске и устранении • чаще всего это None или NaN
возможных ”проблем” в данных
• плейсхолдеры (тексты-заполнители) какого-то
общепринятого стандарта, иногда неизвестного
GIGO (от англ. garbage in — garbage out, буквально
вам, но которого придерживаются составители.
«мусор на входе — мусор на выходе»)
Чаще всего это n/a, na, NA, и N.N. либо NN
Принцип, утверждающий, что при неверных входных
данных даже правильный алгоритм анализа выдаёт • произвольное значение, которое по договорённости
неверные результаты между собой используют создатели исходной
таблицы данных
Таблица, удобная для анализа данных:
Пропущенные значения можно как удалять,
• в каждом столбце хранятся значения так и заполнять на основе известных данных:
одной переменной
• плюс удаления данных в том, что это простой
• каждая строка содержит одно наблюдение, процесс. Также можно быть уверенным,
к которому привязаны значения что те данные, которые остались, хорошие и
разных переменных отвечают всем требованиям. Потенциальные
минусы: потеря важной информации и снижение
Названия столбцов: точности
• без пробелов в начале, середине и конце • заполнение позволяет сохранить наибольшее
количество данных. Очевидный минус — могут
• несколько слов разделяются
получиться плохие результаты на основе уже
нижним подчеркиваем
существующих данных
• на одном языке и в одном регистре
Дубликаты (дублированные записи)
• отражают в краткой форме, какого рода могут быть следующего вида:
информация содержится в каждом столбце
• две и более одинаковых строки с идентичной
информацией. Большое количество повторов
раздувает размер таблицы, а значит, увеличивает
время обработки данных
• одинаковые по смыслу категории с разными
названиями, например, «Политика» и «Политическая
ситуация». Замаскированные повторы —
источник серьёзных и с трудом обнаруживаемых
ошибок в анализе

Вам также может понравиться