Академический Документы
Профессиональный Документы
Культура Документы
Анализ диалогов в телеграмме
Анализ диалогов в телеграмме
в телеграмме
март 2022
Порядок выполнения работы
01 02 03
Выгрузка данных и Построение моделей, Обработка результатов,
их первичная анализ зависимостей, реализация примера
обработка визуализация монетизации
результатов
▪ Выгрузка данных из ▪ Построение модели
телеграмма временных рядов
▪ Подсчет числа ▪ Анализ результата и
сообщений в день, статистической
обработка текста, информации на графиках
подсчет статистических prophet, seaborm,
данных matpoltlib и pandas
Данные
Выгрузка данных
Пора
разобраться
массив слов
Как создать веса tf-idf?
TF-IDF (от англ. term frequency и inverse document frequency — частота слова и обратная частота
документа) — это показатель, который используется для оценки важности слова в документе.
TF (частота слов) характеризует отношение числа вхождений конкретного слова к общему набору слов в
документе. Чем выше TF, тем весомее конкретное слово в рамках документа.
IDF (обратная частота документа) характеризует инверсию частотности, с которой конкретное слово
используется в тексте. С помощью этой метрики можно снизить важность слов — например, союзов или
предлогов.
общее число слов в данном документе число документов в коллекции где встречается данное слово
prophet
модель прогнозирования временных рядов prophet
Методология
Данные
Prophet очень удобна нет, что работает с данными в формате pandas dataframe. Требуется лишь создать
столбец дат под названием ds и столбец значений, которые будем предсказывать, с названием y.
модель прогнозирования временных рядов prophet
У prophet есть возможность учитывать множество параметров (годовую/месячную/недельную сезонность,
праздники, сторонние факторы и т.д.).
известные + предсказанные
значения
модель прогнозирования временных рядов prophet
Мы можем посмотреть из чего складывалось наше предсказание, например здесь я вывела график общения
по дням недели для моей переписки с мамой, примечательно, что в выходные дни наше с ней общение
практически на нуле :)
Кол-во
сообщений
каждого Топ слов по
пользователя частоте
Сравнение по
отправленным
Общение медиа файлам
пример монетизации
проекта
какие этапы?
Предоставлен
Сбор информации Визуализация
ие заказчиком
от желающих анализа в
данных (в
проанализировать “понятном” и
данном случае
диалог интересном
переписки)
виде