Вы находитесь на странице: 1из 19

Bike4Life

Google map + duolingo + coins

TEAM
Solution

Our application Bike4Life

01 02 03

Integrates
Less traffic companies of Attracts
jam bike renting with the users
other companies
that offers
services
Our focus – attract users!
How?

Gamification! Missions

Discounts! Rankings!
Technologies is integrative!

1 ANDROID
FLUTTER 2 IOS
Обоснование актуальности

1
В настоящее время применение технологий
машинного обучения в сфере здравоохранения
стремительно набирает популярность. Особенно
заметно это в задачах по обнаружению опухолей
или других болезней, секвенирования ДНК, а
также анализ фармацевтических продуктов. В
мире существует множество всевозможных
лекарственных препаратов для лечения
соответствующих болезней, и с каждым днём их
количество растет. Люди вынуждены тратить 2
огромное количество времени на поиск
подходящего лекарства, просматривая
соответствующие отзывы и оценки других людей.
В данном случае методы машинного обучения
позволят автоматизировать этот процесс и
значительно сэкономить время при помощи
анализа набора данных о препаратах.
Функциональное моделирование предметной области.
Контекстная диаграмма

Управление
«Требования к точности» и Выходная информация
«Системные требования»
Полученная таблица с
рекомендациями и графики с
данными о препаратах

Входная
информация
Таблица с обзорами на
препараты
Механизмы
Интерактивная среда Jupyter
Notebook, Библиотеки Python
и Вычислительное
устройство», выполняющие
основную работу
Функциональное моделирование предметной области.
Декомпозиция
Структура входных данных

• uniqueID – уникальный Структура данных такова, что пациент с


идентификационный номер препарата; уникальным идентификатором покупает
• drugName – название препарата; лекарство, которое соответствует его
• condition – название болезни; состоянию (болезни), пишет обзор и ставит
• review – отзыв пациента; оценку лекарству. Впоследствии, при
• raiting – оценка пациента по 10-ти бальной обращении других пользователей к данному
шкале; обзору к соответствующей переменной
• date – дата написания отзыва; добавится единица. Входные данные,
• usefulCount – полезность отзыва. берутся с сайта «UCI Machine Learning
Repository» и находятся в открытом доступе.
Выходные данные
Обзор технических средств

Spyder
Интерактивная среда разработки.
возможность переключаться между
1
проводником файлов, проводником
переменных, консолью Ipython и окном
справки на одном экране.

Python 3.7
Содержит множество различных 2
репозиториев с открытым исходным
кодом.

Необходимые библиотеки
Для использования их необходимо 3
импортировать, а библиотеки, не
входящие в состав Anaconda –
установить.
Предобработка текстового отзыва

Удаление HTML-тегов. Замена


A пробелом знаков препинания и
цифр

B Нижний регистр

Удалить Стоп-слова. Они


2 C не несут никакой
смысловой нагрузки

Стемминг слов. Это процесс


D нахождения основы слова для
заданного исходного слова
Настроение обзора

Добавляем бинарный признак


A настроения обзора для каждой
строки в наборе данных
Объект модели – то, для
B чего нужно делать
предсказание

2 C Ответ – это то, что нужно


предсказать

Объект – обработанный текст


D обзора, ответ – настроение обзора
Векторизация отзыва

Словарь содержит 20000 самых


ТОКЕНЫ A часто встречающихся четверок слов

Отзыв представляет собой массив


B количества вхождений токенов из
словаря
Архитектура нейронной сети
Прогноз нейронной сети от 0 до Многослойный персептрон называют нейронные сети
1, так как функция активации A прямого распространения. Входной сигнал в таких сетях
распространяется в прямом направлении, от слоя к слою.
сигмоида
Размер входных данных на входном слое
20000
20000
B равен 20000, так как он соответствует
размеру отзывов

20000
300

300
100

100
1
Повышение точности окончательного предсказания.
Градиентный бустинг.

Больше признаков Модель на основе


градиентного бустинга
Прогноз второй модели –
вероятность принадлежности
1 2 к первому классу

Количество слов и Размер шага – 0.1, глубина


символов в отзыве, каждого, 10000 деревьев,
количество 0, 9 процентов, используемых на
дерево (Низкое значение может
уникальных слов, привести к недообучению), L1 L2
количество стоп- регуляризация
слов, а также
средняя длина слов,
полярность отзывов.
Получение окончательного предсказания

Нормализация признака
useful_count

Итоговое предсказание =
(предсказание1 +предсказание2)*
useful_Count
Выводы
Проведен графический анализ всех входных
данных. На основе выводов данного анализа
проведена предобработка входных данных с
целью удаления объектов c различными
ошибками.

Построена модель на основе нейронной.


Нормализован необходимый признак. В итоге
получено итоговое предсказание. Теперь можно
рекомендовать препарат по состоянию в порядке
окончательного прогнозируемого значения.

Данная система дает


возможность Предлагаемая система будет
значительно интересна как медицинским
сократить время на организациям, так и иным.
поиски нужного
лекарства, особенно в
случаях, когда
препарат требуется в
кратчайшие сроки.
Спасибо за внимание!