Академический Документы
Профессиональный Документы
Культура Документы
DATA SCIENCE
TP combiné : 4 et 5 & 6
➢ TP 4 : Exercice Pratique : Analyse Exploratoire du dernier DataSet du Pandémie
COVID-19 (CORONA-VIRUS) (Source : WHO, Date : 09-03-2020).
➢ TP 5 & 6 : Les Algorithmes d'Apprentissage Machine.
Le 31 décembre 2019, l’Organisation mondiale de la Santé (OMS) a été alertée de plusieurs cas
de pneumonie dans la ville de Wuhan, province du Hubei en Chine. Le virus ne correspond à
aucun autre virus connu. Cela a soulevé des inquiétudes car lorsqu'un virus est nouveau, nous
ne savons pas comment il affecte les gens.
Coronavirus (COVID-19) est un virus identifié comme la cause d'une pandémie de maladie
respiratoire détectée pour la première fois à Wuhan, en Chine. Au début, de nombreux patients
de l'épidémie de Wuhan, en Chine, auraient eu un lien avec un grand marché de fruits de mer
et d'animaux, suggérant une propagation de l'animal à la personne. Cependant, un nombre
croissant de patients n'auraient pas été exposés aux marchés aux animaux, ce qui indique une
propagation de personne à personne. (Source CDC : Centres pour le contrôle et la prévention
des maladies, États-Unis).
Les coronavirus sont zoonotiques, ce qui signifie qu'ils sont transmis entre les animaux et les
humains. Les signes d'infection courants comprennent les symptômes respiratoires, la fièvre, la
toux, l'essoufflement et les difficultés respiratoires. Dans les cas plus graves, l'infection peut
provoquer une pneumonie, un syndrome respiratoire aigu sévère, une insuffisance rénale et
même la mort. (Source WHO : L'Organisation mondiale de la santé)
Les données de cet exercice contiennent les derniers chiffres concernant le nombre de cas, de
décès et de rétablissement jusqu’à 09 Mars 2020. L'ensemble de données contient les colonnes
suivantes :
Last Update : Heure en UTC à laquelle la ligne est mise à jour pour la province ou le comté
donné.
Travail à faire : Réaliser une analyse exploratoire simple, en utilisant des plots, de ce dataset
concernant le Corona Virus.
Ce type d’algorithme consiste en une variable cible / résultat (ou variable dépendante) qui doit
être prédite à partir d'un ensemble donné de prédicteurs (variables indépendantes). En utilisant
cet ensemble de variables, nous générons une fonction qui mappe les entrées aux sorties
souhaitées. Le processus d’entrainement se poursuit jusqu'à ce que le modèle atteigne le niveau
de précision souhaité sur les données d’entrainement.
Dans cet algorithme, nous n'avons pas de variable cible ou de résultat à prévoir / estimer. Il est
utilisé pour regrouper la population en différents groupes, ce qui est largement utilisé pour
segmenter les clients en différents groupes pour une intervention spécifique.
À l'aide de cet algorithme, la machine est entrainée pour prendre des décisions spécifiques. Il
fonctionne de cette façon : la machine est exposée à un environnement où elle s'entraîne
continuellement à l'aide d'essais et d'erreurs. Cette machine apprend de l'expérience passée et
essaie de capturer les meilleures connaissances possibles pour prendre des décisions précises.
Voici une liste des algorithmes d'apprentissage machine couramment utilisés. Ces algorithmes
peuvent être appliqués à presque tous les problèmes de données :
- Régression linéaire
- Régression logistique
- Arbre de décision
- Bayes Naive
- kNN
- K-Means
- Forêt aléatoire
- Réduction de dimensionnalité
- Renforcement de gradient :
o GBM
o XGBoost
o LightGBM
o CatBoost
6. Régression linéaire
Il est utilisé pour estimer les valeurs réelles (coût des maisons, nombre d'appels, ventes totales,
etc.) en fonction de variable (s) continue (s). Ici, nous établissons une relation entre les variables
indépendantes et dépendantes en ajustant une meilleure ligne. Cette ligne de meilleur
ajustement est connue sous le nom de ligne de régression et représentée par une équation
linéaire Y = a * X + b.
# Identifiez les variables d'entité et de réponse. Les valeurs doivent être des tab
leaux numériques
x <- cbind(x_train,y_train)
summary(linear)
# Prédire la sortie
predicted= predict(linear,x_test)