Вы находитесь на странице: 1из 25

REGRESSION MODEL

Regression techniques are one of the most popular statistical techniques used for
predictive modeling and data mining tasks. On average, analytics professionals
know only 2-3 types of regression which are commonly used in real world. They
are linear and logistic regression. But the fact is there are more than 10 types of
regression algorithms designed for various types of analysis. Each type has its own
significance. Every analyst must know which form of regression to use depending
on type of data and distribution.
Методы регрессии являются одним из наиболее популярных статистических
методов, используемых для прогнозного моделирования и задач
интеллектуального анализа данных. В среднем специалисты по аналитике
знают только 2-3 типа регрессии, которые обычно используются в реальном
мире. Они представляют собой линейную и логистическую регрессию. Но
дело в том, что существует более 10 типов алгоритмов регрессии,
предназначенных для различных типов анализа. Каждый тип имеет свое
собственное значение. Каждый аналитик должен знать, какую форму
регрессии использовать в зависимости от типа данных и распределения.

In statistical modeling, regression analysis is a set of statistical processes


for estimating the relationships between a dependent variable (often called the
'outcome variable') and one or more independent variables (often called
'predictors', 'covariates', or 'features'). The most common form of regression
analysis is linear regression, in which one finds the line (or a more complex linear
combination) that most closely fits the data according to a specific mathematical
criterion. For example, the method of ordinary least squares computes the unique
line (or hyperplane) that minimizes the sum of squared differences between the
true data and that line (or hyperplane). For specific mathematical reasons
(see linear regression), this allows the researcher to estimate the conditional
expectation (or population average value) of the dependent variable when the
independent variables take on a given set of values. Less common forms of
regression use slightly different procedures to estimate alternative location
parameters (e.g., quantile regression or Necessary Condition Analysis[1]) or
estimate the conditional expectation across a broader collection of non-linear
models (e.g., nonparametric regression).

лировании регрессионный анализ представляет собой набор статистических


процессов для оценки взаимосвязей между зависимой переменной (часто
называемой "переменной результата") и одной или несколькими
независимыми переменными (часто называемыми "предикторами",
"ковариатами" или "признаками"). Наиболее распространенной формой
регрессионного анализа является линейная регрессия, при которой можно
найти линию (или более сложную линейную комбинацию), которая наиболее
точно соответствует данным в соответствии с определенным математическим
критерием. Например, метод обычных наименьших квадратов вычисляет
уникальную линию (или гиперплоскость), которая минимизирует сумму
квадратов различий между истинными данными и этой линией (или
гиперплоскостью). По определенным математическим причинам (см.
линейная регрессия) это позволяет исследователю оценить условное
математическое ожидание (или среднее значение по населению) зависимой
переменной, когда независимые переменные принимают заданный набор
значений. Менее распространенные формы регрессии используют несколько
иные процедуры для оценки альтернативных параметров местоположения
(например, квантильная регрессия или Анализ необходимых условий[1]) или
оценки условного ожидания в более широком наборе нелинейных моделей
(например, непараметрическая регрессия).
Regression analysis is primarily used for two conceptually distinct purposes. First,
regression analysis is widely used for prediction and forecasting, where its use has
substantial overlap with the field of machine learning. Second, in some situations
regression analysis can be used to infer causal relationships between the
independent and dependent variables. Importantly, regressions by themselves only
reveal relationships between a dependent variable and a collection of independent
variables in a fixed dataset. To use regressions for prediction or to infer causal
relationships, respectively, a researcher must carefully justify why existing
relationships have predictive power for a new context or why a relationship
between two variables has a causal interpretation. The latter is especially important
when researchers hope to estimate causal relationships using observational data.

Регрессионный анализ в основном используется для двух концептуально


различных целей. Во - первых, регрессионный анализ широко используется
для прогнозирования и прогнозирования, где его использование существенно
пересекается с областью машинного обучения. Во-вторых, в некоторых
ситуациях регрессионный анализ может быть использован для установления
причинно-следственных связей между независимыми и зависимыми
переменными. Важно отметить, что регрессии сами по себе выявляют только
взаимосвязи между зависимой переменной и набором независимых
переменных в фиксированном наборе данных. Чтобы использовать регрессии
для прогнозирования или для вывода причинно-следственных связей,
соответственно, исследователь должен тщательно обосновать, почему
существующие связи обладают предсказательной силой для нового контекста
или почему связь между двумя переменными имеет причинно-следственную
интерпретацию. Последнее особенно важно, когда исследователи надеются
оценить причинно-следственные связи, используя данные наблюдений.
Lets take a simple example : Suppose your manager asked you to predict annual
sales. There can be a hundred of factors (drivers) that affects sales. In this case,
sales is your dependent variable. Factors affecting sales are independent
variables. Regression analysis would help you to solve this problem.

In simple words, regression analysis is used to model the relationship between a


dependent variable and one or more independent variables.
It helps us to answer the following questions -

1. Which of the drivers have a significant impact on sales


2. Which is the most important driver of sales
3. How do the drivers interact with each other
4. What would be the annual sales next year.

Types of Regression
Every regression technique has some assumptions attached to it which we need to
meet before running analysis. These techniques differ in terms of type of
dependent and independent variables and distribution.

1. Linear Regression
It is the simplest form of regression. It is a technique in which the dependent
variable is continuous in nature. The relationship between the dependent variable
and independent variables is assumed to be linear in nature.We can observe that
the given plot represents a somehow linear relationship between the mileage and
displacement of cars. The green points are the actual observations while the black
line fitted is the line of regression
When you have only 1 independent variable and 1 dependent variable, it is called
simple linear regression.
When you have more than 1 independent variable and 1 dependent variable, it is
called Multiple linear regression.
Assumptions of linear regression:
1. There must be a linear relation between independent and dependent
variables.
2. There should not be any outliers present.
3. No heteroscedasticity
4. Sample observations should be independent.
5. Error terms should be normally distributed with mean 0 and constant
variance.
6. Absence of multicollinearity and auto-correlation.
К каждой регрессионной методике прилагаются некоторые допущения, с
которыми нам необходимо ознакомиться перед проведением анализа. Эти
методы различаются с точки зрения типа зависимых и независимых
переменных и распределения.

1. Линейная регрессия

Это самая простая форма регрессии. Это метод, в котором зависимая


переменная носит непрерывный характер. Предполагается, что связь между
зависимой переменной и независимыми переменными носит линейный
характер.Мы можем наблюдать, что данный график представляет собой
некоторую линейную зависимость между пробегом и перемещением
автомобилей. Зеленые точки-это фактические наблюдения, в то время как
черная линия-это линия регрессии

Когда у вас есть только 1 независимая переменная и 1 зависимая переменная,


это называется простой линейной регрессией.

Когда у вас более 1 независимой переменной и 1 зависимой переменной, это


называется множественной линейной регрессией.

Допущения линейной регрессии:

1. Должна существовать линейная связь между независимыми и зависимыми


переменными.

2. Не должно быть никаких выбросов.

3. Отсутствие гетероскедастичности

4. Выборочные наблюдения должны быть независимыми.

5. Условия ошибки должны быть нормально распределены со средним


значением 0 и постоянной дисперсией.

6. Отсутствие мультиколлинеарности и автокорреляции.

Interpretation of regression coefficients


Let us consider an example where the dependent variable is marks obtained by a
student and explanatory variables are number of hours studied and no. of classes
attended. Suppose on fitting linear regression we got the linear regression as:

Marks obtained = 5 + 2 (no. of hours studied) + 0.5(no. of classes attended)


Thus we can have the regression coefficients 2 and 0.5 which can interpreted as:

1. If no. of hours studied and no. of classes are 0 then the student will
obtain 5 marks.
2. Keeping no. of classes attended constant, if student studies for one
hour more then he will score 2 more marks in the examination.
3. Similarly keeping no. of hours studied constant, if student attends one
more class then he will attain 0.5 marks more.

Linear Regression in R
We consider the swiss data set for carrying out linear regression in R. We use lm()
function in the base package. We try to estimate Fertility with the help of other
variables.

library(datasets)
model = lm(Fertility ~ .,data = swiss)
lm_coeff = model$coefficients
lm_coeff
summary(model)

 Polynomial Regression
It is a technique to fit a nonlinear equation by taking polynomial functions of
independent variable.
In the figure given below, you can see the red curve fits the data better than the
green curve. Hence in the situations where the relation between the dependent and
independent variable seems to be non-linear we can deploy Polynomial
Regression Models.

Polynomial regression in R:

We are using poly.csv data for fitting polynomial regression where we try to


estimate the Prices of the house given their area.
Firstly we read the data using read.csv( )and divide it into the dependent and
independent variable
data = read.csv("poly.csv")
x = data$Area
y = data$Price
In order to compare the results of linear and polynomial regression, firstly we fit
linear regression:

model1 = lm(y ~x)


model1$fit
model1$coeff

Logistic regression is the appropriate regression analysis to conduct when the


dependent variable is dichotomous (binary). Like all regression analyses, the
logistic regression is a predictive analysis. Logistic regression is used to describe
data and to explain the relationship between one dependent binary variable and one
or more nominal, ordinal, interval or ratio-level independent variables.

Sometimes logistic regressions are difficult to interpret; the Intellectus Statistics


tool easily allows you to conduct the analysis, then in plain English interprets the
output.
Логистическая регрессия-это подходящий регрессионный анализ, который
следует проводить, когда зависимая переменная является дихотомической
(двоичной). Как и все регрессионные анализы, логистическая регрессия
является прогностическим анализом. Логистическая регрессия используется
для описания данных и объяснения взаимосвязи между одной зависимой
двоичной переменной и одной или несколькими номинальными,
порядковыми, интервальными или независимыми переменными на уровне
отношений.

Иногда логистические регрессии трудно интерпретировать; инструмент


статистики Intellectus легко позволяет вам провести анализ, а затем на
простом английском языке интерпретирует выходные данные.

Here my model is:


logistic regression equation

Why don't we use linear regression in this case?


 Homoscedasticity assumption is violated.
 Errors are not normally distributed
 y follows binomial distribution and hence is not normal.

Examples
 HR Analytics : IT firms recruit large number of people, but one of
the problems they encounter is after accepting the job offer many
candidates do not join. So, this results in cost over-runs because they
have to repeat the entire process again. Now when you get an
application, can you actually predict whether that applicant is likely to
join the organization (Binary Outcome - Join / Not Join).

 Elections : Suppose that we are interested in the factors that influence


whether a political candidate wins an election. The outcome
(response) variable is binary (0/1); win or lose. The predictor
variables of interest are the amount of money spent on the campaign
and the amount of time spent campaigning negatively.

Lasso Regression

Lasso stands for Least Absolute Shrinkage and Selection Operator. It makes


use of L1 regularization technique in the objective function. Thus the objective
function in LASSO regression becomes:

λ is the regularization parameter and the intercept term is not regularized. We do


not assume that the error terms are normally distributed.
For the estimates we don't have any specific mathematical formula but we can
obtain the estimates using some statistical software.
Partial Least Squares (PLS) Regression

It is an alternative technique of principal component regression when you have


independent variables highly correlated. It is also useful when there are a large
number of independent variables.

Difference between PLS and PCR


Both techniques create new independent variables called components which are
linear combinations of the original predictor variables but PCR creates
components to explain the observed variability in the predictor variables, without
considering the response variable at all. While PLS takes the dependent variable
into account, and therefore often leads to models that are able to fit the dependent
variable with fewer components.

 Support Vector Regression


Support vector regression can solve both linear and non-linear models. SVM uses
non-linear kernel functions (such as polynomial) to find the optimal solution for
non-linear models.

The main idea of SVR is to minimize error, individualizing the hyperplane which
maximizes the margin.

Ordinal Regression

Ordinal Regression is used to predict ranked values. In simple words, this type of
regression is suitable when dependent variable is ordinal in nature. Example of
ordinal variables - Survey responses (1 to 6 scale), patient reaction to drug dose
(none, mild, severe).

Why we can't use linear regression when dealing with ordinal target variable?

In linear regression, the dependent variable assumes that changes in the level of the
dependent variable are equivalent throughout the range of the variable. For
example, the difference in weight between a person who is 100 kg and a person
who is 120 kg is 20kg, which has the same meaning as the difference in weight
between a person who is 150 kg and a person who is 170 kg. These relationships
do not necessarily hold for ordinal variables.
How to choose the correct regression model?
1. If dependent variable is continuous and model is suffering from
collinearity or there are a lot of independent variables, you can try
PCR, PLS, ridge, lasso and elastic net regressions. You can select the
final model based on Adjusted r-square, RMSE, AIC and BIC.
2. If you are working on count data, you should try poisson, quasi-
poisson and negative binomial regression.
3. To avoid overfitting, we can use cross-validation method to evaluate
models used for prediction. We can also use ridge, lasso and elastic
net regressions techniques to correct overfitting issue.
4. Try support vector regression when you have non-linear model.

TEST AND TRAINING


  
Why model accuracy is so important

The one thing true for all machine learning methods, whether it is a decision tree or deep learning: you
want to know how well your model will perform. You do this by measuring its accuracy.

Why? First of all, because measuring a model’s accuracy can guide you to select the best-performing
algorithm for it and fine-tune its parameters so that your model becomes more accurate.

But most importantly, you will need to know how well the model performs before you use it in
production.

If your application requires the model to be correct for more than 90% of all predictions but it only
delivers correct predictions 80% of the time, you might not want the model to go into production at all.
  
Training error vs test error

There are two important concepts used in machine learning: the training error and the test error.

Training Error: We get the by calculating the classification error of a model on the same data the model
was trained on (just like the example above).
Test Error: We get this by using two completely disjoint datasets: one to train the model and the other to
calculate the classification error. Both datasets need to have values for y. The first dataset is called
training data and the second, test data.
Examples of training and test error

Let’s walk through an example of each. We will use the data science platform RapidMiner Studio to
illustrate how the calculations and validations are actually performed. You can download RapidMiner
Studio for free and follow along with these examples if you like.
Ошибка обучения против ошибки теста

В машинном обучении используются две важные концепции: ошибка обучения и ошибка


тестирования.

Ошибка обучения: Мы получаем, вычисляя ошибку классификации модели на тех же данных, на


которых была обучена модель (точно так же, как в примере выше).

Ошибка теста: Мы получаем это, используя два совершенно непересекающихся набора данных:
один для обучения модели, а другой для вычисления ошибки классификации. Оба набора данных
должны иметь значения для y. Первый набор данных называется обучающими данными, а
второй-тестовыми данными.

Примеры ошибок при обучении и тестировании

Давайте рассмотрим пример каждого из них. Мы будем использовать платформу обработки


данных RapidMiner Studio, чтобы проиллюстрировать, как на самом деле выполняются
вычисления и проверки. Вы можете бесплатно скачать RapidMiner Studio и, если хотите,
следовать этим примерам
  
In conclusion, there are a few things I hope that you’ll take away from this article including:

In machine learning, training a predictive model means finding a function which maps a set of values x
to a value y
We can calculate how well a predictive model is doing by comparing the predicted values with the true
values for y
If we apply the model to the data it was trained on, we are calculating the training error
If we calculate the error on data which was unknown in the training phase, we are calculating the test
error
  
It is very important to understand the difference between a training error and a test error.

Remember that the training error is calculated by using the same data for training the model and
calculating its error rate. For calculating the test error, you are using completely disjoint data sets for
both tasks.

В заключение, я надеюсь, что вы уберете из этой статьи несколько вещей, в


том числе:

В машинном обучении обучение прогностической модели означает поиск


функции, которая сопоставляет набор значений x со значением y
Мы можем рассчитать, насколько хорошо работает прогностическая модель,
сравнивая прогнозируемые значения с истинными значениями для y
Если мы применим модель к данным, на которых она была обучена, мы
рассчитаем ошибку обучения
Если мы вычисляем ошибку по данным, которые были неизвестны на этапе
обучения, мы вычисляем ошибку теста

Очень важно понимать разницу между ошибкой обучения и ошибкой теста.

Помните, что ошибка обучения рассчитывается с использованием одних и


тех же данных для обучения модели и расчета ее частоты ошибок. Для
вычисления ошибки теста вы используете совершенно непересекающиеся
наборы данных для обеих задач.

Whenever we discuss model prediction, it’s important to understand


prediction errors (bias and variance). There is a tradeoff between a
model’s ability to minimize bias and variance. Gaining a proper
understanding of these errors would help us not only to build accurate
models but also to avoid the mistake of overfitting and underfitting.

So let’s start with the basics and see how they make difference to our
machine learning Models.

Всякий раз, когда мы обсуждаем прогнозирование модели, важно


понимать ошибки прогнозирования (смещение и дисперсию).
Существует компромисс между способностью модели
минимизировать смещение и дисперсию. Правильное понимание
этих ошибок помогло бы нам не только построить точные модели,
но и избежать ошибок, связанных с переоснащением и
недостаточным оснащением.
Итак, давайте начнем с основ и посмотрим, как они влияют на наши
модели машинного обучения.

What is bias?

Bias is the difference between the average prediction of our model and
the correct value which we are trying to predict. Model with high bias
pays very little attention to the training data and oversimplifies the
model. It always leads to high error on training and test data.

What is variance?

Variance is the variability of model prediction for a given data point or a


value which tells us spread of our data. Model with high variance pays a
lot of attention to training data and does not generalize on the data which
it hasn’t seen before. As a result, such models perform very well on
training data but has high error rates on test data.

Что такое предвзятость?

Смещение-это разница между средним прогнозом нашей модели и


правильным значением, которое мы пытаемся предсказать. Модель
с высоким уклоном уделяет очень мало внимания обучающим
данным и чрезмерно упрощает модель. Это всегда приводит к
высокой ошибке в данных обучения и тестирования.

Что такое дисперсия?

Дисперсия-это изменчивость прогноза модели для данной точки


данных или значения, которое говорит нам о распространении
наших данных. Модель с высокой дисперсией уделяет много
внимания обучающим данным и не обобщает данные, которые она
раньше не видела. В результате такие модели очень хорошо
работают с обучающими данными, но имеют высокую частоту
ошибок в тестовых данных.

Mathematically

Let the variable we are trying to predict as Y and other covariates as X.


We assume there is a relationship between the two such that

Y=f(X) + e

Where e is the error term and it’s normally distributed with a mean of 0.

We will make a model f^(X) of f(X) using linear regression or any other
modeling technique.

So the expected squared error at a point x is

The Err(x) can be further decomposed as

Err(x) is the sum of Bias², variance and the irreducible error.


Irreducible error is the error that can’t be reduced by creating good
models. It is a measure of the amount of noise in our data. Here it is
important to understand that no matter how good we make our model,
our data will have certain amount of noise or irreducible error that can
not be removed.

Bias and variance using bulls-eye diagram

Why is Bias Variance Tradeoff?

If our model is too simple and has very few parameters then it may have
high bias and low variance. On the other hand if our model has large
number of parameters then it’s going to have high variance and low bias.
So we need to find the right/good balance without overfitting and
underfitting the data.

This tradeoff in complexity is why there is a tradeoff between bias and


variance. An algorithm can’t be more complex and less complex at the
same time.

Total Error

To build a good model, we need to find a good balance between bias and
variance such that it minimizes the total error.

Почему разница в смещении является Компромиссом?


Если наша модель слишком проста и имеет очень мало параметров, то она
может иметь высокое смещение и низкую дисперсию. С другой стороны,
если наша модель имеет большое количество параметров, то она будет иметь
высокую дисперсию и низкое смещение. Таким образом, нам нужно найти
правильный/хороший баланс, не переоснащая и не дополнив данные.
Этот компромисс в сложности является причиной того, что существует
компромисс между предвзятостью и дисперсией. Алгоритм не может быть
более сложным и менее сложным одновременно.
Общая Ошибка
Чтобы построить хорошую модель, нам нужно найти хороший баланс между
смещением и дисперсией, чтобы свести к минимуму общую ошибку.

MELLOW CP
Mallows’ Cp is a metric that is used to pick the best regression model among
several different models.
It is calculated as:
Cp = RSSp/S2 – N + 2(P+1)
where:
 RSSp: The residual sum of squares for a model with p predictor
variables
 S2: The residual mean square for the model (estimated by MSE)
 N: The sample size
 P: The number of predictor variables
Mallows’ Cp is used when we have several potential predictor variables that
we’d like to use in a regression model and we’d like to identify the best
model that uses a subset of these predictor variables.
We can identify the “best” regression model by identifying the model with
the lowest Cp value that is less than P+1, where P is the number of predictor
variables in the model.
The following example shows how to use Mallows’ Cp to pick the best
regression model among several potential models.

• RSSp: остаточная сумма квадратов для модели с переменными-предикторами p

• S2: Остаточный средний квадрат для модели (оценивается MSE)

• N: Размер выборки

• P: количество переменных-предикторов
Cp Мэллоуза используется, когда у нас есть несколько потенциальных
переменных-предикторов, которые мы хотели бы использовать в регрессионной
модели, и мы хотели бы определить лучшую модель, которая использует
подмножество этих переменных-предикторов.

Мы можем определить “лучшую” регрессионную модель, определив модель с


наименьшим значением Cp, которое меньше P+1, где P-количество переменных-
предикторов в модели.
В следующем примере показано, как использовать Cp Маллоуза для выбора
наилучшей регрессионной модели среди нескольких потенциальных моделей.
Example: Using Mallows’ Cp to Pick the Best Model
Suppose a professor would like to use hours studied, prep exams taken, and
current GPA as predictor variables in a regression model to predict the score
that a student will receive on the final exam.

 Models that have a Mallows’ Cp value near P+1 are said to have low
bias.
 If every potential model has a high value for Mallows’ Cp, this is an
indication that some important predictor variables are likely missing
from each model.
 If several potential models have low values for Mallow’s Cp, choose
the model with the lowest value as the best model to use.

Also keep in mind that Mallows’ Cp is only one way to measure the quality
of fit of a regression model.

Another commonly used metric is adjusted R-squared, which tells us the


proportion of variance in the response variable that can be explained by the
predictor variables in the model, adjusted for the number of predictor
variables used.

When deciding which regression model is best among a list of several


different models, it’s a good idea to look at both Mallows’ Cp and adjusted
R-squared.

kNN
This algorithm is one of the more simple techniques used in machine
learning. It is a method preferred by many in the industry because of its
ease of use and low calculation time.

What is KNN? KNN is a model that classifies data points based on the
points that are most similar to it. It uses test data to make an “educated
guess” on what an unclassified point should be classified as.

Pros:

 Easy to use.

 Quick calculation time.

 Does not make assumptions about the data.

Cons:

 Accuracy depends on the quality of the data.

 Must find an optimal k value (number of nearest neighbors).

 Poor at classifying data points in a boundary where they can be


classified one way or another.

Этот алгоритм является одним из наиболее простых методов, используемых в


машинном обучении. Этот метод предпочитают многие в отрасли из-за его
простоты в использовании и низкого времени расчета.
Что такое KNN? KNN-это модель, которая классифицирует точки данных на
основе точек, наиболее похожих на нее. Он использует тестовые данные,
чтобы сделать “обоснованное предположение” о том, как следует
классифицировать неклассифицированную точку.
Плюсы:
• Простота в использовании.
• Быстрое время расчета.
• Не делает предположений относительно данных.
Аферы:
• Точность зависит от качества данных.
• Необходимо найти оптимальное значение k (количество ближайших
соседей).
• Плохо классифицирует точки данных в границах, где они могут быть
классифицированы тем или иным способом.

KNN is an algorithm that is considered both non-parametric and an


example of lazy learning. What do these two terms mean exactly?

 Non-parametric means that it makes no assumptions. The model


is made up entirely from the data given to it rather than
assuming its structure is normal.

 Lazy learning means that the algorithm makes no


generalizations. This means that there is little training involved
when using this method. Because of this, all of the training data
is also used in testing when using KNN.

KNN-это алгоритм, который считается как непараметрическим, так и


примером ленивого обучения. Что именно означают эти два термина?
• Непараметрический означает, что он не делает никаких предположений.
Модель полностью составлена из предоставленных ей данных, а не
предполагает, что ее структура является нормальной.
• Ленивое обучение означает, что алгоритм не делает обобщений. Это
означает, что при использовании этого метода требуется небольшая
подготовка. Из-за этого все обучающие данные также используются в
тестировании при использовании KNN.
Where to use KNN
KNN is often used in simple recommendation systems, image
recognition technology, and decision-making models. It is the algorithm
companies like Netflix or Amazon use in order to recommend different
movies to watch or books to buy. Netflix even launched the Netflix Prize
competition, awarding $1 million to the team that created the most
accurate recommendation algorithm!

You might be wondering, “But how do these companies do this?” Well,


these companies will apply KNN on a data set gathered about the movies
you’ve watched or the books you’ve bought on their website. These
companies will then input your available customer data and compare that
to other customers who have watched similar movies or bought similar
books. This data point will then be classified as a certain profile based on
their past using KNN. The movies and books recommended will then
depend on how the algorithm classifies that data point.

Now you know the fundamentals of one of the most basic machine
learning algorithms. It’s a great place to start when first learning to build
models based on different data sets. If you have a data set with a lot of
different points and accurate information, this is a great place to begin
exploring machine learning with KNN.

When looking to begin using this algorithm keep these three points in
mind:

 First, find a data set that will be easy to work with, ideally one
with lots of different points and labeled data.
 Second, figure out which language will be easiest for use to
solve the problem. I am most familiar with using KNN in R, but
Python is also a popular language with machine learning
professionals.

 Third, do your research. It is important to learn the correct


practices for using this algorithm so you are finding the most
accurate results from your data set.

There have been various studies conducted on how this algorithm can be
improved. These studies aim to make it so you can weigh categories
differently in order to make a more accurate classification. The weighting
of these categories varies depending on how the distance is calculated.

In conclusion, this is a fundamental machine learning algorithm that is


dependable for many reasons like ease of use and quick calculation time.
It is a good algorithm to use when beginning to explore the world of
machine learning, but it still has room for improvement and
modification.

HIERARCHIAL STRUCTURE
Hierarchical Linear Modeling is generally used to monitor the determination of the relationship
among a dependent variable (like test scores) and one or more independent variables (like a
student’s background, his previous academic record, etc).

In Hierarchical Linear Modeling, the assumption of the classical regression theory that the
observations of any one individual are not systematically related to the observations related to
any other individual is violated. This assumption is violated because this yields biased estimates
by applying this assumption in classical regression theory.
Hierarchical Linear Modeling is also called the method of multi level modeling. It allows the
researcher working on educational data to systematically ask questions about how policies can
affect a student’s test scores.

Иерархическое линейное моделирование обычно используется для мониторинга


определения взаимосвязи между зависимой переменной (например, результатами тестов)
и одной или несколькими независимыми переменными (например, образование студента,
его предыдущая успеваемость и т.д.).

При Иерархическом линейном моделировании нарушается предположение классической


теории регрессии о том, что наблюдения какого-либо одного индивида систематически не
связаны с наблюдениями, относящимися к какому-либо другому индивиду. Это
предположение нарушается, поскольку оно дает предвзятые оценки, применяя это
предположение в классической теории регрессии.

Иерархическое линейное моделирование также называют методом многоуровневого


моделирования. Это позволяет исследователю, работающему с образовательными
данными, систематически задавать вопросы о том, как политика может повлиять на
результаты тестов учащихся.

The advantage of Hierarchical Linear Modeling is that it allows the researcher to openly examine
the effects on student test scores when the policy relevant variables are used on it (like the class
size, or the introduction of a particular reform etc.).

Hierarchical Linear Modeling is conducted by the researcher in two steps:

In the first step, the researcher must conduct the analyses individually for every school (in the
case of educational data) or some other unit in the system.

The first step can be very well explained with the help of the following example. The student’s
academic scores in science are regressed on a set of student level predictor variables like a
student’s background and a binary variable representing the student’s sex.

In the first step of Hierarchical Linear Modeling, the equation would be expressed
mathematically as the following:

(Science)ij=β0j+β1j(SBG)ij+β2j(Male)ij+eij. β0 would signify the level of performance for each


school under consideration after controlling the SBG (student’s background) and sex. β1 and β2
indicate the extent to which inequalities exist among the student with respect to the two different
variables taken under consideration.
Преимущество иерархического линейного моделирования заключается в том, что оно
позволяет исследователю открыто изучать влияние на результаты тестов учащихся, когда
в нем используются переменные, относящиеся к политике (например, размер класса или
введение конкретной реформы и т. Д.).

Иерархическое линейное моделирование проводится исследователем в два этапа:

На первом этапе исследователь должен провести анализ индивидуально для каждой


школы (в случае образовательных данных) или какого-либо другого подразделения в
системе.

Первый шаг можно очень хорошо объяснить с помощью следующего примера.


Академические баллы студента по естественным наукам регрессируют по набору
переменных-предикторов уровня студента, таких как происхождение студента и двоичная
переменная, представляющая пол студента.

На первом этапе Иерархического линейного моделирования уравнение будет выражено


математически следующим образом:

(Наука)ij=β0j+β1j(SBG)ij+β2j(Мужчина)ij+eij. β0 будет означать уровень успеваемости


для каждой рассматриваемой школы после контроля SBG (образование учащегося) и пола.
β1 и β2 указывают, в какой степени существует неравенство между учащимися в
отношении двух различных рассматриваемых переменных.

In the second step, the regression parameters that are obtained from the first step of Hierarchical
Linear Modeling become the outcome variables of interest.

The second step can be very well explained with the help of the following example. The outcome
variables mean the estimate of the magnitude of consequence of the policy variable. The β0j is
given by the following formula:

β0j = Y00 + Y01(class size)j + Y02 (Discipline)j + U01.

Y01 indicates the expected gain (or loss) in the test score of science due to an average reduction
in the size of the class. Y02 signifies the effect of the policy of the discipline implemented in the
school.

According to Goldstein in 1995 and Raudenbush and Bryk in 1986, Hierarchical Linear
Modeling’s statistical and computing techniques involve the incorporation of a multi level model
into a single one. This is where regression analyses is performed. Hierarchical Linear Modeling
estimates the parameters specified in the model with the help of iterative procedures.

AIC AND BIC


The difference Between AIC and BIC is that their selection of the model.
They are specified for particular uses and can give distinguish results. AIC
has infinite and relatively high dimensions.

The full form of BIC is the


The full form of AIC is the Bayesian Information
Full Forms Akaike Information Criteria. Criteria.
An evaluation of a continual and Under a particular Bayesian
corresponding interval among structure, an accurate
the undetermined, accurate, and evaluation of the purpose of
justified probability of the facts, the possibility following the
is called Akaike Information model is called Bayesian
Definition Criteria or AIC. Information Criteria or BIC.
To calculate the Bayesian
To calculate the Akaike information criterion, the
information criterion, the formula is: BIC = k ln(n) –
Formula formula is: AIC = 2k – 2ln(L^) 2ln(L^)
Selection Of For false-negative outcomes, For false-positive outcomes,
Model AIC is elected in the model. BIC is elected in the model.
The dimension of BIC is
The dimension of AIC is infinite finite and is lower than that of
Dimension and relatively high. AIC.
Penalty Term Penalty terms are smaller here. Penalty terms are larger here.
To select the true model in AIC, To select the true model in
the probability should be less BIC, the probability should
Probability than 1. be exactly at 1.

Here, results are unpredictable Here, results are consistent


Results and complicated than BIC. and easier than AIC.
With the help of assumptions,
With the help of assumptions, BIC can calculate less
AIC can calculate the most optimal coverage than that of
Assumptions optimal coverage. AIC.
Risk is minimized with AIC, Risk is maximized with BIC,
Risks as n is much larger than k2. as n is finite.

 AIC = 2k – 2ln(L^)
 BIC = k ln(n) – 2ln(L^)

Main Differences Between AIC and BIC


1. AIC is used in model selection for false-negative outcomes,
whereas BIC is for false-positive.
2. The former has an infinite and relatively high dimension. On the
contrary, the latter has finite.
3. The penalty term for the first is smaller. Whereas, the second one
is substantial.
4. Akaike information criteria have complicated and unpredictable
results. Conversely, the Bayesian information criterion has easy
results with consistency.
5. AIC provides optimistic assumptions. While BIC coverages less
optimal assumptions.
6. Risk is minimized in AIC and is maximum in BIC.
7. The Akaike theory requires the probability of less than 1, and
Bayesian needs exactly 1 to reach the true-model.

1. AIC используется при выборе модели для ложноотрицательных


результатов, в то время как BIC используется для ложноположительных.
2. Первый имеет бесконечную и относительно высокую размерность.
Напротив, последнее имеет конечное значение.
3. Срок наказания за первое меньше. В то время как второй является
существенным.
4. Информационные критерии Акайке приводят к сложным и
непредсказуемым результатам. И наоборот, байесовский информационный
критерий дает простые и непротиворечивые результаты.
5. AIC предоставляет оптимистичные предположения. В то время как BIC
охватывает менее оптимальные предположения.
6. Риск минимизирован в AIC и максимален в BIC.
7. Теория Акайке требует вероятности меньше 1, а байесову нужно ровно 1,
чтобы достичь истинной модели.