Сколько у вас будет друзей на Facebook? У линейной регрессии есть ответ.

1 Резюме

В этом тематическом исследовании будет моделировать количество друзей с использованием линейной регрессии с использованием относительно небольшого набора данных. Мы увидим важность выбора признаков, рассмотрим основные предположения о данных для линейной регрессии и применим логарифмическое преобразование. Мы придем к выводу, что лучшая модель использует характеристики продолжительности отношений, количество групп, количество музыки, которая нравится пользователям, и пол, в результате чего скорректированный R-квадрат равен 56%.

2 Введение

Наша задача — построить хорошо работающую модель линейной регрессии для прогнозирования количества друзей в Facebook на основе небольшого набора данных из социальных сетей. Сначала мы изучим данные и применим несколько тестов, чтобы увидеть, подходят ли данные для линейной регрессии, построим несколько моделей с различными комбинациями переменных. Мы бы выбрали лучшую модель, используя ее рейтинг по трем ключевым показателям: скорректированный R-квадрат, BIC и AIC в качестве критериев оценки. Мы также обсудим, какие будущие модификации предварительной обработки и преобразования данных помогут улучшить его производительность.

Этот проект был частью третьего курса по статистическому прогнозному моделированию и приложениям в бизнес-школе Эдинбургского университета по прогнозной аналитике с использованием программы Python MicroMasters.

3 Методология

3.1 Аналитический подход и требования к данным

Мы будем использовать прогнозный аналитический подход для оценки друзей в Facebook на основе данных социальных сетей. Наши данные должны быть в числовом формате для построения моделей линейной регрессии. Во-вторых, данные должны пройти тесты линейной зависимости, мультиколлинеарности и многомерной нормальности. В-третьих, как мы увидим в разделе 3.3 «Преобразование», нам нужно будет применить логарифмическое преобразование, чтобы убедиться, что наши данные приемлемы для линейной регрессии.

3.2 Данные

Мы начинаем с небольшого набора данных с 200 наблюдениями и девятью функциями, описывающими действия в социальных сетях для каждого пользователя в соответствующих столбцах. Преподаватели курса предоставили данные в формате CSV.

На рис. 3.1 Исходный набор данных показана выборка из пяти строк из набора данных.

Я приведу описания для каждой колонки непосредственно из курсовой лаборатории:

LOR: продолжительность отношений, говорит нам, как долго кто-то находится на Facebook (выражается в неделях)

NBRlikes: общее количество отметок «Нравится», которые пользователь поставил страницам Facebook

NBRgroups: количество групп, в которые входит пользователь

NBRcheckins: количество раз, когда пользователь поделился отметкой в определенном месте

NBRmovies: количество фильмов, которые понравились пользователю

NBRlinks: количество ссылок, опубликованных пользователем

NBRfriends: зависимая переменная, выражающая размер сети пользователя

женщина: укажите, является ли пользователь женщиной (1) или мужчиной (0)

На рис. 3.2 «Описания наборов данных» показаны основные статистические данные для каждой переменной, включая среднее значение, стандартное отклонение, квартили и другие показатели.

3.2 Предварительная обработка и преобразование

Во-первых, мы визуально проверяем переменные на наличие признаков коллинеарности, нанося их друг на друга.

Мы также смотрим на гистограммы, изображенные на рис. 3.4. Гистограммы.

Графики не предполагают, что переменные следуют распределению Гаусса, что является одним из важнейших предположений, необходимых для модели линейной регрессии. Нам придется исправить это с помощью преобразования журнала.

Затем, чтобы проверить мультиколлинеарность, мы смотрим на корреляционную матрицу. Мы видим, что количество фильмов и музыки коррелируют. Количество групп является самой высокой коррелирующей переменной с целевым значением 34%. Предикторами могут быть группы, музыка NBR, фильмы NBR и продолжительность отношений. Мы видим, что индивидуальная корреляция между признаками и целью не является сильной. Ни одна независимая переменная не имеет корреляции более 80%, что помечало бы ее как мультиколлинеарность.

Затем мы преобразуем все переменные, кроме логической «женской» переменной. Преобразованный фрейм данных

Мы визуально перепроверяем набор данных, используя парный график.

Количество фильмов и количество музыкальных независимых переменных имели высокую корреляцию 75%. Преподаватели курса рекомендовали убрать переменную «Количество фильмов», чтобы избежать мультиколлинеарности.

3.3 Предварительный анализ данных

Мы будем использовать пакет статистики для проведения предварительного анализа и более подробной проверки линейных предположений (используя лучшую модель, выбранную в Разделе 4 «Результаты»).

F-статистика

F-статистика значительно выше единицы, а p-значение представляет собой небольшое значение, близкое к нулю.

Эти две меры показывают, что по крайней мере одна переменная имеет ненулевое прогностическое значение.

Значимость коэффициентов

Музыка NBR и проверки NBR не являются статистически значимыми и составляют менее 5%. Отсутствие статистической значимости не обязательно означает, что они не могут быть хорошими предикторами. Однако мы не можем сказать, что эти коэффициенты статистически отличны от нуля для целей интерпретации. Другими словами, мы не можем с уверенностью сказать, что количество музыки и количество касс влияют на количество друзей и делать выводы.

Мультиколлинеарность

Как видно из рисунка 3.10, VIF для LOR и NBRGroups больше четырех, что может быть проблематично. Если бы мы использовали более консервативный порог VIF, мы могли бы отказаться от переменной NBRmusic.

Многофакторный тест на нормальность

QQ-график, похоже, соответствует ожидаемому нормальному распределению, хотя мы видим выбросы на верхнем и нижнем концах квантилей.

При значении p Колмогорова-Смирнова, равном 24,4%, мы не можем отвергнуть нулевую гипотезу о том, что нормальное распределение и распределение остатков лучших моделей совпадают. Таким образом, мы считаем, что данные соответствуют предположению о нормальности.

Автокорреляция

Значение Дарбина-Уотсона, равное 1,926, которое мы видим на рис. 3.9. Сводка регрессии МНК, все еще находится в пределах диапазона, в котором мы не видим признаков автокорреляции.

Удаление выбросов

Для задания я не убирал выбросы, но, как указали преподаватели курса в решении, мы могли визуально увидеть, насколько искажены данные, и выбросы влияют на модель для некоторых переменных.

Гомоскедастичность

Из рисунка 3.12. Гетероскедастичность трудно сказать наверняка, равномерно ли распределены остатки. Возможно, они больше разбросаны по нижним значениям, почти напоминая форму воронки. Возможно, мы видим признак гетероскедастической погрешности даже после логарифмического преобразования. Возможно, нам нужно попробовать другое преобразование признаков или другую модель. Кривизна также может указывать на наличие полиномиальной зависимости более высокого порядка. На помощь может прийти полиномиальное преобразование, но это выходит за рамки данного проекта.

4. Результаты

После преобразования модели мы построили модели для каждой комбинации столбцов в наборе данных и записали их оценки AIC, BIC и R-квадрата корректора. Лучшая модель была выбрана с использованием среднего ранжирования каждой метрики для модели.

На рис. 4.1 «Выбор функций» показаны функции, используемые для каждой модели, и взвешенная оценка, дающая в результате AIC 616,96, BIC 633,45 и скорректированный R-квадрат 56%. Лучшая общая модель использует следующие функции: LOR, NBRgroups, NBRmusic, female, const.

Поскольку мы преобразовали значение в журнал, мы можем интерпретировать коэффициенты, анализируя их.

константа 4.5166657620535
ЛОР 1.3352525501685886
NBRгруппы 2.3422311334226893
НБРмузыка 1.1092017095122706
NBRcheckins 1.580937658283545
женский 1.4014891572865704

Люди начинают с 4,5 друзей, и за каждую неделю, когда кто-то находится на Facebook, модель ожидает 1,33 дополнительных друга. Для каждой группы человек получает на 2,34 больше друга, а любовь к музыке и отметка в модели предсказывают плюс 1,1 и 1,6 друга соответственно (хотя это не является статистически значимым при 5%, и в действительности коэффициент может быть нулевым). Пол также влияет на количество друзей в Facebook.

5. Обсуждение

Построив интерпретируемую модель, мы можем предсказать количество друзей с течением времени и факторы, связанные с числом друзей. Модель помогает делать прогнозы, но мы не анализировали причинно-следственную связь между переменными и предиктором. Например, отражает ли количество отметок социальную активность человека в офлайне, проявляющуюся в отметках, или более высокая активность регистрации на Facebook привлекает дополнительных друзей? Или кто-то регистрируется чаще, если у него больше друзей на Facebook, так как у него больше стимула поделиться?

Причинно-следственная связь может быть предметом независимого исследования, но теперь мы выполнили задачу, которую поставили перед собой, чтобы построить прогностическую модель.

6. Заключение

Мы прошли весь цикл предварительной обработки, преобразования и построения данных.

Мы выбрали функции, ведущие к наилучшей модели, интерпретировали коэффициенты и рассмотрели предположения, необходимые для эффективности модели линейной регрессии. MLR — одна из самых простых моделей. Возможно, она не самая мощная, но насколько хорошо мы можем понять данные и взаимосвязь между переменными и тем, что они представляют в физическом мире, мы можем получить из модели.

Будущие направления

Преобразование журнала помогло с предположениями о нормальности. Глядя на остаточный график, мы можем улучшить линейное предположение и гетероскедастичность, удалив выбросы и дальнейшее преобразование данных, такое как полиномиальное или другое логарифмическое преобразование или преобразование квадратного корня, чтобы увидеть остаточный график более равномерно распределенным. Мы не пытались применять регуляризацию в этом случае или строить кривую обучения, чтобы определить дальнейшие направления: уменьшить систематическую ошибку или дисперсию. Можно также выполнить анализ ошибок и попытаться улучшить данные. Я не обсуждал один элемент мини-кейса: построение модели с использованием scikit-learn и перекрестной проверки, но я оставлю это для другого поста.