Исследование для проекта Capstone для получения профессионального сертификата IBM Data Science

  1. Введение

1.1 Фон

С приближением Олимпийских игр в Токио в 2020 году количество туристов, планирующих поехать в Токио, значительно возрастет. Многие из этих туристов не знают, чего ожидать в районах Токио, или не знают, как выбрать общежитие, которое могло бы удовлетворить их потребности, и это может привести к неудачному выбору, который потенциально может испортить весь опыт путешествия в другую страну.

1.2 Проблема

Этот проект направлен на помощь в процессе планирования поездки в Токио на Олимпийские игры, разделяя общежития Токио на кластеры, чтобы сравнить их и предоставить рекомендации по выбору лучшего общежития для удовлетворения своих потребностей.

1.3 Интерес

Туристы, планирующие поехать в Токио на Олимпийские игры, будут больше всего заинтересованы в такого рода информации, туристические агентства также могут быть заинтересованы в ней, чтобы иметь лучшую визуализацию того, какой хостел или план путешествия предложить своим клиентам, и хостелы вовлеченных, чтобы узнать их ситуацию в соответствии с API FourSquare и помочь им взаимодействовать со своими клиентами, когда дело доходит до указания ближайших мест для посещения.

2. Сбор и очистка данных

2.1 Источники данных

Основываясь на определении нашей проблемы, факторы, которые будут влиять на наше решение, следующие:

· количество и разнообразие площадок вокруг общежитий;

· расстояние до Национального олимпийского стадиона и центра города;

· Цены на общежития.

Для извлечения/генерирования требуемой информации потребуются следующие источники данных:

· название и расположение основных районов Токио, используемые для справки в нашей визуализации, размещенной suvoooo на Github;

· количество площадок, их тип и расположение для каждой координаты общежития в радиусе 500 м будет получено с помощью API Foursquare;

· набор данных, содержащий хостелы Японии от HostelWorld, опубликованный thatdatastudent на kaggle.

2.2 Очистка данных

Из набора данных общежитий я отфильтровал так, чтобы в кадре данных отображались только общежития Токио, удалил все общежития, у которых не было координат, создал категорию для столбца rating.band, чтобы он был представлен числами. вместо слов, а также удалены строки из строк столбца Расстояние, чтобы отображалось только расстояние в км. Я также рассчитал расстояние от общежития до Национального олимпийского стадиона, используя библиотеку geopy, и добавил в фрейм данных новый столбец.

Для набора данных районов Токио я удалил некоторые ненужные столбцы, переименовал те, которые ссылаются на широту и долготу, и переставил их для лучшего понимания.

2.3 Выбор функций

После очистки данных в наборе данных общежитий было 116 образцов и 16 признаков, и я решил сохранить все признаки для лучшего понимания данных при сравнении кластеров. Что касается набора данных основных районов, поскольку он будет использоваться только в качестве ссылки для визуализации карты, единственные необходимые атрибуты — это название районов и их координаты.

3. Исследовательский анализ данных

3.1 Визуализация карты

Сначала я сделал карту, используя библиотеку folium, используя данные из набора данных основных районов. Синие маркеры — это основные районы, а красный маркер — Национальный олимпийский стадион.

Затем, используя набор данных общежитий, я добавил общежития в виде круговых маркеров на карте.

3.2 Сбор данных о площадках с помощью FourSquare API

Используя API FourSquare, я смог получить информацию обо всех близлежащих отелях в радиусе 500 м и нашел 276 уникальных категорий венусов, окружающих хостелы Токио. После слияния наборов данных и группировки по общежитиям в результирующем фрейме данных было 116 образцов и 289 признаков, и в процессе я также смог найти 10 наиболее распространенных мест для каждого хостела в наборе данных.

4. Кластеризация

4.1 Создание кластеров

Вычислив расстояние от точки до линии, определяемой двумя точками, я смог получить оптимальное количество кластеров, необходимых для данных, а затем проверил результаты с помощью визуализации метода локтя.

Использованная формула была следующей и привела к оптимальному количеству кластеров, равному трем.

Проверка через визуализацию:

После создания кластера генерируется карта с каждым кластером своего цвета и синим маркером, обозначающим Национальный олимпийский стадион:

4.2 Анализ кластеров

Ниже у нас есть среднее значение функций, сгруппированных по кластерам. Основным фактором, по которому были разделены кластеры, были цены на общежития:

Анализируя кластеры, мы нашли наиболее распространенные площадки по кластерам:

· Кластер 0 — Красный

С красным кластером, охватывающим большую часть общежитий, ясно, что он будет иметь больший объем в окружающих его местах с магазинами шаговой доступности как наиболее распространенным местом, а ресторан ramen будет вторым по распространенности.

· Кластер 1 — Фиолетовый

Фиолетовый кластер можно считать исключением из-за огромной разницы в цене по сравнению с другими, что делает его кластером только из 1 общежития.

· Кластер 2 — зеленый

Лучшие общежития по соотношению цена-качество находятся в третьем (зеленом) кластере, так как они имеют среднюю цену, более высокую ненависть и рейтинг и, как правило, находятся ближе к центру города, а также к Олимпийскому стадиону, а также есть большое количество площадок. учитывая меньшее количество общежитий в этом кластере.

5. Выводы

Цель этого исследования состояла в том, чтобы помочь нашим заинтересованным сторонам найти общежития, которые могли бы наилучшим образом удовлетворить их потребности, исходя из различных характеристик при посещении Токио на Олимпийские игры. Для этого мы собрали данные из разных наборов данных и API FourSquare, а затем создали кластеры на основе их атрибутов и сравнили их, сузив выбор стейкхолдеров в процессе планирования поездки.

6. Ссылки

[1] Каггл

[2] Гитхаб

[3] API FourSquare

[4] ПиццаДеДадос

[5] Особые районы Токио

[6] Расстояние от точки до линии