Parser2GIS — парсер сайта 2GIS с помощью браузера Google Chrome.

Представьте на минутку, как Вы (или любой другой человек) открывает браузер, «ходит» по сайтам и копирует с них данные (телефоны, адреса и т.п.). Парсинг — то же самое, только ходит не человек, а робот. Подобным образом поступают поисковые системы при индексации сайтов, или агрегаторы, которые обновляют и собирают тематическую информацию с разных источников в сети.

В этой статье мы рассмотрим бесплатную программу для парсинга известного сайта электронного справочника с картами городов от компании-разработчика ООО «ДубльГИС».

Сам по себе парсинг сайта, как и прочих открытых информационных ресурсов полностью законен, информация находится в открытом доступе и для её получения мы ничего не взламываем и ничего противозаконного не делаем. Мы просто аналогично человеческим действиям по копированию данных делаем тоже самое только при помощи программы.

На сайте 2ГИС есть интересный пункт:

https://law.2gis.ru/rules#rec617424131

3.4. Использование Платформы и (или) Сайта Администрации иными способами, в том числе путем копирования (воспроизведения) размещенного на Сайте Контента, а также входящих в состав Платформы и (или) Сайта Администрации элементов дизайна, программ для ЭВМ и баз данных, их декомпиляция и модификация, строго запрещены.

Этот пункт мы тоже никоем образом не нарушаем.

Встречайте! Бесплатный парсер — Parser2GIS

Официальный сайт проекта

Документация

Описание

Парсер для автоматического сбора базы адресов и контактов предприятий, которые работают на территории России 

Парсер для автоматического сбора базы адресов и контактов предприятий, которые работают на территории России, Казахстана, Беларуси, Азербайджана, Киргизии, Узбекистана, Чехии, Египта, Италии, Саудовской Аравии, Кипра, Объединенных Арабских Эмиратов, Чили, Катара, Омана, Бахрейна, Кувейта .

💰 Абсолютно бесплатный
🤖 Успешно обходит анти-бот блокировки на территории РФ
🖥️ Работает под Windows, Linux и MacOS
📄 Три выходных формата: CSV таблица, XLSX таблица и JSON список
🔗 Наличие генератора ссылок по городам и рубрикам

Начало работы

Учтите, что для работы парсера необходимо установить браузер Google Chrome. С установкой «Гугл Хром» в MacOS можно ознакомиться в этом видео.

Шаг №1 Скачайте программу

Первым делом скачайте релиз программы для вашей операционной системы (Windows, MacOS или Linux)

Шаг №2 Извлеките из скаченного архива программу

Вот что из себя представляет скаченный файл. Это архив, внутри которого и находится сама программа.

Извлеките из скаченного архива программу

После разархивирования (извлечения из архива) программы, нам требуется её запустить, но прежде давайте взглянем что из себя представляет этот файл на Рабочем столе в ОС Windows 11

Дистрибутив парсера

Шаг №3 Запустите программу

Двойным кликом запустите программу.

Вероятнее всего вы увидите при запуске вот такое окно:

Защитник Windows

И в этом нет ничего удивительного. Просто дело в непроверенном издателе, так сказать. И естественно Защитник Windows или какой то другой антивирус может как то на это отреагировать 🙂

Нажимаем Подробнее и затем Выполняем запуск в любом случае:

Защитник Windows

Та-дам! Наш парсер запущен!

Парсер запущен! Окно программы при запуске

Вот так выглядит окно программы при запуске.

Что же умеет парсер? Parser2GIS способен автоматически собрать информацию о всех интересующих Вас предприятиях и организациях, опубликованных в онлайн-справочнике 2GIS. И сейчас мы в этом убедимся!

Вернемся к Главному окну программы. Перед нами GUI — графический интерфейс парсера, сделанный для простых людей, за что отдельное спасибо автору!

Шаг №4 Работа программы

Вначале нам необходимо сгенерировать, подготовить ссылки электронного справочника которые наш парсер будет разбирать для осуществления сбора данных.

окно парсера

Откроется дополнительное окно, в котором нам нужно кликнуть на кнопку Сгенерировать

Рабочее окно парсера

Далее, мы увидим ещё одно окно поверх предыдущих. Здесь нам нужно указать, выбрать рубрику для парсинга. Нажимаем на троеточие, рядом с полем Рубрика

При выборе рубрик можно воспользоваться поисковым запросом, для исключения остальных рубрик в название которых не попадает ваш запрос, например, мы хотим найти Тату-салоны. При поиске ключевого слова «тату» видим, что есть данная рубрика и следовательно выбираем её.

Рабочее окно парсера

Затем, кликаем ok

Рабочее окно парсера

Далее, убедитесь что выбрана нужная рубрика и отметьте города в которых будет осуществляться поиск и парсинг Тату-салонов. Выбирать можно (как в примере ниже) выборочно, либо выбрать все города России, или другой страны.

После окончательной предустановки (настройки) нажмите ok

Рабочее окно парсера

В следующем окне программы появятся ссылки для парсинга выбранных городов + рубрик. Нажимаем ok

Рабочее окно парсера

Убедитесь, что ваши ссылки прописались в поле URL, что ничего не сбилось

Рабочее окно парсера

Настройки программы

Кликнув на шестерёнку можно задать настройки для парсинга. Я оставляю всё по умолчанию. Обратите внимание, что скрытый режим отключён, а это значит мы увидим воочию работу парсера в браузере google Chrome (P.S. надеюсь вы не забыли его установить 🙂 )

Эта работа программы будет напоминать переход по ссылкам человеческими руками, но только с бешенной скоростью обработки информации.

Всё готово! Выберите нужный формат исходных данных (по умолчанию CSV) , далее, через кнопку Обзор выберите место на компьютере куда будет сохранён результат работы парсера и третим действием запустите работу программы.

Вот так выглядит окно выбора пути сохранения файла. На этом этапе нужно задать ему имя. Я назвал его по имени категории которую собираюсь парсить в северных городах России:

Запомните место сохранения файла. Перед запуском парсера проверьте еще раз путь в строке и запустите парсер:

Рабочее окно парсера

В процессе работы отроется окно браузера а в Главном окне программы вы будите видеть последовательность событий (log) работы программы:

После успешного завершения работы программы вы должны увидеть в логах вот такое сообщение о завершении парсинга:

Рабочее окно парсера

А в месте сохранения файла обнаружить непосредственно файл с результатами работы программы:

файл и данные

В файле будут находится «спарсеные» данные из справочника 2ГИС.

Что делать с данными?

Если вы владеете навыками работы с Excel, то вам не составит наверное труда разобрать эти данные по столбикам. Но учтите, если открыть файл в формате CSV при помощи Эксель, то мы обнаружим слитые в строках данные

Вот так это выглядит. Необходим разбор. На самом деле это не составит труда для человека имеющего даже небольшой опыт работы с Эксель

Но в качестве примера я продемонстрирую разбор и форматирование данных через бесплатную программу Гугл Таблицы

Создаём пустую таблицу и через главное меню программы импортируем данные из нашего файла (Файл -> Импортировать)

Файл -> Импортировать

Затем, во вкладке Добавить через кнопку Обзор выбираем и подгружаем наш файл формата .CSV

Файл -> Импортировать

Настройки я не меняю и оставляю по умолчанию

После импорта данных мы видим что они распределены строго по столбикам, как мы того и ожидали.

При желании мы можем работать с выборочными столбиками:

Ну вот и всё! Благодарю за внимание 🙂

Запуск и принцип работы парсера можно посмотреть в этом видео: