Представьте на минутку, как Вы (или любой другой человек) открывает браузер, «ходит» по сайтам и копирует с них данные (телефоны, адреса и т.п.). Парсинг — то же самое, только ходит не человек, а робот. Подобным образом поступают поисковые системы при индексации сайтов, или агрегаторы, которые обновляют и собирают тематическую информацию с разных источников в сети.
В этой статье мы рассмотрим бесплатную программу для парсинга известного сайта электронного справочника с картами городов от компании-разработчика ООО «ДубльГИС».
Сам по себе парсинг сайта, как и прочих открытых информационных ресурсов полностью законен, информация находится в открытом доступе и для её получения мы ничего не взламываем и ничего противозаконного не делаем. Мы просто аналогично человеческим действиям по копированию данных делаем тоже самое только при помощи программы.
На сайте 2ГИС есть интересный пункт:
https://law.2gis.ru/rules#rec617424131
3.4. Использование Платформы и (или) Сайта Администрации иными способами, в том числе путем копирования (воспроизведения) размещенного на Сайте Контента, а также входящих в состав Платформы и (или) Сайта Администрации элементов дизайна, программ для ЭВМ и баз данных, их декомпиляция и модификация, строго запрещены.
Этот пункт мы тоже никоем образом не нарушаем.
Встречайте! Бесплатный парсер — Parser2GIS
Описание
Парсер для автоматического сбора базы адресов и контактов предприятий, которые работают на территории России
Парсер для автоматического сбора базы адресов и контактов предприятий, которые работают на территории России, Казахстана, Беларуси, Азербайджана, Киргизии, Узбекистана, Чехии, Египта, Италии, Саудовской Аравии, Кипра, Объединенных Арабских Эмиратов, Чили, Катара, Омана, Бахрейна, Кувейта .
💰 Абсолютно бесплатный
🤖 Успешно обходит анти-бот блокировки на территории РФ
🖥️ Работает под Windows, Linux и MacOS
📄 Три выходных формата: CSV таблица, XLSX таблица и JSON список
🔗 Наличие генератора ссылок по городам и рубрикам
Начало работы
Учтите, что для работы парсера необходимо установить браузер Google Chrome. С установкой «Гугл Хром» в MacOS можно ознакомиться в этом видео.
Шаг №1 Скачайте программу
Первым делом скачайте релиз программы для вашей операционной системы (Windows, MacOS или Linux)
Шаг №2 Извлеките из скаченного архива программу
Вот что из себя представляет скаченный файл. Это архив, внутри которого и находится сама программа.
После разархивирования (извлечения из архива) программы, нам требуется её запустить, но прежде давайте взглянем что из себя представляет этот файл на Рабочем столе в ОС Windows 11
Шаг №3 Запустите программу
Двойным кликом запустите программу.
Вероятнее всего вы увидите при запуске вот такое окно:
И в этом нет ничего удивительного. Просто дело в непроверенном издателе, так сказать. И естественно Защитник Windows или какой то другой антивирус может как то на это отреагировать 🙂
Нажимаем Подробнее и затем Выполняем запуск в любом случае:
Та-дам! Наш парсер запущен!
Вот так выглядит окно программы при запуске.
Что же умеет парсер? Parser2GIS способен автоматически собрать информацию о всех интересующих Вас предприятиях и организациях, опубликованных в онлайн-справочнике 2GIS. И сейчас мы в этом убедимся!
Вернемся к Главному окну программы. Перед нами GUI — графический интерфейс парсера, сделанный для простых людей, за что отдельное спасибо автору!
Шаг №4 Работа программы
Вначале нам необходимо сгенерировать, подготовить ссылки электронного справочника которые наш парсер будет разбирать для осуществления сбора данных.
Откроется дополнительное окно, в котором нам нужно кликнуть на кнопку Сгенерировать
Далее, мы увидим ещё одно окно поверх предыдущих. Здесь нам нужно указать, выбрать рубрику для парсинга. Нажимаем на троеточие, рядом с полем Рубрика
При выборе рубрик можно воспользоваться поисковым запросом, для исключения остальных рубрик в название которых не попадает ваш запрос, например, мы хотим найти Тату-салоны. При поиске ключевого слова «тату» видим, что есть данная рубрика и следовательно выбираем её.
Затем, кликаем ok
Далее, убедитесь что выбрана нужная рубрика и отметьте города в которых будет осуществляться поиск и парсинг Тату-салонов. Выбирать можно (как в примере ниже) выборочно, либо выбрать все города России, или другой страны.
После окончательной предустановки (настройки) нажмите ok
В следующем окне программы появятся ссылки для парсинга выбранных городов + рубрик. Нажимаем ok
Убедитесь, что ваши ссылки прописались в поле URL, что ничего не сбилось
Настройки программы
Кликнув на шестерёнку можно задать настройки для парсинга. Я оставляю всё по умолчанию. Обратите внимание, что скрытый режим отключён, а это значит мы увидим воочию работу парсера в браузере google Chrome (P.S. надеюсь вы не забыли его установить 🙂 )
Эта работа программы будет напоминать переход по ссылкам человеческими руками, но только с бешенной скоростью обработки информации.
Всё готово! Выберите нужный формат исходных данных (по умолчанию CSV) , далее, через кнопку Обзор выберите место на компьютере куда будет сохранён результат работы парсера и третим действием запустите работу программы.
Вот так выглядит окно выбора пути сохранения файла. На этом этапе нужно задать ему имя. Я назвал его по имени категории которую собираюсь парсить в северных городах России:
Запомните место сохранения файла. Перед запуском парсера проверьте еще раз путь в строке и запустите парсер:
В процессе работы отроется окно браузера а в Главном окне программы вы будите видеть последовательность событий (log) работы программы:
После успешного завершения работы программы вы должны увидеть в логах вот такое сообщение о завершении парсинга:
А в месте сохранения файла обнаружить непосредственно файл с результатами работы программы:
В файле будут находится «спарсеные» данные из справочника 2ГИС.
Что делать с данными?
Если вы владеете навыками работы с Excel, то вам не составит наверное труда разобрать эти данные по столбикам. Но учтите, если открыть файл в формате CSV при помощи Эксель, то мы обнаружим слитые в строках данные
Вот так это выглядит. Необходим разбор. На самом деле это не составит труда для человека имеющего даже небольшой опыт работы с Эксель
Но в качестве примера я продемонстрирую разбор и форматирование данных через бесплатную программу Гугл Таблицы
Создаём пустую таблицу и через главное меню программы импортируем данные из нашего файла (Файл -> Импортировать)
Затем, во вкладке Добавить через кнопку Обзор выбираем и подгружаем наш файл формата .CSV
Настройки я не меняю и оставляю по умолчанию
После импорта данных мы видим что они распределены строго по столбикам, как мы того и ожидали.
При желании мы можем работать с выборочными столбиками:
Ну вот и всё! Благодарю за внимание 🙂
Запуск и принцип работы парсера можно посмотреть в этом видео: