Разработали систему парсинга данных из Linkedin с сопряжением Facebook.
Инфраструктура комплекса приложений:
- виртуальный сервер на базе ОС Linux;
- контейнеризация компонентов на базе Docker;
- параметризация запуска контейнеров Docker;
- СУБД для хранения промежуточных и финальных вариантов отбора;
- WEB-сервер для отображения настроек и списков отобранных постов;
- регулярные процедуры запуска процесса сбора данных из LinkedIn с интервалом в 2 часа;
- логирование процедуры запуска контейнеров;
- принудительный запуск коллектора для нестандартных ситуаций.
Сбор данных (в виде трёх функциональных программных модулей):
- Поиск по входным параметрам среди постов по ключевым фразам.
- Поиск по входным параметрам по списку аккаунтов и ключевым фразам для отдельных аккаунтов.
- Поиск по входным параметрам групп и ключевым фразам для каждой из групп.
Предобработка и фильтрация собранных данных, обработка собранных постов, дополнительный анализ и отбор на основании текстового содержимого:
- фильтрация и отбор постов по URL и заголовку поста для поиска дубликатов публикаций другими пользователями LinkedIn;
- фильтрация и отбор по автору поста;
- фильтрация и отбор по дате публикации;
- фильтрация и отбор по дополнительным фразам, присутствие которых означает попадание поста в финальный список;
- фильтрация и отбор по минус-словам из списка минус-слов.
Постобработка постов:
- программный поиск контактных данных с использованием стоп-фраз из справочника стоп-фраз;
- при нахождении стоп-фразы, ниже этой стоп-фразы удаляется и заменяется заранее подготовленным текстовым блоком;
- сохранения отобранных данных в промежуточной БД для дальнейшего использования, модерации и публикации.
Вывод результатов сбора данных:
- программный модуль выводит список отобранных постов и информацию о каждом из них. В пользовательском веб-интерфейсе присутствует возможность для указания постов к исключению из финальной выгрузки;
- программный интерфейс для вывода списка аккаунтов поиска с возможностью редактирования списка;
- программный интерфейс для вывода списка групп поиска с возможностью редактирования списка;
- программный интерфейс для вывода списка стоп-фраз с возможностью редактирования списка.
Подготовка данных:
- Блок подготовки данных преобразует содержимое постов в стандартный формат для публикации и учитывает результаты ручной модерации постов.