"Асинхронный парсер PEP" — собирает и выводит собранную информацию с сайта https://peps.python.org/ в два файла формата csv:
- В первый файл - список всех PEP: номер, название и статус.
- Второй файл содержит сводку по статусам PEP — сколько найдено документов в каждом статусе (статус, количество). В последней строке этого файла отражено общее количество всех документов.
- Python: Основной язык программирования, используемый в этом проекте;
- Scrapy: Фреймворк для асинхронного парсинга;
- Pipelines, Items и Feeds в Scrapy для тонкой настройки и обработки полученных данных;
- Defaultdict: Специальный тип словаря из модуля collections, который использовался для подсчета статусов;
- CSV: Библиотека для чтения и записи данных в формате CSV, которая была использована для создания выходного файла;
- Datetime (из модуля datetime): Используется для получения текущей даты и времени для формирования имени;выходного файла.
- Перенесите приложение с GitHub себе на комьютер командой
git clone. - Установите виртуальное окружение командой для Windows:
python -m venv venv, для Linux/macOS:python3 -m venv venv. Активируйте виртуальное окружение. - Установите необходимые зависимости, запустив команду
pip install -r requirements.txt. - Запуск парсера командой в терминале в корне проекта
scrapy crawl pep.
Этот проект был разработан Кулаковым В.С., студентом Яндекс-практикума. Вы можете связаться со мной по адресу электронной почты VrachKulakovVS@mail.ru.