Skip to content

Парсер на базе фреймворка Scrapy, который собирает информацию о всех существующих PEP и сохраняет ее в соответствующие файлы: 1. Вся информация про PEP (номер, имя, статус), 2. Количество PEP в разных статусах и их общее количество. 🐷

Notifications You must be signed in to change notification settings

VladimirPulse/scrapy_parser_pep

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Проект "Асинхронный парсер PEP"

Описание проекта

"Асинхронный парсер PEP" — собирает и выводит собранную информацию с сайта https://peps.python.org/ в два файла формата csv:

  1. В первый файл - список всех PEP: номер, название и статус.
  2. Второй файл содержит сводку по статусам PEP — сколько найдено документов в каждом статусе (статус, количество). В последней строке этого файла отражено общее количество всех документов.

Использованные технологии:

  1. Python: Основной язык программирования, используемый в этом проекте;
  2. Scrapy: Фреймворк для асинхронного парсинга;
  3. Pipelines, Items и Feeds в Scrapy для тонкой настройки и обработки полученных данных;
  4. Defaultdict: Специальный тип словаря из модуля collections, который использовался для подсчета статусов;
  5. CSV: Библиотека для чтения и записи данных в формате CSV, которая была использована для создания выходного файла;
  6. Datetime (из модуля datetime): Используется для получения текущей даты и времени для формирования имени;выходного файла.

Инструкция по запуску

  1. Перенесите приложение с GitHub себе на комьютер командой git clone.
  2. Установите виртуальное окружение командой для Windows:python -m venv venv, для Linux/macOS:python3 -m venv venv. Активируйте виртуальное окружение.
  3. Установите необходимые зависимости, запустив команду pip install -r requirements.txt.
  4. Запуск парсера командой в терминале в корне проекта scrapy crawl pep.

Информация об авторе

Этот проект был разработан Кулаковым В.С., студентом Яндекс-практикума. Вы можете связаться со мной по адресу электронной почты VrachKulakovVS@mail.ru.

About

Парсер на базе фреймворка Scrapy, который собирает информацию о всех существующих PEP и сохраняет ее в соответствующие файлы: 1. Вся информация про PEP (номер, имя, статус), 2. Количество PEP в разных статусах и их общее количество. 🐷

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages