Программа для парсинга статей с Хабра, Proglib и vc.ru в единый Markdown формат
- Установите зависимости:
pip install -r requirements.txtpython main.py <URL_статьи>-o, --output- указать имя выходного файла-p, --print- вывести результат в консоль
# Парсинг статьи с Хабра
python main.py "https://habr.com/ru/post/123456/"
# Парсинг с указанием имени файла
python main.py "https://proglib.io/p/example" -o "my_article.md"
# Парсинг с выводом в консоль
python main.py "https://vc.ru/post/example" -p- Хабр (habr.com) - статьи с
/post/в URL - Proglib (proglib.io) - статьи с
/p/в URL - vc.ru - статьи с
/post/в URL
Каждая статья сохраняется в едином формате с сохранением структуры:
# Заголовок статьи
**Автор:** Имя автора
**Дата:** Дата публикации
**Источник:** Название сайта
**Ссылка:** URL статьи
**Теги:** `тег1`, `тег2`, `тег3`
---
## Заголовок раздела
Текст абзаца
### Подзаголовок
- Элемент списка 1
- Элемент списка 2
```python
# Блок кода
def example():
return "Hello World"Текст с встроенным кодом
## Особенности
- **Сохранение структуры**: заголовки, списки, блоки кода
- **Единый формат**: одинаковая структура для всех сайтов
- **Обработка ошибок**: валидация URL и обработка исключений
- **Автогенерация имен**: имена файлов создаются из заголовков
## Требования
- Python 3.6+
- requests
- beautifulsoup4
- python-dateutil