Skip to content

Article parser for Habr, Proglib, and vc.ru that extracts main content, removes ads and unnecessary elements, preserving proper formatting

Notifications You must be signed in to change notification settings

danlikendy/articles_project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Парсер статей

Программа для парсинга статей с Хабра, Proglib и vc.ru в единый Markdown формат

Установка

  1. Установите зависимости:
pip install -r requirements.txt

Использование

Командная строка

python main.py <URL_статьи>

Опции

  • -o, --output - указать имя выходного файла
  • -p, --print - вывести результат в консоль

Примеры

# Парсинг статьи с Хабра
python main.py "https://habr.com/ru/post/123456/"

# Парсинг с указанием имени файла
python main.py "https://proglib.io/p/example" -o "my_article.md"

# Парсинг с выводом в консоль
python main.py "https://vc.ru/post/example" -p

Поддерживаемые сайты

  • Хабр (habr.com) - статьи с /post/ в URL
  • Proglib (proglib.io) - статьи с /p/ в URL
  • vc.ru - статьи с /post/ в URL

Структура выходного файла

Каждая статья сохраняется в едином формате с сохранением структуры:

# Заголовок статьи

**Автор:** Имя автора
**Дата:** Дата публикации
**Источник:** Название сайта
**Ссылка:** URL статьи
**Теги:** `тег1`, `тег2`, `тег3`

---

## Заголовок раздела

Текст абзаца

### Подзаголовок

- Элемент списка 1
- Элемент списка 2

```python
# Блок кода
def example():
    return "Hello World"

Текст с встроенным кодом


## Особенности

- **Сохранение структуры**: заголовки, списки, блоки кода
- **Единый формат**: одинаковая структура для всех сайтов
- **Обработка ошибок**: валидация URL и обработка исключений
- **Автогенерация имен**: имена файлов создаются из заголовков

## Требования

- Python 3.6+
- requests
- beautifulsoup4
- python-dateutil

About

Article parser for Habr, Proglib, and vc.ru that extracts main content, removes ads and unnecessary elements, preserving proper formatting

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages