Проблема №4. Парсинг HTML-тегов

  Юрий  | 

  Обновл. 21 Ноя 2019  | 

 206

Если вы в поисках надёжного способа парсить HTML-код, то регулярные выражения не являются универсальным решением из-за хрупкости HTML-страниц в Интернете сегодня. Такие распространённые ошибки, как отсутствующие закрывающие теги, незакрытые скобки с кавычками, несоответствующие друг другу теги и т.д., смогут легко сломать даже самое хорошее регулярное выражение. Вместо этого вы можете использовать библиотеки Beautiful Soup (Python), html5lib (Python) или phpQuery (PHP) для парсинга HTML-кода.

Используя знания, полученные из уроков по регулярным выражениям ранее, попробуйте написать шаблон, который будет соответствовать HTML-тегам в строках ниже.

Проблема №4: Парсинг HTML-тегов
Задание Текст Результат
Захватить <a>This is a link</a> a To be completed
Захватить <a href=’https://regexone.com’>Link</a> a To be completed
Захватить <div class=’test_style’>Test</div> div To be completed
Захватить <div>Hello <span>world</span></div> div To be completed

Решение Для парсинга HTML-кода рекомендуется использовать одну из библиотек выше, но, для соответствия простым HTML-тегам, вы можете использовать выражение <(\w+).

Вы также можете захватить содержимое тегов с помощью шаблона >([\w\s]*)<.

Решите задание выше, чтобы перейти к следующему уроку, либо смотрите Решение.

Оценить статью:

Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (3 оценок, среднее: 3,67 из 5)
Загрузка...

Добавить комментарий

Ваш E-mail не будет опубликован. Обязательные поля помечены *