Проблема №4. Парсинг HTML-тегов

  Юрий  | 

  Обновл. 29 Мар 2021  | 

 3695

Если вы в поисках надежного способа парсить HTML-код, то регулярные выражения не являются универсальным решением из-за хрупкости HTML-страниц в современном Интернете. Такие распространенные ошибки, как отсутствующие закрывающие теги, незакрытые скобки с кавычками, несоответствующие друг другу теги и т.д., смогут легко сломать даже самое хорошее регулярное выражение. Вместо этого вы можете использовать библиотеки Beautiful Soup (Python), html5lib (Python) или phpQuery (PHP) для парсинга HTML-кода.

Используя знания, полученные на предыдущих уроках, попробуйте написать шаблон, который будет соответствовать HTML-тегам в следующих строках.

Проблема №4: Парсинг HTML-тегов
Задание Текст Результат
Захватить <a>This is a link</a> a To be completed
Захватить <a href=’https://regexone.com’>Link</a> a To be completed
Захватить <div class=’test_style’>Test</div> div To be completed
Захватить <div>Hello <span>world</span></div> div To be completed

Решение Для парсинга HTML-кода рекомендуется использовать одну из библиотек, указанных выше, но для соответствия простым HTML-тегам вы можете использовать выражение <(\w+).
Решите задание, чтобы перейти к следующему уроку, либо смотрите Решение.

Оценить статью:

Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (12 оценок, среднее: 4,17 из 5)
Загрузка...

Добавить комментарий

Ваш E-mail не будет опубликован. Обязательные поля помечены *