Если вы в поисках надежного способа парсить HTML-код, то регулярные выражения не являются универсальным решением из-за хрупкости HTML-страниц в современном Интернете. Такие распространенные ошибки, как отсутствующие закрывающие теги, незакрытые скобки с кавычками, несоответствующие друг другу теги и т.д., смогут легко сломать даже самое хорошее регулярное выражение. Вместо этого вы можете использовать библиотеки Beautiful Soup (Python), html5lib (Python) или phpQuery (PHP) для парсинга HTML-кода.
Используя знания, полученные на предыдущих уроках, попробуйте написать шаблон, который будет соответствовать HTML-тегам в следующих строках.
Проблема №4: Парсинг HTML-тегов
Задание | Текст | Результат | |
Захватить | <a>This is a link</a> | a | ![]() |
Захватить | <a href=’https://regexone.com’>Link</a> | a | ![]() |
Захватить | <div class=’test_style’>Test</div> | div | ![]() |
Захватить | <div>Hello <span>world</span></div> | div | ![]() |
Решение | Для парсинга HTML-кода рекомендуется использовать одну из библиотек, указанных выше, но для соответствия простым HTML-тегам вы можете использовать выражение <(\w+). |
Решите задание, чтобы перейти к следующему уроку, либо смотрите Решение.