Расследование
Профилирование

Профилирование

Интерфейс раздела профилирования

Описание раздела

Раздел Профилирование предназначен для автоматического обнаружения персональных данных (ПДн) в объектах базы данных и их классификации по степени критичности. Система анализирует структуру и содержимое баз данных, чтобы автоматически пометить объекты, которые могут содержать персональные данные, соответствующим признаком в справочнике объектов.

Основная цель модуля — обеспечить соответствие требованиям 152-ФЗ "О персональных данных" путем автоматической идентификации и классификации информации, содержащей ПДн, что позволяет организациям эффективно управлять рисками и обеспечивать защиту персональных данных.

Принцип работы алгоритма

Система профилирования использует гибридную архитектуру, сочетающую различные методы анализа для максимальной точности детекции:

Технологический стек

  • Regex-паттерны — для точного распознавания структурированных данных (email, телефоны, паспортные данные)
  • NLP-модель на базе BERT — для семантического анализа названий колонок и таблиц
  • Готовые шаблоны 152-ФЗ — для мгновенного распознавания СНИЛС, ИНН, паспортных данных и других типов ПДн

Этапы анализа

Анализ данных происходит в четыре последовательных этапа:

  1. Анализ метаданных — BERT-модель анализирует имена и названия объектов БД, распознавая их семантический контекст
  2. Поиск ключевых слов — regex-паттерны ищут характерные паттерны, а NLP-модель уточняет их семантическое значение
  3. Анализ образцов данных — система изучает маскированные сэмплы данных для определения типов содержимого
  4. Анализ логов запросов — изучение реального использования полей для понимания их важности и частоты обращений

Система оценки рисков

На каждом этапе анализа присваивается риск-оценка. Сумма всех оценок формирует финальную оценку риска, которая определяет вероятность присутствия персональных данных в конкретном объекте.

Параллельно с основным анализом срабатывают готовые шаблоны 152-ФЗ — при любом совпадении система мгновенно помечает найденные поля как критические.

Безопасность обработки

Важной особенностью системы является то, что она не хранит исходные данные из баз. Для анализа загружаются только небольшие маскированные образцы, что обеспечивает безопасность и соответствие требованиям защиты персональных данных.

Поддерживаемые типы БД

Система профилирования поддерживает работу со следующими типами баз данных:

  • PostgreSQL
  • MySQL
  • Oracle
  • ClickHouse
  • MS SQL Server
  • Redis
  • Tarantool
  • Greenplum
  • MongoDB
  • PostgRED
⚠️

Для работы профилирования необходимо рабочее подключение и предварительно загруженный Справочник объектов для этого Экземпляра БД.

Таблица профилей и фильтрация

Интерфейс раздела профилирования

Таблица профилей содержит профили для баз данных, которые содержатся в системе. Профиль автоматически создается при добавлении и настройке нового подключения в системе.

Структура таблицы

Таблица отображает следующую информацию для каждого экземпляра БД:

КолонкаОписание
Сервер БДIP-адрес или имя сервера базы данных
Экземпляр БДИмя экземпляра базы данных
ПортПорт подключения к базе данных
Дата последней проверкиДата и время последнего выполненного профилирования
Следующий запускДата и время запланированного следующего профилирования
Всего объектовОбщее количество объектов в базе данных
ПДнКоличество объектов, содержащих персональные данные
СтатусТекущий статус процесса профилирования
Включено профилированиеИндикатор активности автоматического профилирования
Включено маскированиеИндикатор активности функции маскирования данных

Система фильтрации

Интерфейс раздела профилирования

Для удобного поиска и фильтрации данных доступны следующие фильтры:

Основные фильтры

  • Сервер БД — фильтрация по IP-адресу или имени сервера
  • Экземпляр БД — поиск по конкретному экземпляру с возможностью выбора "Поиск во всех группах"
  • Порт — фильтрация по номеру порта
  • Тип СУБД — выбор типа базы данных (все типы / конкретный тип)
  • Статус — фильтрация по статусу профилирования (все статусы / конкретный статус)
  • ПДн — фильтрация по количеству найденных персональных данных

Дополнительные фильтры

  • Маскирование — фильтр по статусу маскирования (все варианты / включено / отключено)
  • Профилирование — фильтр по статусу профилирования (все варианты / включено / отключено)

Фильтр по дате

  • Дата последней проверки — возможность указать диапазон дат с точностью до дня, часа и минуты

Управление отображением

  • Количество строк — выбор количества записей на странице (25, 50, 100)
  • Очистить — кнопка сброса всех примененных фильтров
  • Применить — кнопка применения установленных фильтров

Дашборд профилирования

Дашборд профилирования с графиками

Дашборд профилирования предоставляет наглядное представление о текущем состоянии системы и содержит три основных информационных блока для мониторинга процессов профилирования.

1. Процент проверенных Экземпляров БД

Круговая диаграмма отображает общую статистику профилирования всех экземпляров баз данных в системе:

  • 16% — текущий процент проверенных экземпляров БД
  • Цветовая индикация уровня проверки:
    • Красный (Низкий) — критически низкий уровень покрытия
    • Желтый (Средний) — средний уровень покрытия
    • Зеленый (Высокий) — высокий уровень покрытия

Данный индикатор помогает оценить общий прогресс профилирования в организации и понять, какая часть инфраструктуры уже проанализирована на предмет содержания персональных данных.

2. Топ критических Серверов

Список показывает пять серверов с наибольшим количеством найденных персональных данных:

ПозицияСервер/БазаКоличество ПДн объектов
178.24.181.140/laba:152120
237.9.13.199/FREEPDB1:152111
337.9.13.199/ora23ein:15210
437.9.13.199/pg1C:54320
578.24.181.140/dias:15210

Этот блок позволяет быстро идентифицировать наиболее критичные с точки зрения безопасности персональных данных системы и сосредоточить внимание на серверах, требующих первоочередного внимания.

3. Статусы работы

Круговая диаграмма отображает текущее состояние задач профилирования:

  • Не профилировался (4) — желтый цвет, экземпляры БД, которые еще не подвергались анализу
  • Выполняется (1) — серый цвет, процессы профилирования в работе
  • Завершено (1) — зеленый цвет, успешно завершенные задачи профилирования
  • Ошибка (0) — красный цвет, задачи, завершившиеся с ошибками
  • Отменено (0) — черный цвет, отмененные пользователем задачи
📊

Дашборд обновляется в реальном времени и позволяет отслеживать динамику процесса профилирования, выявлять проблемные области и контролировать общее состояние безопасности персональных данных в организации.

Настройки профилирования

Для настройки профилирования конкретного экземпляра БД необходимо выбрать его в таблице, кликнув правой кнопкой мыши.

Контекстное меню для настройки профилирования

В появившемся контекстном меню выберите пункт "Настройки профилирования". Откроется модальное окно с пятью разделами настроек.

Основные настройки

Основные настройки профилирования

В разделе "Основные" доступны следующие параметры:

Профилирование включено

Главный переключатель, который позволяет управлять состоянием профилирования для данного экземпляра БД.

Маскирование включено

При включенном маскировании для профилирования используются анонимизированные данные, что обеспечивает дополнительную безопасность при анализе.

Полная проверка

При включении полной проверки проверяются все объекты, включая те, которые уже были проверены ранее. Это позволяет обновить результаты анализа с учетом изменений в данных.

Расписание

Настройка расписания профилирования

Настройка расписания профилирования

Раздел позволяет указать периодичность автоматического запуска проверки. Рекомендуемая частота — не менее 3 раз в неделю.

⚠️

Обратите внимание: для одной базы данных может быть активно только одна задача профилирования в любой момент времени, даже если расписание настроено на более частые запуски.

Доступные параметры:

  • Тип повторения:

    • Ежедневно
    • Еженедельно
    • Ежемесячно
  • Время выполнения: Настройка времени запуска в формате ЧЧ:ММ

Типы объектов

Типы объектов для профилирования

Типы объектов для профилирования

Укажите типы объектов базы данных, которые необходимо анализировать. Для наиболее полного анализа рекомендуется включить все доступные типы объектов.

Доступные типы объектов:

  • TABLE — таблицы
  • VIEW — представления
  • MATERIALIZED VIEW — материализованные представления
  • PROCEDURE — хранимые процедуры
  • FUNCTION — функции
  • TRIGGER — триггеры

Шаблоны проверки ПДн

Шаблоны проверки персональных данных

Шаблоны проверки ПДн

Выберите типы персональной информации для обнаружения при профилировании согласно 152-ФЗ.

Доступные шаблоны 152-ФЗ:

ФИО Дата и место рождения Пол Гражданство Семья Адрес Контактные данные Документы Государственные идентификаторы Биометрические данные Медицинские данные Личная жизнь Взгляды и убеждения Работа Образование Финансовые данные Результаты и аттестации Геолокация Наблюдение Косвенные идентификаторы

Описание основных категорий:

  • ФИО — Фамилия, имя, отчество
  • Дата и место рождения — Дата рождения, место рождения, возраст
  • Контактные данные — Телефоны, email, аккаунты в мессенджерах и соцсетях
  • Документы — Паспорт, загранпаспорт, водительское удостоверение, военный билет и др.
  • Государственные идентификаторы — СНИЛС, ИНН, ОМС-полис и другие номера
  • Биометрические данные — Фото, видео, отпечатки пальцев, радужка глаза, ДНК, голос
  • Финансовые данные — Доходы, зарплата, налоги, счета, карты, операции, кредиты

Исключения

Исключенные схемы

Исключенные схемы

Введите названия схем через пробел, которые необходимо исключить из процесса профилирования. Нажмите на крестик, чтобы удалить схему из списка исключений.

Предустановленные системные схемы:

  • sys — системная схема
  • audsys — схема аудита
  • wmsys — схема управления рабочими областями
  • dbsnmp — схема мониторинга
  • gsmadmin_internal — внутренняя административная схема
  • system — системные объекты
  • ctxsys — схема полнотекстового поиска
  • mdsys — схема пространственных данных
  • dvsys — схема Database Vault
  • vecsys — схема векторных данных
  • xdb — схема XML DB
  • ojvmsys — схема Oracle Java Virtual Machine
  • lbacsys — схема Label Security
💡

Системные схемы автоматически исключаются из анализа, так как они не содержат пользовательских данных и их профилирование не требуется для соблюдения 152-ФЗ.

Запуск профилирования

Система поддерживает два способа запуска профилирования: автоматический по расписанию и ручной запуск.

Автоматический запуск

Автоматическое профилирование выполняется согласно расписанию, которое настраивается в разделе "Настройки профилирования""Расписание".

Преимущества автоматического режима:

  • Регулярное обновление данных о персональной информации
  • Отслеживание изменений в структуре БД
  • Минимальное участие администратора
  • Соответствие требованиям регулярного аудита ПДн

Ручной запуск

Для немедленного запуска профилирования используется контекстное меню таблицы.

Ручной запуск профилирования через контекстное меню

Шаги для ручного запуска:

  1. Выберите нужный экземпляр БД в таблице
  2. Кликните правой кнопкой мыши для открытия контекстного меню
  3. Выберите пункт "Запустить профилирование"
  4. Процесс запустится немедленно

Мониторинг выполнения

После запуска профилирования в таблице отображается информация о ходе выполнения процесса.

Мониторинг прогресса профилирования

Индикаторы выполнения:

  • Шкала прогресса — визуальный индикатор с цветовой градацией
  • Процент выполнения — числовое значение завершенности задачи (например, 44%)
  • Статус задачи — текущее состояние процесса:
    • "В ПРОЦЕССЕ" — профилирование активно выполняется
    • "НЕ ПРОФИЛИРОВАЛСЯ" — задача еще не запускалась
    • "ЗАВЕРШЕНО" — процесс успешно завершен
    • "ОШИБКА" — возникла ошибка во время выполнения

Особенности выполнения

  • Одновременно может выполняться только одна задача профилирования для каждого экземпляра БД
  • Время выполнения зависит от размера базы данных и сложности структуры
  • Прогресс обновляется в реальном времени
  • При возникновении ошибок подробная информация сохраняется в логах системы
⚠️

Не рекомендуется запускать профилирование в часы пиковой нагрузки на базу данных, так как это может повлиять на производительность системы.

Результаты профилирования

Для просмотра результатов профилирования необходимо выбрать интересующий экземпляр БД в таблице, нажать правую кнопку мыши и выбрать пункт "Результаты профилирования".

Контекстное меню для просмотра результатов профилирования

Обзор результатов

Окно результатов профилирования

Окно результатов профилирования состоит из двух основных блоков:

1. Блок аналитики

Распределение по шаблонам: Отображает найденные категории персональных данных в виде цветных бейджей с количественными показателями, например:

  • ФИО (14) — персональные имена
  • Дата и место рождения (2) — даты рождения
  • Контактные данные (3) — телефоны, email
  • Работа (2) — трудовая информация
  • Финансовые данные (2) — финансовые сведения
  • Косвенные идентификаторы (1) — уникальные коды

Критичность объектов: Круговая диаграмма показывает распределение объектов по уровням риска:

  • Низкая (204) — зеленый цвет, минимальный риск содержания ПДн
  • Средняя (17) — желтый цвет, средний уровень риска
  • Высокая (4) — оранжевый цвет, высокий риск содержания ПДн
  • Критическая (0) — красный цвет, критический уровень риска

2. Таблица объектов

Основная таблица содержит детальную информацию по каждому проанализированному объекту.

Система фильтрации:

Для удобного поиска и анализа результатов доступны следующие фильтры:

  • Тип содержимого — фильтрация по наличию ПДн (все типы / содержит ПДн / не содержит ПДн и др.)
  • Схема объекта БД — поиск по конкретной схеме базы данных
  • Имя объекта БД — текстовый поиск по названию объекта
  • Тип объекта БД — фильтрация по типу (все типы / TABLE / VIEW / PROCEDURE и др.)
  • Критичность — фильтрация по уровню риска (все варианты / низкая / средняя / высокая / критическая)
  • Количество строк — выбор количества записей на странице (25, 50, 100)
  • Очистить — сброс всех примененных фильтров
  • Применить — активация установленных фильтров
КолонкаОписание
Статус в справочникеОтметка о наличии ПДн в справочнике объектов
Схема объекта БДНазвание схемы базы данных
Имя объекта БДНаименование объекта (таблица, представление)
Тип объекта БДТип объекта (TABLE, VIEW, PROCEDURE и др.)
Оценка имениБалл оценки семантики названия объекта
Оценка метаинформацииБалл анализа структуры и метаданных
Оценка сырых запросовБалл анализа SQL-запросов к объекту
Оценка выборки данныхБалл анализа содержимого данных
Итоговая оценкаСуммарная оценка с указанием уровня критичности

Массовые операции с объектами

Массовые операции с объектами

Для удобства работы с результатами доступны массовые операции:

  1. Выберите объекты с помощью чекбоксов в левой колонке
  2. Используйте массовые действия:
    • "Пометить как Содержит ПДн" — отмечает выбранные объекты как содержащие персональные данные
    • "Пометить как ПДн отсутствует" — отмечает объекты как не содержащие ПДн
💡

Количество выбранных объектов отображается рядом с кнопками массовых операций (например, "25 выбрано").

Работа с отдельными объектами

Контекстное меню для работы с объектом

Для работы с отдельным объектом используйте контекстное меню (правый клик):

Доступные действия:

  • Информация об объекте — переход в справочник объектов с детальной информацией
  • Подробности профилирования — детальный анализ результатов профилирования
  • Управление логированием объекта — переход к настройкам аудита для данного объекта
  • Пометить как Содержит ПДн — индивидуальная пометка объекта
  • Пометить как ПДн отсутствует — снятие пометки о наличии ПДн

Детали профилирования

Детальная информация о результатах профилирования объекта

При выборе "Подробности профилирования" открывается детальное окно с информацией:

Общая информация

  • Итоговая оценка — финальный балл с указанием уровня критичности (например, "23 (ВЫСОКИЙ)")
  • Кнопки управления для быстрой пометки объекта

Найденные шаблоны ПДн

Отображение обнаруженных категорий персональных данных в виде бейджей:

  • ФИО — найдены признаки персональных имен

Аналитические блоки

Вес по названию: Таблица с анализом семантики названия объекта:

  • Название объекта и соответствующий вес оценки

Оценка по схеме: Детальный анализ колонок объекта:

  • RECORD_ID — идентификатор записи (вес: 0)
  • PATIENT_NAME — имя пациента (вес: 3)
  • DIAGNOSIS — диагноз (вес: 4)
  • TREATMENT — лечение (вес: 4)
  • DOCTOR_NOTES — заметки врача (вес: 4)

Оценка по данным: Анализ фактического содержимого с примерами:

  • PATIENT_NAME (вес: 3) — "Иванов Иван Иванович, Петрова Анна Сергеевна"
  • DIAGNOSIS (вес: 0) — "Гипертония, ОРВИ, Гастрит"
  • TREATMENT (вес: 0) — "Лозартан 50 мг, Постельный режим, Диета"
  • DOCTOR_NOTES (вес: 5) — "Контроль АД 2 раза в день, Температура 37"

Экспорт результатов

Результаты профилирования можно экспортировать в различных форматах:

  • CSV — для анализа в электронных таблицах
  • PDF — для отчетности и документооборота
💡

Регулярный анализ результатов профилирования позволяет отслеживать изменения в структуре данных и своевременно обновлять классификацию объектов, содержащих персональные данные.