Quick Start Guide

EVL Anonymization Trial
Průvodce instalací a konfigurací

Úvod

Anonymizace EVL je nástroj sloužící k ochraně / anonymizaci osobních a komečních údajů. Je součástí rodiny datových nástrojů EVL a tudíž je vhodná pro zpracování velkých dat a datových toků (workflows). Anonymizace EVL používá konfigurační soubory ve stylu tabulky pro snadné vytváření běžných úloh EVL, které lze poté použít k okamžitému nebo plánovanému zpracování a také k integraci do větších pracovních toků: od generování úloh EVL až po anonymizaci dat.

Tento dokument vás provede následujícími kroky: instalací anonymizace, vytvořením ukázkového projektu, generováním EVL jobů a konečnou anonymizací ukázkových dat.

Instalace

Linux - RPM

Operační systémy na bázi Fedora, CentOS, Red Hat, Oracle Linux, etc.

Instalace EVL Anonymizace

  1. sudo dnf install evl-anonymization-trial-1.1-2.static.x86_64.rpm
  2. /opt/EVL-Anonymization-1.1/bin/evl init

Linux - DEB

Operační systémy na bázi Debianu: Ubuntu, Debian, etc.

Instalace EVL Anonymizace

  1. sudo apt install ./evl-anonymization-trial_1.1-2.static_amd64.deb
  2. /opt/EVL-Anonymization-1.1/bin/evl init

MS Windows - Ubuntu

EVL Tool Anonymizace nemá nativní distribuci pro Microsoft Windows, ale s výhodou využívá sílící příklon Microsoftu k plné podpoře Linuxu prostřednictvím WSL (Windows Subsystem for Linux). I když samotná anonymizace běží na Ubuntu pod Windows, lze ke všem souborům (datovým i konfiguračním) přistupovat například pomocí Windows Exploreru, Excelu apod.

Nainstalujte WSL, zpřístupněte jej ve Windows a poté nainstalujte Ubuntu 18.04 z Microsoft Store. Postupujte například podle tohoto návodu:

https://www.windowscentral.com/install-windows-subsystem-linux-windows-10

Dále postupujte dle instrukcí v Linux (DEB) installation instructions

Příklad

V tomto příkladu provedeme anonymizaci dat dvou csv souborů (addresses.csv, customers.csv) podle konfigurace uvedené v souboru sample_source.csv.

Vytvoření a spuštění příkladu

Vytvoříme projekt s použitím evl příkazu

evl anon project sample anon-sample
cd anon-sample

Vygenerujeme anonymizační joby z daného konfiguračního souboru

evl anon build configs/sample_source.csv

Spustíme vygenerované anonymizační joby.

evl run/anon/sample_source.addresses.evl
evl run/anon/sample_source.customers.evl

Adresářová struktura

datové soubory addresses.csv and customers.csv v adresáři data/source. Pomocí příkazu Tree získáme hierarchický seznam adresářů. Většina adresářů obsahuje interní funkce anonymizačního software. Pro testování chování anonymizace stačí měnit pouze:

  • konfigurační soubor sample_source.csv v adresáři configs
  • a datové soubory addresses.csv a customers.csv v adresáři data/source

Konfigurace anonymizačních funkcí

Editujte jednotlivé anonymizační funkce:

  • V souboru anon-sample\configs\sample\source.csv měňte hodnoty ve sloupci anon_type případně evl_value. Pro větší komfort lze využít možnosti editovat konfigurační soubor v Excelu s implementovanými list_of_values.
  • Poté spusťte přegenerování jobů pomocí příkazu
    evl anon build configs/sample_source.csv
  • Spusťte nově vytvořené anonymizační joby
    evl run/anon/sample_source.addresses.evl
    evl run/anon/sample_source.customers.evl
  • Prohlédněte si změny v anonymizovaných souborech addresses.csv a customers.csv v adresáři data/source/anon

Vytvoření vlastního projektu

Pomocí EVL příkazu vytvořte nový projekt. Dosaďte svoje jméno projektu místo <project>. Nová adresářová struktura s tímto jménem bude automaticky vytvořena

evl anon project new <project>

Přesuňte se do nově vytvořeného adresáře a vytvořte podadresáře pro data anonymizačního projektu

cd <project>
mkdir data/source
mkdir data/anon

Nakopírujte své vlastní datové soubory do adresáře <project>/data/source. Pokud nechcete nastavovat speciální parametry použijte následující konvence:

  • přípona: .csv
  • hlavička na prvním řádku
  • delimiter ";"

Vygenerujte standardní konfigurační soubor

evl anon source new <project> --guess-from- data/source --config-type=csv

Proveďte syntaktickou kontrolu konfiguračního souboru

evl anon check configs/<project>.csv

Vygenerujte anonymizační joby

evl anon build configs/<project>.csv

Spusťte anonymizační joby

evl run/anon/<evljob> kde <evljob> je jméno souboru s příponou .evl, který byl vygenerován v adresáři run/anon

Časté dotazy

Jak nastavit parametry, pokud edituji data ve Windows prostředí

Oddělovač sloupců konfiguračních CSV souborů lze nastavit proměnnou EVL_CONFIG_FIELD_SEPARATOR, oddělovač sloupců anonymizovaných dat potom proměnnou EVL_DEFAULT_FIELD_SEPARATOR. Výchozími oddělovači jsou středníky.

Windows konce řádků pak lze nastavit proměnnou EVL_ANON_EOL=”dos”. Všechny tyto proměnné lze nastavit v souboru project.sh.

Jak odinstalovat EVL Anononymizaci

DEB: sudo apt remove evl-anonymization-trial
RPM: sudo dnf remove evl-anonymization-trial

Ve standardním nastavení se výstupní soubory kumulují po každém běhu jobu. Jak zajistím, aby se pokaždé vytvořil nový `

Přidejte, případně změňte parametr z EVL_ANON_APPEND=1 na EVL_ANON_APPEND = 0 v souboru project.sh. Pokud chcete změnit toto chování pouze pro vybrané soubory, změňte obdobně soubor anon/<job name>.sh

Jak zajistit správnou práci s Windows konci řádků

Standardně se předpokládají Linuxové konce řádků vstupních filů, tedy “\n”. Nastavením EVL_ANON_EOL=”dos” zajistíme Windows konce řádků, tedy “\r\n” v configs/anon.*.sh file nebo v project.sh.

Jak zjistím, jestli je konfigurační soubor syntakticky v pořádku

Spusťte příkaz:

evl anon check <config_file>
evl anon check configs/sample_source.csv

Co dělat v případě chyby instalace

Nejčastěji pomůže update systému a opětovné spuštění instalace

DEB: sudo apt-get update
RPM: sudo dnf upgrade