algorithms-user-guide.md

def mean_local(local_data):
    # Compute sum and count
    sx = local_data.sum()
    n = len(local_data)

    # Pack results into single dictionary which will
    # be transferred to global node
    results = {"sx": sx, "n": n}
    return results
def mean_global(local_results):
    # Sum aggregates from all nodes
    sx = sum(res["sx"] for res in local_results)
    n = sum(res["n"] for res in local_results)

    # Compute global mean
    mean = sx / n

    return mean
def run(all_data):
    local_results = [mean_local(local_data) for local_data in all_data]
    mean = mean_global(local_results)
    return mean
import pandas as pd

x1 = pd.DataFrame({"var": [1, 2, 3]})
x2 = pd.DataFrame({"var": [4, 5, 6]})
all_data = [x1, x2]
print(run(all_data))
from exareme2.udfgen import udf, relation, transfer

@udf(local_data=relation(), return_type=transfer())
def mean_local(local_data):
    # Compute two aggregates, sx and n_obs
    sx = local_data.sum()
    n = len(local_data)

    # Pack results into single dictionary which will
    # be transferred to global node
    results = {"sx": sx, "n": n}
    return results
from exareme2.udfgen import udf, transfer, merge_transfer

@udf(local_results=merge_transfer(), return_type=transfer())
def mean_global(local_results):
    # Sum aggregates from all nodes
    sx = sum(res["sx"] for res in local_results)
    n = sum(res["n"] for res in local_results)

    # Compute global mean
    mean = sx / n

    # Pack result into dictionary
    result = {"mean": mean}
    return result
from exareme2.algorithms.algorithm import Algorithm

class MyAlgorithm(Algorithm, algname="my_algorithm"):
    def run(self, data, metadata):
        local_results = self.engine.run_udf_on_local_nodes(
            func=mean_local,
            keyword_args={"local_data": data},
            share_to_global=True,
        )
        result = self.engine.run_udf_on_global_node(
            func=mean_global,
            keyword_args={"local_results": local_results},
        )
        return result
from exareme2.algorithms.algorithm import AlgorithmDataLoader

class MyDataLoader(AlgorithmDataLoader, algname="mean"):
    def get_variable_groups(self):
        return [self._variables.x]
{
    "name": "mean",
    "desc": "Computes the mean of a single variable.",
    "label": "Mean",
    "enabled": true,
    "inputdata": {
        "x": {
            "label": "Variable",
            "desc": "A unique numerical variable.",
            "types": [ "real" ],
            "stattypes": [ "numerical" ],
            "notblank": true,
            "multiple": false
        }
    }
}
from exareme2.udfgen import udf, state, transfer

@udf(input=relation(), return_type=[state(), transfer()])
def two_outputs(input):
    ...                                  # compute stuff
    output_state = {}                    # output_state is a dict where we store variables for later use
    ...                                  # add stuff to output_state
    output_transfer = {}                 # output_transfer is a dict with variables we want to transfer
    ...                                  # add stuff to output_transfer
    return output_state, output_transfer # multiple return statement
from exareme2.udfgen import udf, relation, secure_transfer

@udf(local_data=relation(), return_type=secure_transfer(sum_op=True))
def mean_local(local_data):
    sx = local_data.sum()
    n = len(local_data)

    results = {"sx": {"data": sx, "operation": "sum", "type": float},
               "n":  {"data":  n, "operation": "sum", "type": int}}
    return results
@udf(local_results=transfer(), return_type=transfer())
def mean_global(local_results):
    sx = local_results['sx']
    n = local_results['n']

    mean = sx / n
    result = {"mean": mean}
    return result
result = (A @ B @ C).sum()
result = numpy.einsum('ij,jk,kl->', A, B, C)
\text{TSS} = \sum_i^N (y_i - \hat{y})^2
\text{TSS} = \sum_i^N y_i^2 - 2 \hat{y} \sum_i^N y_i + N \hat{y}^2
from exareme2.algorithms.algorithm import Algorithm
from exareme2.algorithms.helpers import get_transfer_data

class MyAlgorithm(Algorithm, algname="iterative"):
    def run(self, data, metadata):
        val = 0
        while True:
            local_results = self.engine.run_udf_on_local_nodes(
                local_udf,
                keyword_args={"val": val},
                share_to_global=True,
            )
            result = self.engine.run_udf_on_global_node(
                global_udf,
                keyword_args={"local_transfers": local_results}
            )
            data = get_transfer_data(result)
            val = data["val"]
            criterion = data["criterion"]

            if criterion:
                break

        return val
from exareme2.algorithms.algorithm import Algorithm

class MyModel:
    def __init__(self, engine):
        self.engine = engine

    def fit(self, data):
       # Complex computation calling local and global UDFs though self.engine
       ...

    def predict(self, new_data):
        ...

class MyAlgorithm(Algorithm, algname="complex_algorithm"):
    def run(self, data, metadata):
        model = MyModel(self.engine)  # need to pass self.engine
        model.fit(data)

        new_data = ...
        predictions = model.predict(new_data)
        ...