oumi.core.evaluation.backends

oumi.core.evaluation.backends#

Submodules#

oumi.core.evaluation.backends.alpaca_eval module#

oumi.core.evaluation.backends.alpaca_eval.evaluate(task_params: AlpacaEvalTaskParams, config: EvaluationConfig, inference_engine: BaseInferenceEngine) → EvaluationResult[source]#

Evaluates a model using the Alpaca Eval framework.

For detailed documentation on the AlpacaEval framework, we refer you to the following readme: tatsu-lab/alpaca_eval.

Parameters:

task_params – The AlpacaEval parameters to use for evaluation.
config – The desired configuration for evaluation.
inference_engine – The inference engine to use for generating responses.

Returns:

The evaluation result (including metrics and their values).

oumi.core.evaluation.backends.lm_harness module#

oumi.core.evaluation.backends.lm_harness.evaluate(task_params: LMHarnessTaskParams, config: EvaluationConfig, random_seed: int | None = 0, numpy_random_seed: int | None = 1234, torch_random_seed: int | None = 1234) → EvaluationResult[source]#

Evaluates a model using the LM Evaluation Harness framework (EleutherAI).

For detailed documentation, we refer you to the following readme: EleutherAI/lm-evaluation-harness