Llm As Evaluator Python Packages

langtest

Deliver safe & effective language models

3K 562 50

nlptest

Deliver safe & effective language models

3K 562 50

vllm-judge

A tiny, lightweight library for LLM-as-a-Judge evaluations on vLLM-hosted models.

1K 2 2

xfinder

[ICLR 2025] xFinder: Large Language Models as Automated Evaluators for Reliable Evaluation

245 178 7

llm-antibodies

Antibodies for LLMs hallucinations (grouping LLM as a judge, NLI, reward models)

199 0 0

antibodies-rafaelsandroni

Antibodies for LLMs hallucinations (grouping LLM as a judge, NLI, reward models)

151 0 0