⚡️ Speed up function `find_last_node` by 13,688% by codeflash-ai[bot] · Pull Request #237 · codeflash-ai/optimize-me

codeflash-ai · 2025-12-30T08:23:59Z

📄 13,688% (136.88x) speedup for `find_last_node` in `src/algorithms/graph.py`

⏱️ Runtime : 57.8 milliseconds → 419 microseconds (best of 225 runs)

📝 Explanation and details

The optimized code achieves a 137x speedup by replacing an O(N×M) nested loop with an O(M+N) set-based lookup approach.

Key optimization:

The original code uses a nested iteration pattern:

all(e["source"] != n["id"] for e in edges)

For each node, this checks ALL edges to verify none have that node as a source. With N nodes and M edges, this creates N×M comparisons in the worst case.

The optimized code pre-computes a set of source node IDs:

sources = {e["source"] for e in edges}
return next((n for n in nodes if n["id"] not in sources), None)

This builds the source set once (O(M)) and then performs O(1) set membership checks for each node (O(N)), resulting in O(M+N) total complexity.

Why this matters:

The speedup is dramatic on larger graphs. Test results show:

Large linear chain (1000 nodes): 18.4ms → 58.4μs (314x faster)
Large cycle (1000 nodes): 18.3ms → 57.6μs (316x faster)
Dense graph (100 nodes, 2500 edges): 2.23ms → 52.8μs (42x faster)

Even small graphs benefit significantly (60-100% speedups) because set construction and lookup are highly optimized in Python, while the nested all() with generator expressions has per-iteration overhead.

Edge case handling:

The if not edges: check preserves the original behavior where an empty edge list allows returning the first node without accessing n["id"], avoiding KeyError when nodes lack an 'id' field. This maintains backward compatibility while enabling the optimization for all normal cases.

✅ Correctness verification report:

Test	Status
⚙️ Existing Unit Tests	🔘 None Found
🌀 Generated Regression Tests	✅ 65 Passed
⏪ Replay Tests	🔘 None Found
🔎 Concolic Coverage Tests	🔘 None Found
📊 Tests Coverage	100.0%

🌀 Click to see Generated Regression Tests

import pytest  # used for our unit tests
from src.algorithms.graph import find_last_node

# unit tests

# 1. BASIC TEST CASES


def test_single_node_no_edges():
    # One node, no edges: should return the node itself
    nodes = [{"id": 1}]
    edges = []
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 1.29μs -> 625ns (107% faster)


def test_two_nodes_one_edge():
    # Two nodes, one edge from 1->2: last node is 2
    nodes = [{"id": 1}, {"id": 2}]
    edges = [{"source": 1, "target": 2}]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 1.88μs -> 1.17μs (60.7% faster)


def test_three_nodes_linear_chain():
    # Three nodes, edges 1->2, 2->3: last node is 3
    nodes = [{"id": 1}, {"id": 2}, {"id": 3}]
    edges = [{"source": 1, "target": 2}, {"source": 2, "target": 3}]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 2.38μs -> 1.29μs (83.8% faster)


def test_three_nodes_branching():
    # Three nodes, edges 1->2, 1->3: last nodes are 2 and 3, but function returns first found
    nodes = [{"id": 1}, {"id": 2}, {"id": 3}]
    edges = [{"source": 1, "target": 2}, {"source": 1, "target": 3}]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 2.00μs -> 1.21μs (65.4% faster)


def test_no_nodes():
    # No nodes at all
    nodes = []
    edges = []
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 833ns -> 625ns (33.3% faster)


def test_no_edges_multiple_nodes():
    # Multiple nodes, no edges: all are "last", function returns first
    nodes = [{"id": 1}, {"id": 2}, {"id": 3}]
    edges = []
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 1.33μs -> 667ns (99.9% faster)


# 2. EDGE TEST CASES


def test_cycle_graph():
    # Cycle: 1->2, 2->3, 3->1. No last node.
    nodes = [{"id": 1}, {"id": 2}, {"id": 3}]
    edges = [
        {"source": 1, "target": 2},
        {"source": 2, "target": 3},
        {"source": 3, "target": 1},
    ]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 2.38μs -> 1.29μs (83.8% faster)


def test_disconnected_graph():
    # Disconnected: 1->2, 3 alone
    nodes = [{"id": 1}, {"id": 2}, {"id": 3}]
    edges = [{"source": 1, "target": 2}]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 1.88μs -> 1.17μs (60.7% faster)


def test_multiple_last_nodes():
    # 1->2, 1->3, 4 alone
    nodes = [{"id": 1}, {"id": 2}, {"id": 3}, {"id": 4}]
    edges = [{"source": 1, "target": 2}, {"source": 1, "target": 3}]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 1.92μs -> 1.21μs (58.7% faster)


def test_edge_with_nonexistent_node():
    # Edge references a node not in nodes list
    nodes = [{"id": 1}]
    edges = [{"source": 1, "target": 2}]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 1.46μs -> 1.12μs (29.6% faster)


def test_nodes_with_non_integer_ids():
    # Node IDs are strings
    nodes = [{"id": "A"}, {"id": "B"}]
    edges = [{"source": "A", "target": "B"}]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 1.96μs -> 1.17μs (67.8% faster)


def test_edges_with_extra_fields():
    # Edges have extra irrelevant fields
    nodes = [{"id": 1}, {"id": 2}]
    edges = [{"source": 1, "target": 2, "weight": 3.14, "label": "foo"}]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 1.92μs -> 1.17μs (64.3% faster)


def test_edge_with_no_source_field():
    # Edge missing 'source' field (should raise KeyError)
    nodes = [{"id": 1}, {"id": 2}]
    edges = [{"target": 2}]
    with pytest.raises(KeyError):
        find_last_node(nodes, edges)  # 2.38μs -> 1.00μs (138% faster)


def test_edge_with_no_target_field():
    # Edge missing 'target' field (should not affect, as only 'source' is used)
    nodes = [{"id": 1}, {"id": 2}]
    edges = [{"source": 1}]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 2.00μs -> 1.25μs (60.0% faster)


def test_duplicate_node_ids():
    # Duplicate node IDs: should still work, but function returns first matching
    nodes = [{"id": 1}, {"id": 1}, {"id": 2}]
    edges = [{"source": 1, "target": 2}]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 2.12μs -> 1.25μs (70.0% faster)


def test_duplicate_edges():
    # Duplicate edges: should not affect result
    nodes = [{"id": 1}, {"id": 2}]
    edges = [{"source": 1, "target": 2}, {"source": 1, "target": 2}]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 2.00μs -> 1.25μs (60.0% faster)


# 3. LARGE SCALE TEST CASES


def test_large_linear_chain():
    # Large linear chain: 1->2->3->...->1000, last node is 1000
    N = 1000
    nodes = [{"id": i} for i in range(1, N + 1)]
    edges = [{"source": i, "target": i + 1} for i in range(1, N)]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 18.4ms -> 58.4μs (31356% faster)


def test_large_star_graph():
    # Star: 1->2, 1->3, ..., 1->1000; all nodes except 1 are "last"
    N = 1000
    nodes = [{"id": i} for i in range(1, N + 1)]
    edges = [{"source": 1, "target": i} for i in range(2, N + 1)]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 38.5μs -> 20.5μs (87.6% faster)


def test_large_disconnected_graph():
    # 500 nodes with no edges, all are "last"
    N = 500
    nodes = [{"id": i} for i in range(N)]
    edges = []
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 1.33μs -> 708ns (88.4% faster)


def test_large_graph_with_cycle():
    # 1->2->3->...->1000->1 (cycle), no last node
    N = 1000
    nodes = [{"id": i} for i in range(1, N + 1)]
    edges = [{"source": i, "target": i + 1} for i in range(1, N)]
    edges.append({"source": N, "target": 1})
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 18.3ms -> 57.6μs (31613% faster)


def test_large_graph_multiple_last_nodes():
    # 1->2, 1->3, ..., 1->1000, plus 1001 alone
    N = 1000
    nodes = [{"id": i} for i in range(1, N + 2)]  # 1..1001
    edges = [{"source": 1, "target": i} for i in range(2, N + 1)]
    codeflash_output = find_last_node(nodes, edges)
    result = codeflash_output  # 37.7μs -> 20.5μs (83.9% faster)


# codeflash_output is used to check that the output of the original code is the same as that of the optimized code.

from __future__ import annotations

# imports
import pytest  # used for our unit tests
from src.algorithms.graph import find_last_node

# unit tests


class TestFindLastNodeBasic:
    """Test basic functionality with simple, straightforward cases."""

    def test_single_node_no_edges(self):
        """Test with a single node and no edges - node should be the last node."""
        nodes = [{"id": "A"}]
        edges = []
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 1.33μs -> 750ns (77.7% faster)

    def test_two_nodes_one_edge(self):
        """Test linear chain: A -> B, where B is the last node."""
        nodes = [{"id": "A"}, {"id": "B"}]
        edges = [{"source": "A", "target": "B"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.04μs -> 1.21μs (69.0% faster)

    def test_three_nodes_linear_chain(self):
        """Test linear chain: A -> B -> C, where C is the last node."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}]
        edges = [{"source": "A", "target": "B"}, {"source": "B", "target": "C"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.46μs -> 1.29μs (90.4% faster)

    def test_simple_tree_structure(self):
        """Test tree: A -> B, A -> C, where B and C are leaf nodes."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}]
        edges = [{"source": "A", "target": "B"}, {"source": "A", "target": "C"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.00μs -> 1.25μs (60.0% faster)


class TestFindLastNodeMultipleLastNodes:
    """Test cases where multiple nodes could be considered 'last'."""

    def test_two_last_nodes_returns_first(self):
        """Test that when multiple nodes have no outgoing edges, first in list is returned."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}]
        edges = [{"source": "A", "target": "D"}]  # B and C have no outgoing edges
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 1.92μs -> 1.17μs (64.3% faster)

    def test_all_nodes_are_last_nodes(self):
        """Test when all nodes have no outgoing edges."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}]
        edges = []
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 1.25μs -> 625ns (100% faster)

    def test_multiple_sinks_in_complex_graph(self):
        """Test graph with multiple sink nodes."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}, {"id": "D"}]
        edges = [{"source": "A", "target": "B"}, {"source": "A", "target": "C"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.00μs -> 1.25μs (60.0% faster)


class TestFindLastNodeNoLastNode:
    """Test cases where no last node exists (cycles, all nodes have outgoing edges)."""

    def test_simple_cycle(self):
        """Test cycle: A -> B -> A, no last node exists."""
        nodes = [{"id": "A"}, {"id": "B"}]
        edges = [{"source": "A", "target": "B"}, {"source": "B", "target": "A"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.00μs -> 1.25μs (60.0% faster)

    def test_self_loop(self):
        """Test single node with self-loop."""
        nodes = [{"id": "A"}]
        edges = [{"source": "A", "target": "A"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 1.50μs -> 1.17μs (28.6% faster)

    def test_complete_graph_three_nodes(self):
        """Test complete graph where every node has outgoing edges."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}]
        edges = [
            {"source": "A", "target": "B"},
            {"source": "B", "target": "C"},
            {"source": "C", "target": "A"},
        ]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.33μs -> 1.38μs (69.7% faster)

    def test_all_nodes_have_outgoing_edges(self):
        """Test where every node is a source in at least one edge."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}, {"id": "D"}]
        edges = [
            {"source": "A", "target": "B"},
            {"source": "B", "target": "C"},
            {"source": "C", "target": "D"},
            {"source": "D", "target": "A"},
        ]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.79μs -> 1.42μs (97.0% faster)


class TestFindLastNodeEmptyInputs:
    """Test edge cases with empty or minimal inputs."""

    def test_empty_nodes_empty_edges(self):
        """Test with both empty nodes and edges lists."""
        nodes = []
        edges = []
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 792ns -> 667ns (18.7% faster)

    def test_empty_nodes_with_edges(self):
        """Test with empty nodes but edges present (malformed input)."""
        nodes = []
        edges = [{"source": "A", "target": "B"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 750ns -> 1.04μs (28.0% slower)

    def test_nodes_with_empty_edges(self):
        """Test with nodes but no edges - first node should be returned."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}]
        edges = []
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 1.29μs -> 667ns (93.7% faster)


class TestFindLastNodeComplexStructures:
    """Test with more complex graph structures."""

    def test_disconnected_components(self):
        """Test graph with multiple disconnected components."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}, {"id": "D"}]
        edges = [{"source": "A", "target": "B"}, {"source": "C", "target": "D"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.04μs -> 1.25μs (63.4% faster)

    def test_diamond_structure(self):
        """Test diamond: A -> B, A -> C, B -> D, C -> D."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}, {"id": "D"}]
        edges = [
            {"source": "A", "target": "B"},
            {"source": "A", "target": "C"},
            {"source": "B", "target": "D"},
            {"source": "C", "target": "D"},
        ]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.96μs -> 1.42μs (109% faster)

    def test_deep_tree_structure(self):
        """Test deeper tree with multiple levels."""
        nodes = [
            {"id": "root"},
            {"id": "L1A"},
            {"id": "L1B"},
            {"id": "L2A"},
            {"id": "L2B"},
            {"id": "L2C"},
        ]
        edges = [
            {"source": "root", "target": "L1A"},
            {"source": "root", "target": "L1B"},
            {"source": "L1A", "target": "L2A"},
            {"source": "L1A", "target": "L2B"},
            {"source": "L1B", "target": "L2C"},
        ]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 3.54μs -> 1.46μs (143% faster)

    def test_graph_with_multiple_paths_to_sink(self):
        """Test graph where multiple paths lead to same sink."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}, {"id": "D"}, {"id": "E"}]
        edges = [
            {"source": "A", "target": "C"},
            {"source": "B", "target": "C"},
            {"source": "C", "target": "D"},
            {"source": "D", "target": "E"},
        ]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 3.21μs -> 1.38μs (133% faster)


class TestFindLastNodeVariousIdTypes:
    """Test with different types of node IDs."""

    def test_integer_ids(self):
        """Test with integer node IDs."""
        nodes = [{"id": 1}, {"id": 2}, {"id": 3}]
        edges = [{"source": 1, "target": 2}, {"source": 2, "target": 3}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.46μs -> 1.33μs (84.4% faster)

    def test_mixed_type_ids(self):
        """Test with mixed string and integer IDs."""
        nodes = [{"id": "A"}, {"id": 2}, {"id": "C"}]
        edges = [{"source": "A", "target": 2}, {"source": 2, "target": "C"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.67μs -> 1.33μs (100% faster)

    def test_numeric_string_ids(self):
        """Test with numeric strings as IDs."""
        nodes = [{"id": "1"}, {"id": "2"}, {"id": "3"}]
        edges = [{"source": "1", "target": "2"}, {"source": "2", "target": "3"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.33μs -> 1.25μs (86.6% faster)

    def test_uuid_like_ids(self):
        """Test with UUID-like string IDs."""
        nodes = [{"id": "a1b2c3d4"}, {"id": "e5f6g7h8"}, {"id": "i9j0k1l2"}]
        edges = [{"source": "a1b2c3d4", "target": "e5f6g7h8"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 1.83μs -> 1.21μs (51.6% faster)


class TestFindLastNodeEdgeProperties:
    """Test with edges having additional properties."""

    def test_edges_with_extra_properties(self):
        """Test that extra edge properties don't affect the result."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}]
        edges = [
            {"source": "A", "target": "B", "weight": 5, "label": "edge1"},
            {"source": "B", "target": "C", "weight": 3, "label": "edge2"},
        ]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.21μs -> 1.25μs (76.6% faster)

    def test_nodes_with_extra_properties(self):
        """Test that extra node properties don't affect the result."""
        nodes = [
            {"id": "A", "name": "Node A", "value": 10},
            {"id": "B", "name": "Node B", "value": 20},
            {"id": "C", "name": "Node C", "value": 30},
        ]
        edges = [{"source": "A", "target": "B"}, {"source": "B", "target": "C"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.29μs -> 1.25μs (83.3% faster)

    def test_edges_with_only_source_and_target(self):
        """Test with minimal edge structure (only source and target)."""
        nodes = [{"id": "A"}, {"id": "B"}]
        edges = [{"source": "A", "target": "B"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 1.83μs -> 1.17μs (57.1% faster)


class TestFindLastNodeNodeOrdering:
    """Test that node ordering in the list matters for return value."""

    def test_order_matters_for_multiple_sinks(self):
        """Test that the first node in list with no outgoing edges is returned."""
        # First ordering
        nodes1 = [{"id": "A"}, {"id": "B"}, {"id": "C"}]
        edges1 = [{"source": "D", "target": "E"}]  # A, B, C have no outgoing edges
        codeflash_output = find_last_node(nodes1, edges1)
        result1 = codeflash_output  # 1.50μs -> 1.08μs (38.4% faster)

        # Different ordering
        nodes2 = [{"id": "C"}, {"id": "B"}, {"id": "A"}]
        edges2 = [{"source": "D", "target": "E"}]
        codeflash_output = find_last_node(nodes2, edges2)
        result2 = codeflash_output  # 791ns -> 500ns (58.2% faster)

    def test_reordered_nodes_same_graph(self):
        """Test same graph structure with different node orderings."""
        edges = [{"source": "A", "target": "B"}]

        # B before C
        nodes1 = [{"id": "A"}, {"id": "B"}, {"id": "C"}]
        codeflash_output = find_last_node(nodes1, edges)
        result1 = codeflash_output  # 1.83μs -> 1.17μs (57.1% faster)

        # C before B
        nodes2 = [{"id": "A"}, {"id": "C"}, {"id": "B"}]
        codeflash_output = find_last_node(nodes2, edges)
        result2 = codeflash_output  # 916ns -> 583ns (57.1% faster)


class TestFindLastNodeLargeScale:
    """Test performance and correctness with large datasets."""

    def test_large_linear_chain(self):
        """Test with a long linear chain of nodes."""
        # Create chain: 0 -> 1 -> 2 -> ... -> 499
        n = 500
        nodes = [{"id": i} for i in range(n)]
        edges = [{"source": i, "target": i + 1} for i in range(n - 1)]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 4.54ms -> 29.5μs (15283% faster)

    def test_large_star_graph(self):
        """Test star graph with one center and many leaf nodes."""
        # Center node 0 connects to nodes 1-499
        n = 500
        nodes = [{"id": i} for i in range(n)]
        edges = [{"source": 0, "target": i} for i in range(1, n)]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 20.6μs -> 11.4μs (80.3% faster)

    def test_large_complete_sink_graph(self):
        """Test graph where many nodes point to a single sink."""
        # Nodes 0-499 all point to node 500
        n = 500
        nodes = [{"id": i} for i in range(n + 1)]
        edges = [{"source": i, "target": n} for i in range(n)]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 4.54ms -> 29.4μs (15318% faster)

    def test_large_binary_tree(self):
        """Test with a large binary tree structure."""
        # Create binary tree with depth 8 (255 nodes)
        nodes = [{"id": i} for i in range(255)]
        edges = []
        # Each node i has children at 2*i+1 and 2*i+2
        for i in range(127):  # Internal nodes
            left_child = 2 * i + 1
            right_child = 2 * i + 2
            if left_child < 255:
                edges.append({"source": i, "target": left_child})
            if right_child < 255:
                edges.append({"source": i, "target": right_child})

        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 605μs -> 10.8μs (5529% faster)

    def test_large_disconnected_components(self):
        """Test with many small disconnected components."""
        # Create 100 disconnected pairs: (0->1), (2->3), ..., (198->199)
        nodes = [{"id": i} for i in range(200)]
        edges = [{"source": i, "target": i + 1} for i in range(0, 200, 2)]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 6.04μs -> 4.54μs (33.0% faster)

    def test_dense_graph_many_edges(self):
        """Test graph with many nodes and dense edge connectivity."""
        # 100 nodes where first 50 all connect to last 50
        n = 100
        nodes = [{"id": i} for i in range(n)]
        edges = []
        for i in range(50):
            for j in range(50, 100):
                edges.append({"source": i, "target": j})

        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.23ms -> 52.8μs (4127% faster)

    def test_large_cycle_no_sink(self):
        """Test large cycle where no node is a sink."""
        # Create cycle: 0 -> 1 -> 2 -> ... -> 499 -> 0
        n = 500
        nodes = [{"id": i} for i in range(n)]
        edges = [{"source": i, "target": (i + 1) % n} for i in range(n)]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 4.51ms -> 29.3μs (15288% faster)

    def test_large_graph_single_sink_many_sources(self):
        """Test with many source nodes and one sink."""
        # 500 source nodes, all pointing to node 500
        n = 500
        nodes = [{"id": i} for i in range(n + 1)]
        edges = [{"source": i, "target": n} for i in range(n)]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 4.52ms -> 29.3μs (15299% faster)

    def test_large_multilevel_tree(self):
        """Test large tree with multiple levels and branches."""
        # Create a tree: root with 10 children, each with 10 children (111 nodes total)
        nodes = [{"id": f"node_{i}"} for i in range(111)]
        edges = []

        # Root to level 1 (10 children)
        for i in range(10):
            edges.append({"source": "node_0", "target": f"node_{i + 1}"})

        # Level 1 to level 2 (each of 10 nodes has 10 children)
        for i in range(10):
            parent = i + 1
            for j in range(10):
                child = 11 + i * 10 + j
                edges.append({"source": f"node_{parent}", "target": f"node_{child}"})

        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 33.8μs -> 7.00μs (383% faster)


class TestFindLastNodeSpecialCases:
    """Test special edge cases and boundary conditions."""

    def test_node_id_is_none(self):
        """Test with None as a node ID."""
        nodes = [{"id": None}, {"id": "B"}]
        edges = [{"source": None, "target": "B"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.12μs -> 1.29μs (64.6% faster)

    def test_duplicate_node_ids(self):
        """Test behavior with duplicate node IDs in list."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "A"}]
        edges = [{"source": "A", "target": "B"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 1.96μs -> 1.21μs (62.1% faster)

    def test_edge_source_not_in_nodes(self):
        """Test when edge source doesn't match any node ID."""
        nodes = [{"id": "A"}, {"id": "B"}]
        edges = [{"source": "C", "target": "A"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 1.50μs -> 1.12μs (33.3% faster)

    def test_multiple_edges_same_source(self):
        """Test node with multiple outgoing edges."""
        nodes = [{"id": "A"}, {"id": "B"}, {"id": "C"}, {"id": "D"}]
        edges = [
            {"source": "A", "target": "B"},
            {"source": "A", "target": "C"},
            {"source": "A", "target": "D"},
        ]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 2.04μs -> 1.29μs (58.2% faster)

    def test_empty_string_id(self):
        """Test with empty string as node ID."""
        nodes = [{"id": ""}, {"id": "A"}]
        edges = [{"source": "", "target": "A"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 1.92μs -> 1.21μs (58.6% faster)

    def test_whitespace_id(self):
        """Test with whitespace as node ID."""
        nodes = [{"id": " "}, {"id": "A"}]
        edges = [{"source": " ", "target": "A"}]
        codeflash_output = find_last_node(nodes, edges)
        result = codeflash_output  # 1.88μs -> 1.17μs (60.7% faster)


# codeflash_output is used to check that the output of the original code is the same as that of the optimized code.

To edit these changes git checkout codeflash/optimize-find_last_node-mjsbm2yt and push.

The optimized code achieves a **137x speedup** by replacing an O(N×M) nested loop with an O(M+N) set-based lookup approach. **Key optimization:** The original code uses a nested iteration pattern: ```python all(e["source"] != n["id"] for e in edges) ``` For each node, this checks ALL edges to verify none have that node as a source. With N nodes and M edges, this creates N×M comparisons in the worst case. The optimized code pre-computes a set of source node IDs: ```python sources = {e["source"] for e in edges} return next((n for n in nodes if n["id"] not in sources), None) ``` This builds the source set once (O(M)) and then performs O(1) set membership checks for each node (O(N)), resulting in O(M+N) total complexity. **Why this matters:** The speedup is dramatic on larger graphs. Test results show: - **Large linear chain (1000 nodes):** 18.4ms → 58.4μs (**314x faster**) - **Large cycle (1000 nodes):** 18.3ms → 57.6μs (**316x faster**) - **Dense graph (100 nodes, 2500 edges):** 2.23ms → 52.8μs (**42x faster**) Even small graphs benefit significantly (60-100% speedups) because set construction and lookup are highly optimized in Python, while the nested `all()` with generator expressions has per-iteration overhead. **Edge case handling:** The `if not edges:` check preserves the original behavior where an empty edge list allows returning the first node without accessing `n["id"]`, avoiding `KeyError` when nodes lack an 'id' field. This maintains backward compatibility while enabling the optimization for all normal cases.

codeflash-ai bot requested a review from KRRT7 December 30, 2025 08:24

codeflash-ai bot added ⚡️ codeflash Optimization PR opened by Codeflash AI 🎯 Quality: High Optimization Quality according to Codeflash labels Dec 30, 2025

KRRT7 closed this Jan 25, 2026

KRRT7 deleted the codeflash/optimize-find_last_node-mjsbm2yt branch January 25, 2026 09:03

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

⚡️ Speed up function `find_last_node` by 13,688%#237

⚡️ Speed up function `find_last_node` by 13,688%#237
codeflash-ai[bot] wants to merge 1 commit intomainfrom
codeflash/optimize-find_last_node-mjsbm2yt

codeflash-ai bot commented Dec 30, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

codeflash-ai bot commented Dec 30, 2025

📄 13,688% (136.88x) speedup for find_last_node in src/algorithms/graph.py

📝 Explanation and details

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

📄 13,688% (136.88x) speedup for `find_last_node` in `src/algorithms/graph.py`