numerics/api/matrix_8cpp_source.html

/// @file core/matrix.cpp

/// @brief Matrix constructors, GPU lifecycle, and backend dispatch for matrix

/// ops.

///

/// Adding a new backend:

///   1. Add the enumerator to enum class Backend in include/core/policy.hpp

///   2. Create src/core/backends/<name>/ with impl.hpp and matrix.cpp

///   3. Add `case Backend::<name>:` to each switch below

///   4. Register the .cpp in cmake/sources.cmake


#include "core/matrix.hpp"

#include "core/parallel/cuda_ops.hpp"

#include <algorithm>


#include "backends/seq/impl.hpp"

#include "backends/blas/impl.hpp"

#include "backends/omp/impl.hpp"

#include "backends/gpu/impl.hpp"

#include "backends/simd/impl.hpp"


namespace num {


Matrix::Matrix(idx rows, idx cols)

    : rows_(rows)

    , cols_(cols)

    , data_(new real[rows * cols]()) {}


Matrix::Matrix(idx rows, idx cols, real val)

    : rows_(rows)

    , cols_(cols)

    , data_(new real[rows * cols]) {

    std::fill_n(data_.get(), size(), val);

}


Matrix::~Matrix() {

    if (d_data_)

        cuda::free(d_data_);

}


Matrix::Matrix(const Matrix& o)

    : rows_(o.rows_)

    , cols_(o.cols_)

    , data_(new real[o.size()]) {

    std::copy_n(o.data_.get(), size(), data_.get());

}


Matrix::Matrix(Matrix&& o) noexcept

    : rows_(o.rows_)

    , cols_(o.cols_)

    , data_(std::move(o.data_))

    , d_data_(o.d_data_) {

    o.rows_ = o.cols_ = 0;

    o.d_data_         = nullptr;

}


Matrix& Matrix::operator=(const Matrix& o) {

    if (this != &o) {

        rows_ = o.rows_;

        cols_ = o.cols_;

        data_.reset(new real[size()]);

        std::copy_n(o.data_.get(), size(), data_.get());

    }

    return *this;

}


Matrix& Matrix::operator=(Matrix&& o) noexcept {

    if (this != &o) {

        if (d_data_)

            cuda::free(d_data_);

        rows_   = o.rows_;

        cols_   = o.cols_;

        data_   = std::move(o.data_);

        d_data_ = o.d_data_;

        o.rows_ = o.cols_ = 0;

        o.d_data_         = nullptr;

    }

    return *this;

}


void Matrix::to_gpu() {

    if (!d_data_) {

        d_data_ = cuda::alloc(size());

        cuda::to_device(d_data_, data_.get(), size());

    }

}


void Matrix::to_cpu() {

    if (d_data_) {

        cuda::to_host(data_.get(), d_data_, size());

        cuda::free(d_data_);

        d_data_ = nullptr;

    }

}


void matmul(const Matrix& A, const Matrix& B, Matrix& C, Backend b) {

    switch (b) {

        case Backend::seq:

            backends::seq::matmul(A, B, C);

            break;

        case Backend::blocked:

            backends::seq::matmul_blocked(A, B, C, 64);

            break;

        case Backend::simd:

            backends::simd::matmul(A, B, C, 64);

            break;

        case Backend::lapack:

            [[fallthrough]]; // no LAPACK matmul; use BLAS

        case Backend::blas:

            backends::blas::matmul(A, B, C);

            break;

        case Backend::omp:

            backends::omp::matmul(A, B, C);

            break;

        case Backend::gpu:

            backends::gpu::matmul(A, B, C);

            break;

    }

}


void matvec(const Matrix& A, const Vector& x, Vector& y, Backend b) {

    switch (b) {

        case Backend::seq:

            backends::seq::matvec(A, x, y);

            break;

        case Backend::blocked:

            backends::seq::matvec(A, x, y);

            break;

        case Backend::simd:

            backends::simd::matvec(A, x, y);

            break;

        case Backend::lapack:

            [[fallthrough]]; // no LAPACK matvec; use BLAS

        case Backend::blas:

            backends::blas::matvec(A, x, y);

            break;

        case Backend::omp:

            backends::omp::matvec(A, x, y);

            break;

        case Backend::gpu:

            backends::gpu::matvec(A, x, y);

            break;

    }

}


void matadd(real          alpha,

            const Matrix& A,

            real          beta,

            const Matrix& B,

            Matrix&       C,

            Backend       b) {

    switch (b) {

        case Backend::seq:

        case Backend::blocked:

        case Backend::simd:

            backends::seq::matadd(alpha, A, beta, B, C);

            break;

        case Backend::lapack:

            [[fallthrough]]; // no LAPACK matadd; use BLAS

        case Backend::blas:

            backends::blas::matadd(alpha, A, beta, B, C);

            break;

        case Backend::omp:

            backends::omp::matadd(alpha, A, beta, B, C);

            break;

        case Backend::gpu:

            backends::seq::matadd(alpha, A, beta, B, C);

            break;

    }

}


void matmul_blocked(const Matrix& A,

                    const Matrix& B,

                    Matrix&       C,

                    idx           block_size) {

    backends::seq::matmul_blocked(A, B, C, block_size);

}


void matmul_register_blocked(const Matrix& A,

                             const Matrix& B,

                             Matrix&       C,

                             idx           block_size,

                             idx           reg_size) {

    backends::seq::matmul_register_blocked(A, B, C, block_size, reg_size);

}


void matmul_simd(const Matrix& A, const Matrix& B, Matrix& C, idx block_size) {

    backends::simd::matmul(A, B, C, block_size);

}


void matvec_simd(const Matrix& A, const Vector& x, Vector& y) {

    backends::simd::matvec(A, x, y);

}


} // namespace num

num::BasicVector< real >

num::Matrix
Dense row-major matrix with optional GPU storage.
Definition matrix.hpp:12

num::Matrix::size
constexpr idx size() const noexcept
Definition matrix.hpp:26

num::Matrix::operator=
Matrix & operator=(const Matrix &)
Definition matrix.cpp:56

num::Matrix::to_cpu
void to_cpu()
Definition matrix.cpp:87

num::Matrix::to_gpu
void to_gpu()
Definition matrix.cpp:80

num::Matrix::~Matrix
~Matrix()
Definition matrix.cpp:35

num::Matrix::Matrix
Matrix()
Definition matrix.hpp:14

impl.hpp
Private declarations for the BLAS backend. Only included by src/core/vector.cpp and src/core/matrix....

impl.hpp
Private declarations for the GPU (CUDA) backend. Only included by src/core/vector....

impl.hpp
Private declarations for the SIMD backend. Only included by src/core/vector.cpp and src/core/matrix....

cuda_ops.hpp
CUDA kernel wrappers.

matrix.hpp
Matrix operations.

num::backends::blas::matmul
void matmul(const Matrix &A, const Matrix &B, Matrix &C)
Definition matrix.cpp:37

num::backends::blas::matadd
void matadd(real alpha, const Matrix &A, real beta, const Matrix &B, Matrix &C)
Definition matrix.cpp:79

num::backends::blas::matvec
void matvec(const Matrix &A, const Vector &x, Vector &y)
Definition matrix.cpp:59

num::backends::gpu::matmul
void matmul(const Matrix &A, const Matrix &B, Matrix &C)
Definition matrix.cpp:13

num::backends::gpu::matvec
void matvec(const Matrix &A, const Vector &x, Vector &y)
Definition matrix.cpp:26

num::backends::omp::matvec
void matvec(const Matrix &A, const Vector &x, Vector &y)
Definition matrix.cpp:42

num::backends::omp::matadd
void matadd(real alpha, const Matrix &A, real beta, const Matrix &B, Matrix &C)
Definition matrix.cpp:56

num::backends::omp::matmul
void matmul(const Matrix &A, const Matrix &B, Matrix &C)
Definition matrix.cpp:14

num::backends::seq::matmul_register_blocked
void matmul_register_blocked(const Matrix &A, const Matrix &B, Matrix &C, idx block_size, idx reg_size)
Definition matrix.cpp:114

num::backends::seq::matmul
void matmul(const Matrix &A, const Matrix &B, Matrix &C)
Definition matrix.cpp:14

num::backends::seq::matvec
void matvec(const Matrix &A, const Vector &x, Vector &y)
Definition matrix.cpp:24

num::backends::seq::matmul_blocked
void matmul_blocked(const Matrix &A, const Matrix &B, Matrix &C, idx block_size)
Definition matrix.cpp:77

num::backends::seq::matadd
void matadd(real alpha, const Matrix &A, real beta, const Matrix &B, Matrix &C)
Definition matrix.cpp:32

num::backends::simd::matvec
void matvec(const Matrix &A, const Vector &x, Vector &y)
Definition matrix.cpp:258

num::backends::simd::matmul
void matmul(const Matrix &A, const Matrix &B, Matrix &C, idx block_size)
Definition matrix.cpp:248

num::cuda::to_device
void to_device(real *dst, const real *src, idx n)
Copy host to device.
Definition cuda_stubs.cpp:16

num::cuda::free
void free(real *ptr)
Free device memory.
Definition cuda_stubs.cpp:13

num::cuda::alloc
real * alloc(idx n)
Allocate device memory.
Definition cuda_stubs.cpp:10

num::cuda::to_host
void to_host(real *dst, const real *src, idx n)
Copy device to host.
Definition cuda_stubs.cpp:19

num
Definition quadrature.hpp:8

num::matmul_simd
void matmul_simd(const Matrix &A, const Matrix &B, Matrix &C, idx block_size=64)
C = A * B (SIMD-accelerated)
Definition matrix.cpp:186

num::real
double real
Definition types.hpp:10

num::Backend
Backend
Selects which backend handles a linalg operation.
Definition policy.hpp:19

num::Backend::gpu
@ gpu
CUDA – custom kernels or cuBLAS.

num::Backend::omp
@ omp
OpenMP parallel blocked loops.

num::Backend::blocked
@ blocked
Cache-blocked; compiler auto-vectorizes inner loops.

num::Backend::simd
@ simd
Hand-written SIMD intrinsics (AVX2 or NEON)

num::Backend::blas
@ blas
cblas – OpenBLAS, MKL, Apple Accelerate (Level-1/2/3)

num::Backend::lapack
@ lapack
LAPACKE – industry-standard factorizations, SVD, eigen.

num::Backend::seq
@ seq
Naive textbook loops – always available.

num::matvec_simd
void matvec_simd(const Matrix &A, const Vector &x, Vector &y)
y = A * x (SIMD-accelerated)
Definition matrix.cpp:190

num::beta
real beta(real a, real b)
B(a, b) – beta function.
Definition math.hpp:248

num::idx
std::size_t idx
Definition types.hpp:11

num::matvec
void matvec(const Matrix &A, const Vector &x, Vector &y, Backend b=default_backend)
y = A * x
Definition matrix.cpp:120

num::matmul_blocked
void matmul_blocked(const Matrix &A, const Matrix &B, Matrix &C, idx block_size=64)
C = A * B (cache-blocked)
Definition matrix.cpp:171

num::matmul
void matmul(const Matrix &A, const Matrix &B, Matrix &C, Backend b=default_backend)
C = A * B.
Definition matrix.cpp:95

num::matadd
void matadd(real alpha, const Matrix &A, real beta, const Matrix &B, Matrix &C, Backend b=default_backend)
C = alpha*A + beta*B.
Definition matrix.cpp:145

num::matmul_register_blocked
void matmul_register_blocked(const Matrix &A, const Matrix &B, Matrix &C, idx block_size=64, idx reg_size=4)
C = A * B (register-blocked)
Definition matrix.cpp:178