math/tridiagonalization_8hpp_source.html

#ifndef STAN_MATH_OPENCL_TRIDIAGONALIZATION_HPP

#define STAN_MATH_OPENCL_TRIDIAGONALIZATION_HPP


#ifdef STAN_OPENCL


#include <stan/math/opencl/matrix_cl.hpp>

#include <stan/math/opencl/prim/multiply.hpp>

#include <stan/math/opencl/kernel_generator.hpp>

#include <stan/math/opencl/copy.hpp>


#include <stan/math/opencl/kernels/tridiagonalization.hpp>


namespace stan {

namespace math {

namespace internal {


inline void block_householder_tridiag_cl(const matrix_cl<double>& A,

                                         matrix_cl<double>& packed,

                                         const int r = 60) {

  packed = A;

  for (size_t k = 0; k < A.rows() - 2; k += r) {

    const int actual_r = std::min({r, static_cast<int>(A.rows() - k - 2)});

    matrix_cl<double> V_cl = constant(0.0, A.rows() - k - 1, actual_r + 1);


    matrix_cl<double> Uu(actual_r, 1), Vu(actual_r, 1), q_cl(1, 1);

    for (size_t j = 0; j < actual_r; j++) {

      try {

        int hh_local

            = opencl_kernels::tridiagonalization_householder.get_option(

                "LOCAL_SIZE_");

        opencl_kernels::tridiagonalization_householder(

            cl::NDRange(hh_local), cl::NDRange(hh_local), packed, V_cl, q_cl,

            packed.rows(), V_cl.rows(), j, k);

        if (j != 0) {

          int v_step_1_local

              = opencl_kernels::tridiagonalization_v_step_1.get_option(

                  "LOCAL_SIZE_");

          opencl_kernels::tridiagonalization_v_step_1(

              cl::NDRange(v_step_1_local * j), cl::NDRange(v_step_1_local),

              packed, V_cl, Uu, Vu, packed.rows(), V_cl.rows(), k);

        }

        int v_step_2_local

            = opencl_kernels::tridiagonalization_v_step_2.get_option(

                "LOCAL_SIZE_");

        opencl_kernels::tridiagonalization_v_step_2(

            cl::NDRange((A.rows() - k - j - 1 + v_step_2_local - 1)

                        / v_step_2_local * v_step_2_local),

            cl::NDRange(v_step_2_local), packed, V_cl, Uu, Vu, packed.rows(),

            V_cl.rows(), k, j);

        int v_step_3_local

            = opencl_kernels::tridiagonalization_v_step_3.get_option(

                "LOCAL_SIZE_");

        opencl_kernels::tridiagonalization_v_step_3(

            cl::NDRange(v_step_3_local), cl::NDRange(v_step_3_local), packed,

            V_cl, q_cl, packed.rows(), V_cl.rows(), k, j);

      } catch (cl::Error& e) {

        check_opencl_error("block_householder_tridiag_cl", e);

      }

    }

    matrix_cl<double> U_cl = block_zero_based(

        packed, k + actual_r, k, A.rows() - k - actual_r, actual_r);

    matrix_cl<double> V_block_cl = block_zero_based(

        V_cl, actual_r - 1, 0, V_cl.rows() - actual_r + 1, actual_r);

    matrix_cl<double> partial_update_cl = U_cl * transpose(V_block_cl);


    auto block

        = block_zero_based(packed, k + actual_r, k + actual_r,

                           partial_update_cl.rows(), partial_update_cl.cols());

    block = block - partial_update_cl - transpose(partial_update_cl);

  }

  block_zero_based(packed, packed.rows() - 2, packed.cols() - 1, 1, 1)

      = block_zero_based(packed, packed.rows() - 1, packed.cols() - 2, 1, 1);

}


inline void block_apply_packed_Q_cl(const matrix_cl<double>& packed_cl,

                                    matrix_cl<double>& A, const int r = 200) {

  Eigen::MatrixXd packed = from_matrix_cl(packed_cl);

  Eigen::MatrixXd scratch_space(A.rows(), r);

  for (int k = (packed.rows() - 3) / r * r; k >= 0; k -= r) {

    const int actual_r = std::min({r, static_cast<int>(packed.rows() - k - 2)});

    Eigen::MatrixXd W(packed.rows() - k - 1, actual_r);

    W.col(0) = packed.col(k).tail(W.rows());

    for (size_t j = 1; j < actual_r; j++) {

      scratch_space.col(0).head(j).noalias()

          = packed.block(k + j + 1, k, packed.rows() - k - j - 1, j).transpose()

            * packed.col(j + k).tail(packed.rows() - k - j - 1);

      W.col(j).noalias() = -W.leftCols(j) * scratch_space.col(0).head(j);

      W.col(j).tail(W.rows() - j)

          += packed.col(j + k).tail(packed.rows() - k - j - 1);

    }

    matrix_cl<double> packed_block_transpose_triang_cl = transpose(

        block_zero_based(packed_cl, k + 1, k, packed.rows() - k - 1, actual_r));

    packed_block_transpose_triang_cl.view(matrix_cl_view::Upper);

    matrix_cl<double> W_cl(W);

    auto A_bottom_cl

        = block_zero_based(A, k + 1, 0, A.rows() - k - 1, A.cols());

    matrix_cl<double> A_bottom_cl_eval = A_bottom_cl;

    matrix_cl<double> tmp1

        = packed_block_transpose_triang_cl * A_bottom_cl_eval;

    matrix_cl<double> tmp2 = W_cl * tmp1;

    A_bottom_cl -= tmp2;

  }

}


}  // namespace internal

}  // namespace math

}  // namespace stan


#endif

#endif

stan::math::matrix_cl::cols
int cols() const
Definition matrix_cl.hpp:66

stan::math::matrix_cl::rows
int rows() const
Definition matrix_cl.hpp:64

stan::math::matrix_cl::view
const matrix_cl_view & view() const
Definition matrix_cl.hpp:70

stan::math::matrix_cl
Represents an arithmetic matrix on the OpenCL device.
Definition matrix_cl.hpp:47

copy.hpp

stan::math::check_opencl_error
void check_opencl_error(const char *function, const cl::Error &e)
Throws the domain error with specifying the OpenCL error that occurred.
Definition check_opencl.hpp:23

stan::math::block_zero_based
auto block_zero_based(T &&a, int start_row, int start_col, int rows, int cols)
Block of a kernel generator expression.
Definition block_zero_based.hpp:340

stan::math::transpose
auto transpose(Arg &&a)
Transposes a kernel generator expression.
Definition transpose.hpp:139

stan::math::constant
auto constant(const T a, int rows, int cols)
Matrix of repeated values in kernel generator expressions.
Definition constant.hpp:130

stan::math::from_matrix_cl
auto from_matrix_cl(const T &src)
Copies the source matrix that is stored on the OpenCL device to the destination Eigen matrix.
Definition copy.hpp:61

kernel_generator.hpp

tridiagonalization.hpp

matrix_cl.hpp

stan::math::internal::block_householder_tridiag_cl
void block_householder_tridiag_cl(const matrix_cl< double > &A, matrix_cl< double > &packed, const int r=60)
Tridiagonalize a symmetric matrix using block Housholder algorithm.
Definition tridiagonalization.hpp:29

stan::math::internal::block_apply_packed_Q_cl
void block_apply_packed_Q_cl(const matrix_cl< double > &packed_cl, matrix_cl< double > &A, const int r=200)
Calculates Q*A in-place.
Definition tridiagonalization.hpp:100

stan::math::opencl_kernels::tridiagonalization_v_step_1
const kernel_cl< in_buffer, in_buffer, out_buffer, out_buffer, int, int, int > tridiagonalization_v_step_1("tridiagonalization_v_step_1", {tridiagonalization_v_step_1_kernel_code}, {{"REDUCTION_STEP_SIZE", 4}, {"LOCAL_SIZE_", 64}})

stan::math::opencl_kernels::tridiagonalization_v_step_2
const kernel_cl< in_buffer, out_buffer, in_buffer, in_buffer, int, int, int, int > tridiagonalization_v_step_2("tridiagonalization_v_step_2", {tridiagonalization_v_step_2_kernel_code}, {{"REDUCTION_STEP_SIZE", 4}, {"LOCAL_SIZE_", 64}})

stan::math::opencl_kernels::tridiagonalization_v_step_3
const kernel_cl< in_out_buffer, in_out_buffer, out_buffer, int, int, int, int > tridiagonalization_v_step_3("tridiagonalization_v_step_3", {tridiagonalization_v_step_3_kernel_code}, {{"REDUCTION_STEP_SIZE", 4}, {"LOCAL_SIZE_", 1024}})

stan::math::opencl_kernels::tridiagonalization_householder
const kernel_cl< in_out_buffer, in_out_buffer, out_buffer, int, int, int, int > tridiagonalization_householder("tridiagonalization_householder", {tridiagonalization_householder_kernel_code}, {{"REDUCTION_STEP_SIZE", 4}, {"LOCAL_SIZE_", 1024}})

stan::math::e
static constexpr double e()
Return the base of the natural logarithm.
Definition constants.hpp:20

stan::math::block
auto block(T_x &&x, size_t i, size_t j, size_t nrows, size_t ncols)
Return a nrows x ncols submatrix starting at (i-1, j-1).
Definition block.hpp:24

stan::math::matrix_cl_view::Upper
@ Upper

stan
The lgamma implementation in stan-math is based on either the reentrant safe lgamma_r implementation ...
Definition unit_vector_constrain.hpp:15

multiply.hpp